數據挖掘算法實踐與案例詳解 丁兆云 沈大勇 徐偉 周鋆
定 價:59 元
- 作者:丁兆云 沈大勇 徐偉 周鋆
- 出版時間:2025/2/1
- ISBN:9787111760696
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
數據挖掘算法為大數據與人工智能的核心,掌握數據挖掘各算法的編程實現,有助于提升大數據的實踐運用能力。本書詳細闡述了數據挖掘常用算法與編程實現,同時,本書以多個經典的數據挖掘賽題為案例,詳細論述了數據預處理、特征選擇、可視化、算法選擇等全流程數據挖掘過程的編程實現,有助于提升讀者面對實際數據問題時靈活運用各類算法能力。
隨著大數據和人工智能技術的發(fā)展,各行各業(yè)積累的數據越來越豐富,如何從這些數據中挖掘出有價值的信息,助力科學、合理的決策變得日益重要。數據挖掘技術可以從大量異構、隨機數據中提取有用的信息和知識,已經廣泛應用于工作和生活的各個領域。本書基于作者長期從事數據挖掘科研、工程和教學工作的經驗編寫而成,通過案例牽引,幫助讀者掌握常用的數據挖掘算法、模型和技術,并解決常見的數據挖掘實際問題。本書特點:以實踐為目標,系統(tǒng)介紹數據挖掘的流程,并給出代碼實現。內容涵蓋數據清洗、數據轉換、數據降維、回歸分析、聚類、神經網絡分類等常用的數據挖掘技術和方法,使讀者能夠利用Python編程來解決基本的數據挖掘問題。本書提供了豐富的案例,規(guī)模由小到大,幫助讀者循序漸進地掌握各類數據挖掘模型和算法。掌握這些案例后,讀者可以舉一反三,進一步解決更復雜、更大規(guī)模的問題。作者在中國大學MOOC上開設了“數據挖掘”MOOC課程(https://www.icourse163.org/course/NUDT-1461782176),并在頭歌平臺上開設了“數據挖掘”實驗課程(https://www.educoder.net/paths/4153),讀者可通過在線視頻課程的學習、作業(yè)訓練與編程實踐加深對數據挖掘知識點的理解,提高運用能力。
前 言
隨著大數據、人工智能技術的快速發(fā)展,各行各業(yè)積累的數據越來越豐富,數據挖掘的需求越來越大。本書針對實際數據及數據挖掘任務需求,提供數據預處理、特征選擇、數據可視化、算法運用等方面的數據挖掘模型的原理與實現代碼,為運用數據挖掘提供可參考的
方法。
筆者近年來一直從事數據挖掘方向的研究和數據挖掘課程的教學,長期指導學生參加數模競賽、天池大數據競賽、DataCastle大數據競賽、Kaggle競賽等高水平數據挖掘競賽,并取得了優(yōu)異成績。同時,積極探索以數據挖掘技術為主線構建課堂教學與實踐教學相融合的課程體系,總結了一套數據挖掘實踐案例及參考代碼,適合用于理工科相關專業(yè)的本科生與研究生的數據挖掘實驗課程,也可供相關領域的科研與工程技術人員實踐參考。
本書的組織結構如下:
第1章首先簡述了數據挖掘的定義和分類,隨后闡述了數據挖掘實踐過程中的Python安裝及環(huán)境配置方法并簡單介紹了與本書中數據挖掘實踐任務相關的數據集,讓讀者掌握如何安裝實驗環(huán)境,了解數據挖掘中的常用數據集。
第2章以貝葉斯分類為案例,闡述了分類的概念和實踐全流程,包括數據集的劃分、模型的運用和模型的評價,讓讀者能夠針對具體數據,運用分類算法來完成數據分類過程。
第3章闡述了特征選擇的實踐方法,讓讀者掌握通過直方圖與柱狀圖方法來完成數據的特征選擇。
第4章闡述了數據清洗的實踐方法,讓讀者掌握缺失值填充的方法,知道如何通過正態(tài)分布與箱線圖方法發(fā)現數據離群點。最后,以“測測你的一見鐘情指數”作為實踐案例,詳細闡述了數據清洗的實踐過程。
第5章闡述了數據轉換的實踐方法,讓讀者掌握通過二進制編碼方法將離散型數據數值化的方法,并掌握最小–最大規(guī)范化和z分數規(guī)范化、小數定標規(guī)范化的方法。
第6章闡述了數據降維的實踐方法,讓讀者掌握通過散點圖方法來分析數據相關性的技巧,并能夠靈活運用主成分分析法。
第7章闡述了不平衡數據分類的實踐方法,讓讀者掌握上采樣與下采樣的實際運用,通過“員工離職問題”實踐案例,詳細介紹了不平衡數據分類的實踐過程。
第8章闡述了回歸分析的實踐方法,讓讀者掌握多元線性回歸預測的實際運用,通過“PM2.5空氣質量預測”實踐案例,詳細介紹了回歸預測的實踐過程。
第9章闡述了常見聚類算法的實際應用,使讀者能夠靈活應用k均值法、層次聚類法、密度聚類法。通過鳶尾花數據實踐案例,詳細介紹了密度聚類的實踐過程。
第10章闡述了Apriori算法的實踐方法,讓讀者掌握該算法的實現過程。通過“棒球運動產品推薦”實踐案例,詳細介紹了該算法的實踐過程。
第11章闡述了KNN分類的實踐方法,通過“鳶尾花分類”“相似電影推薦”兩個實踐案例,詳細介紹了該算法的實踐過程。
第12章闡述了支持向量機分類的實踐方法,通過“鳶尾花數據分類”“新聞文本數據分類”兩個實踐案例,詳細介紹了該算法的實踐過程。
第13章闡述了神經網絡分類的實踐方法,通過“新聞文本分類”實踐案例,詳細介紹了該算法的實踐過程。
第14章闡述了常見的集成學習算法的實踐,讓讀者掌握Bagging、隨機森林、Adaboost、GBDT、XGBoost的實際應用。通過“房價預測”“點擊欺騙預測”實踐案例,詳細介紹了集成算法的實踐過程。
第15章給出了各算法的綜合運用案例,主要包括員工離職預測、二手車交易價格預測、信息抽取、學術網絡節(jié)點分類四個綜合案例。
本書在總結數據挖掘實踐的基礎上,在中國大學MOOC上開設了“數據挖掘”MOOC課程(https://www.icourse163.org/course/NUDT-1461782176),并在頭歌平臺上開設了“數據挖掘”實驗課程(https://www.educoder.net/paths/4153),讀者可通過在線視頻課程的學習、作業(yè)訓練與編程實踐加深對數據挖掘知識點的理解,提高運用能力。
數據挖掘是一個快速發(fā)展的領域,加之本書編寫時間短,作者水平有限,書中難免有疏漏之處,請各位讀者、同行不吝指正。
丁兆云,國防科技大學博士畢業(yè)后留校任教至今,長期教授數據挖掘課程,負責國防科技大學系統(tǒng)工程學院“數據挖掘”專業(yè)方向考博命題工作,主持湖南省教改課題1項、國防科技大學教改課題1項、發(fā)表教學論文3篇,獲得國防科技大學研究生教學優(yōu)秀獎。
目 錄
前言
第1章 緒論 1
1.1 數據挖掘技術的由來 1
1.2 數據挖掘的分類 2
1.2.1 關聯(lián)規(guī)則挖掘 2
1.2.2 監(jiān)督式機器學習 3
1.2.3 非監(jiān)督式機器學習 4
1.3 Python的安裝步驟 5
1.3.1 Python環(huán)境的配置 5
1.3.2 PyCharm的安裝 7
1.4 常見的數據集 10
1.4.1 鳶尾花數據集 10
1.4.2 員工離職預測數據集 11
1.4.3 泰坦尼克號災難預測數據集 12
1.4.4 PM2.5空氣質量預測數據集 13
1.5 本章小結 13
第2章 分類 14
2.1 分類的概念 14
2.2 分類中的訓練集與測試集 14
2.3 分類的過程及驗證方法 15
2.3.1 準確率 15
2.3.2 k折交叉驗證 16
2.4 貝葉斯分類的編程實踐 17
2.4.1 鳶尾花數據集的貝葉斯分類 17
2.4.2 基于貝葉斯分類的員工離職
預測 17
2.5 本章小結 19
第3章 數據的特征選擇 20
3.1 直方圖 20
3.1.1 直方圖可視化 20
3.1.2 直方圖特征選擇 23
3.2 直方圖與柱狀圖的差異 24
3.3 特征選擇實踐 26
3.4 本章小結 29
第4章 數據預處理之數據清洗 30
4.1 案例概述 30
4.2 缺失值處理 31
4.2.1 缺失值處理概述 31
4.2.2 缺失值處理實例 32
4.3 噪聲數據處理 32
4.3.1 正態(tài)分布噪聲數據檢測 32
4.3.2 用箱線圖檢測噪聲數據 34
4.4 數據預處理案例實踐 35
4.4.1 問題 35
4.4.2 解決方法 35
4.4.3 實踐結論 37
4.5 本章小結 38
第5章 數據預處理之轉換 39
5.1 數據的數值化處理 39
5.1.1 順序編碼 39
5.1.2 二進制編碼 40
5.2 數據規(guī)范化 42
5.2.1 最小–最大規(guī)范化 42
5.2.2 z分數規(guī)范化 43
5.2.3 小數定標規(guī)范化 43
5.3 本章小結 43
第6章 數據預處理之數據降維 44
6.1 散點圖可視化分析 44
6.2 主成分分析 46
6.3 本章小結 49
第7章 不平衡數據分類 50
7.1 不平衡數據分類問題的特征 50
7.1.1 數據稀缺問題 50
7.1.2 噪聲問題 51
7.1.3 決策面偏移問題 51
7.1.4 評價標準問題 51
7.2 重采樣方法 51
7.2.1 上采樣 52
7.2.2 對上采樣方法的改進 53
7.2.3 下采樣 58
7.2.4 對下采樣方法的改進 60
7.2.5 不平衡問題的其他處理方式 65
7.3 不平衡數據分類實踐 65
7.4 本章小結 66
第8章 回歸分析 67
8.1 線性回歸 67
8.1.1 一元線性回歸 67
8.1.2 多元線性回歸 69
8.2 回歸分析檢測 71
8.2.1 正態(tài)分布可能性檢測 71
8.2.2 線性分布可能性檢測 72
8.2.3 log轉換后的分布 73
8.3 回歸預測案例實踐 74
8.3.1 案例背景 74
8.3.2 代碼實現 74
8.4 本章小結 82
第9章 聚類分析 83
9.1 k均值聚類 83
9.1.1 算法的步驟 83
9.1.2 代碼實現 83
9.2 層次聚類 84
9.2.1 算法的步驟 84
9.2.2 代碼實現 85
9.3 密度聚類 85
9.3.1 算法的步驟 85
9.3.2 代碼實現 86
9.4 本章小結 88
第10章 關聯(lián)分析 90
10.1 Apriori算法 90
10.2 關聯(lián)分析案例實踐 92
10.2.1 案例背景 92
10.2.2 案例的數據集 93
10.2.3 代碼實現 93
10.2.4 運行結果 93
10.3 提升Apriori算法性能的方法 95
10.4 本章小結 95
第11章 KNN分類 96
11.1 KNN算法的步驟 96
11.2 KNeighborsClassifier函數 97
11.3 KNN的代碼實現 98
11.4 結果分析 98
11.5 KNN案例實踐 99
11.5.1 案例分析 99
11.5.2 案例實現 100
11.5.3 運行結果 103
11.6 本章小結 104
第12章 支持向量機 105
12.1 支持向量機的可視化分析 105
12.2 SVM的代碼實現 108
12.2.1 鳶尾花數據分類 108
12.2.2 新聞文本數據分類 110
12.3 本章小結 111
第13章 神經網絡分類 112
13.1 多層人工神經網絡 112
13.2 多層人工神經網絡的代碼實現 113
13.3 神經網絡分類案例實踐 114
13.3.1 案例背景 114
13.3.2 數據說明 114
13.3.3 代碼實現 115
13.4 本章小結 120
第14章 集成學習 121
14.1 Bagging方法 121
14.2 隨機森林 123