《數(shù)據(jù)挖掘與機器學習》以應用為導向介紹數(shù)據(jù)挖掘與機器學習相關理論與方法,包括概述、數(shù)據(jù)與數(shù)據(jù)平臺、數(shù)據(jù)預處理與特征工程、關聯(lián)分析、決策樹、集成學習、貝葉斯分類、神經(jīng)網(wǎng)絡與深度學習等相關理論及經(jīng)典算法,以及相關實踐案例。本書所有案例均通過R或Python實現(xiàn),同時包含詳細的分析過程和可視化內(nèi)容。本書可作為統(tǒng)計學、數(shù)據(jù)科學與大數(shù)據(jù)等相關專業(yè)高年級本科生和碩士研究生的數(shù)據(jù)挖掘與機器學習相關課程的教材,也可作為其他數(shù)據(jù)挖掘與機器學習愛好者的參考用書。
?突出實際案例應用
?結(jié)合常用軟件實現(xiàn)
?提供豐富教學資源
?編寫風格簡潔明了,結(jié)構(gòu)清晰。
?注重實踐,涵蓋全流程知識。
?強化育人功能,注重個性化發(fā)展。
?數(shù)字化資源豐富,便于學習。
在數(shù)字化浪潮席卷的今天,數(shù)據(jù)已成為驅(qū)動社會發(fā)展的核心要素。我國在“十四五”規(guī)劃中明確提出加快數(shù)字化發(fā)展,
推動人工智能、大數(shù)據(jù)等前沿技術(shù)與實體經(jīng)濟深度融合。數(shù)據(jù)挖掘與機器學習作為這一進程的核心技術(shù),其重要性不言而喻
。
《數(shù)據(jù)挖掘與機器學習》是浙江省登峰學科(浙江工商大學統(tǒng)計學)、國家一流本科專業(yè)建設點(經(jīng)濟統(tǒng)計學)、浙江省大數(shù)據(jù)
專業(yè)教材研究基地、浙江省普通本科高!笆奈濉敝攸c立項建設教材的建設成果之一,具有以下顯著特點。
(1) 編寫風格簡潔明了,結(jié)構(gòu)清晰。本教材每章的知識導圖將教材中的重要概念和關鍵內(nèi)容以圖形化方式顯示,從而更直觀
地呈現(xiàn)知識結(jié)構(gòu)和邏輯。同時,本教材注重闡述關鍵概念和算法的基本思想,避免過度的公式推導,使讀者更容易理解和掌
握。
(2) 注重實踐,涵蓋全流程知識。實踐的觀點是馬克思主義哲學的核心觀點,本教材注重實踐,不僅闡述了數(shù)據(jù)挖掘和機器
學習的經(jīng)典理論與方法,還涵蓋了實踐全流程所需的知識,包括數(shù)據(jù)類型與存儲環(huán)境、大數(shù)據(jù)平臺(采集、存儲、處理與分
析)、預處理與特征工程常用的方法等。
(3) 強化育人功能,注重個性化發(fā)展。本教材在內(nèi)容安排上將價值性與知識性相統(tǒng)一,每章以與該章知識緊密相聯(lián)的導讀開
篇,引導讀者從國家需求、行業(yè)痛點和社會價值等維度思考問題。在個性化發(fā)展方面,本教材安排了R與Python兩類工具的
實踐案例,包含詳細的分析過程和可視化內(nèi)容;每章末尾的“拓展”部分,提出了可進一步學習的不同方向,便于讀者選擇
性學習。
(4) 數(shù)字化資源豐富,便于學習。本教材教學資源豐富,讀者可通過掃描右側(cè)的二維碼獲取教學課件、案例數(shù)據(jù)、R與
Python軟件代碼、習題答案等數(shù)字資源,還可通過掃描文中二維碼進行在線測試、觀看學習視頻。已建設完成的省級精品在
線開放課程網(wǎng)址,可通過掃描右側(cè)二維碼獲取。
本教材共分為8章。第1章為概述,主要介紹數(shù)據(jù)挖掘的發(fā)展歷程、過程模型、功能、機器學習、應用領域等;第2章主要介
紹數(shù)據(jù)與數(shù)據(jù)平臺;第3章介紹數(shù)據(jù)預處理與特征工程;第4~8章介紹各類數(shù)據(jù)挖掘與機器學習方法的基本概念、經(jīng)典算法
及基于R和Python的實踐案例。
《數(shù)據(jù)挖掘與機器學習》主要針對統(tǒng)計學、數(shù)據(jù)科學與大數(shù)據(jù)等相關專業(yè)的高年級本科生和碩士研究生編寫,以幫助學生領
悟數(shù)據(jù)挖掘與機器學習的精髓,掌握從數(shù)據(jù)中挖掘知識、從模型中獲取決策依據(jù)的能力,并為其未來在學術(shù)研究或行業(yè)實踐
中應用打下堅實基礎。本教材也可作為其他數(shù)據(jù)挖掘與機器學習愛好者的參考用書。
結(jié)合筆者近二十年的教學實踐,以48學時為例(一學期16周,每周3學時),本教材的理論教學內(nèi)容建議安排33學時,第4~8
章的實踐內(nèi)容建議安排15學時。在編寫過程中,筆者參考了國內(nèi)外相關領域許多學者的研究成果,在此深表謝意!
筆者雖已盡心竭力,但限于水平,書中謬誤之處在所難免,敬請讀者批評指正。
編者
2025年7月于杭州
第1章 概述 1
1.1 數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展 2
1.1.1 數(shù)據(jù)挖掘概念的提出 2
1.1.2 數(shù)據(jù)挖掘的發(fā)展歷程 3
1.1.3 當前熱點與未來趨勢 6
1.2 數(shù)據(jù)挖掘過程 9
1.2.1 Fayyad過程模型 9
1.2.2 CRISP-DM過程模型 10
1.3 數(shù)據(jù)挖掘功能與使用技術(shù) 20
1.3.1 數(shù)據(jù)挖掘功能 20
1.3.2 數(shù)據(jù)挖掘使用技術(shù) 21
1.4 數(shù)據(jù)挖掘的核心利器:
機器學習 22
1.4.1 機器學習分類 22
1.4.2 機器學習與數(shù)據(jù)挖掘的
關系 23
1.5 數(shù)據(jù)挖掘應用 24
1.5.1 金融領域的數(shù)據(jù)挖掘 24
1.5.2 電信領域的數(shù)據(jù)挖掘 25
1.5.3 零售與電子商務領域的
數(shù)據(jù)挖掘 25
1.5.4 政府政務領域的數(shù)據(jù)挖掘 26
1.5.5 醫(yī)療領域的數(shù)據(jù)挖掘 26
1.5.6 科學領域的數(shù)據(jù)挖掘 26
1.6 練習與拓展 27
第2章 數(shù)據(jù)與數(shù)據(jù)平臺 28
2.1 數(shù)據(jù)類型 29
2.1.1 數(shù)據(jù)形態(tài)與數(shù)據(jù)類型 29
2.1.2 數(shù)據(jù)環(huán)境與數(shù)據(jù)類型 38
2.2 關系型數(shù)據(jù)庫 39
2.2.1 關系型數(shù)據(jù)庫概述 39
2.2.2 關系型數(shù)據(jù)庫管理系統(tǒng) 40
2.3 傳統(tǒng)數(shù)據(jù)倉庫 41
2.3.1 概念與特點 41
2.3.2 數(shù)據(jù)集市 43
2.3.3 元數(shù)據(jù)與數(shù)據(jù)粒度 44
2.3.4 邏輯模型 44
2.4 NoSQL數(shù)據(jù)庫 47
2.4.1 鍵值數(shù)據(jù)庫 47
2.4.2 文檔數(shù)據(jù)庫 48
2.4.3 列族數(shù)據(jù)庫 50
2.4.4 圖數(shù)據(jù)庫 52
2.5 大數(shù)據(jù)平臺 53
2.5.1 數(shù)據(jù)采集層 54
2.5.2 數(shù)據(jù)存儲層 57
2.5.3 數(shù)據(jù)處理與分析層 59
2.6 練習與拓展 62
第3章 數(shù)據(jù)預處理與特征工程 64
3.1 數(shù)據(jù)預處理與特征工程概述 65
3.1.1 原始數(shù)據(jù)中存在的問題 65
3.1.2 數(shù)據(jù)預處理與特征工程的
主要任務 67
3.2 數(shù)據(jù)清洗 68
3.2.1 缺失數(shù)據(jù)處理 68
3.2.2 異常數(shù)據(jù)處理 70
3.3 數(shù)據(jù)集成與平衡 71
3.3.1 數(shù)據(jù)集成 71
3.3.2 數(shù)據(jù)平衡 73
3.4 特征構(gòu)造與變換 74
3.4.1 特征構(gòu)造 74
3.4.2 特征變換 78
3.5 數(shù)據(jù)歸約 80
3.5.1 屬性的歸約 80
3.5.2 記錄的歸約 82
3.5.3 數(shù)值的歸約 83
3.6 練習與拓展 84
第4章 關聯(lián)分析 85
4.1 關聯(lián)分析概述 86
4.1.1 關聯(lián)分析的基本概念 86
4.1.2 強關聯(lián)規(guī)則產(chǎn)生的基本
過程 88
4.2 Apriori算法 90
4.2.1 Apriori性質(zhì) 90
4.2.2 Apriori算法過程描述 91
4.2.3 Apriori算法產(chǎn)生頻繁項集
示例 92
4.3 關聯(lián)規(guī)則的評價:提升度 95
4.3.1 強關聯(lián)規(guī)則不一定是有趣的
規(guī)則 95
4.3.2 基于提升度評價強關聯(lián)
規(guī)則 96
4.3.3 基于提升度的強關聯(lián)規(guī)則
提取 97
4.4 R實踐案例:購物籃分析 99
4.4.1 產(chǎn)生稀疏矩陣 100
4.4.2 了解數(shù)據(jù)概況 100
4.4.3 可視化數(shù)據(jù) 101
4.4.4 挖掘關聯(lián)規(guī)則 105
4.4.5 可視化關聯(lián)規(guī)則 107
4.5 Python實踐案例:影片推薦 112
4.5.1 數(shù)據(jù)集初探 112
4.5.2 變量探索 113
4.5.3 影片詞云分析 115
4.5.4 數(shù)據(jù)預處理 116
4.5.5 關聯(lián)規(guī)則挖掘 117
4.5.6 為用戶推薦影片 118
4.6 練習與拓展 119
第5章 決策樹 120
5.1 決策樹概述 121
5.1.1 決策樹分析的基本概念 121
5.1.2 決策樹構(gòu)建的基本過程 123
5.2 ID3算法 124
5.2.1 信息論的基本概念 124
5.2.2 ID3算法基本原理 125
5.2.3 使用ID3算法建立決策樹 126
5.3 C5.0算法 129
5.3.1 C5.0算法決策樹生長 129
5.3.2 C5.0算法決策樹修剪 134
5.4 CART算法 136
5.4.1 CART分類樹生長 136
5.4.2 CART回歸樹生長 141
5.4.3 CART剪枝 143
5.5 R實踐案例:客戶信用風險預測 144
5.5.1 數(shù)據(jù)探索 144
5.5.2 數(shù)據(jù)分區(qū) 153
5.5.3 模型訓練與評估 153
5.5.4 使用代價矩陣調(diào)整模型 156
5.6 Python實踐案例:糖尿病預測 157
5.6.1 數(shù)據(jù)讀取與類型轉(zhuǎn)換 157
5.6.2 數(shù)據(jù)探索 158
5.6.3 數(shù)據(jù)預處理 163
5.6.4 模型訓練與評估 164
5.7 練習與拓展 166
第6章 集成學習 167
6.1 集成學習概述 168
6.1.1 集成學習的基本概念 168
6.1.2 集成學習的主要類型 169
6.2 隨機森林 171
6.2.1 隨機森林的構(gòu)建過程 171
6.2.2 隨機森林的OOB估計 172
6.2.3 隨機森林中的特征重要性 172
6.3 AdaBoost 173
6.3.1 AdaBoost二分類算法 174
6.3.2 AdaBoost二分類問題示例 175
6.3.3 AdaBoost的正則化 178
6.4 Gradient Boosting之GBDT 178
6.4.1 Gradient Boosting基本思想 179
6.4.2 GBDT算法 180
6.4.3 GBDT回歸問題示例 181
6.5 R實踐案例:藥物預測 186
6.5.1 數(shù)據(jù)讀取與類型轉(zhuǎn)換 186
6.5.2 探索性分析 187
6.5.3 隨機森林模型構(gòu)建與評估 191
6.6 Python實踐案例:銀行客戶類別預測 195
6.6.1 數(shù)據(jù)讀取與預處理 196
6.6.2 探索性分析 199
6.6.3 模型構(gòu)建與評估 200
6.7 練習與拓展 205
第7章 貝葉斯分類 206
7.1 貝葉斯分類概述 207
7.1.1 貝葉斯定理 207
7.1.2 貝葉斯網(wǎng)絡 207
7.1.3 貝葉斯分類的基本過程 208
7.2 樸素貝葉斯分類 209
7.2.1 樸素貝葉斯分類原理 209
7.2.2 樸素貝葉斯分類示例 212
7.3 零概率問題:拉普拉斯平滑 214
7.3.1 拉普拉斯平滑法 214
7.3.2 拉普拉斯平滑法示例 215
7.4 TAN貝葉斯分類 216
7.4.1 TAN貝葉斯網(wǎng)絡結(jié)構(gòu) 216
7.4.2 TAN貝葉斯分類過程 216
7.5 R實踐案例:蘑菇分類 218
7.5.1 數(shù)據(jù)讀取與預處理 219
7.5.2 探索性分析 220
7.5.3 模型構(gòu)建與評估 223
7.6 Python實踐案例:垃圾短信預測 225
7.6.1 數(shù)據(jù)集初探 225
7.6.2 文本預處理 226
7.6.3 詞云分析 227
7.6.4 建立文檔—詞條矩陣 229
7.6.5 樸素貝葉斯分類模型構(gòu)建與評估 230
7.7 練習與拓展 233
第8章 神經(jīng)網(wǎng)絡與深度學習 234
8.1 神經(jīng)網(wǎng)絡與深度學習概述 235
8.1.1 生物神經(jīng)元與人工神經(jīng)元 235
8.1.2 激活函數(shù) 236
8.1.3 神經(jīng)網(wǎng)絡的拓撲結(jié)構(gòu) 239
8.2 BP神經(jīng)網(wǎng)絡 241
8.2.1 BP神經(jīng)網(wǎng)絡的學習過程 241
8.2.2 BP算法描述 246
8.2.3 BP算法示例 247
8.2.4 常用的梯度下降法 249
8.3 卷積神經(jīng)網(wǎng)絡 250
8.3.1 卷積層 251
8.3.2 激活層 254
8.3.3 池化層 254
8.3.4 全連接層 255
8.4 R實踐案例:白葡萄酒品質(zhì)預測 256
8.4.1 數(shù)據(jù)探索 257
8.4.2 數(shù)據(jù)轉(zhuǎn)換與分區(qū) 260
8.4.3 模型構(gòu)建與評價 260
8.5 Python實踐案例:服飾圖片識別 265
8.5.1 Fashion-MNIST數(shù)據(jù)集加載及概況分析 265
8.5.2 預處理與可視化 266
8.5.3 CNN模型構(gòu)建與編譯 268
8.5.4 模型訓練與評估 269
8.5.5 可視化卷積層特征圖 271
8.6 練習與拓展 274
參考文獻 276