書單推薦 新書推薦 |
數(shù)據(jù)科學(xué)導(dǎo)引 讀者對(duì)象:本書主要面向高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的學(xué)生,可作為專業(yè)核心課程的教材,同時(shí)也適合相關(guān)領(lǐng)域的研究人員和工程技術(shù)人員參考。 ![]()
本書系統(tǒng)介紹數(shù)據(jù)科學(xué)核心理論與技術(shù),融合了數(shù)學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)等多學(xué)科知識(shí),旨在構(gòu)建完整的數(shù)據(jù)科學(xué)知識(shí)體系。全書共 15 章,主要內(nèi)容包括數(shù)據(jù)預(yù)處理、經(jīng)典機(jī)器學(xué)習(xí)模型(回歸、分類、聚類、集成)、關(guān)聯(lián)規(guī)則挖掘、特征工程(降維與特征選擇)、最大期望算法、概率圖模型、深度學(xué)習(xí)、文本分析、圖與網(wǎng)絡(luò)分析以及分布式計(jì)算等核心模塊。特別值得關(guān)注的是,本書對(duì)當(dāng)前熱點(diǎn)技術(shù)如Transformer、BERT、圖神經(jīng)網(wǎng)絡(luò)等進(jìn)行了講解,并設(shè)有專門的文本分析和圖與網(wǎng)絡(luò)分析章節(jié)。此外,書中包含豐富的附錄內(nèi)容,涵蓋了矩陣運(yùn)算、概率論、優(yōu)化算法等數(shù)學(xué)基礎(chǔ),為讀者提供了必要的知識(shí)儲(chǔ)備。本書主要面向高等院校數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的學(xué)生,可作為專業(yè)核心課程的教材,同時(shí)也適合相關(guān)領(lǐng)域的研究人員和工程技術(shù)人員參考。對(duì)于希望系統(tǒng)掌握數(shù)據(jù)科學(xué)技術(shù)、具備解決實(shí)際數(shù)據(jù)問題能力的讀者來說,本書提供了從基礎(chǔ)到前沿的完整學(xué)習(xí)路徑。通過本書的學(xué)習(xí),讀者能夠建立扎實(shí)的數(shù)據(jù)科學(xué)理論基礎(chǔ),并獲得寶貴的實(shí)踐經(jīng)驗(yàn)。
歐高炎,北京大學(xué)理學(xué)博士,博雅大數(shù)據(jù)學(xué)院院長(zhǎng),數(shù)據(jù)科學(xué)教育專家,全球首家大數(shù)據(jù)教育、競(jìng)賽和服務(wù)平臺(tái)“數(shù)據(jù)嗨客”創(chuàng)始人。中國(guó)人民銀行征信中心《大數(shù)據(jù)新算法用于信用模型構(gòu)建的效果評(píng)估》項(xiàng)目組負(fù)責(zé)人。參與編寫?《數(shù)據(jù)科學(xué)導(dǎo)引》等多部教材,在大數(shù)據(jù)人才培養(yǎng)領(lǐng)域有重要影響力。
第 1 章 緒論........................................................ 1
1.1 數(shù)據(jù)科學(xué)的基本內(nèi)容 ........................................ 2 1.1.1 數(shù)據(jù)分析的中心問題 ..................................... 4 1.1.2 數(shù)據(jù)的數(shù)學(xué)結(jié)構(gòu) ......................................... 5 1.1.3 數(shù)據(jù)分析的主要困難 ..................................... 6 1.1.4 算法的重要性 ........................................... 6 1.2 數(shù)據(jù)科學(xué)對(duì)學(xué)科發(fā)展的影響 ................................. 7 1.2.1 對(duì)傳統(tǒng)學(xué)科的沖擊 ....................................... 8 1.2.2 新學(xué)科的誕生:計(jì)算廣告學(xué) ............................... 9 1.3 數(shù)據(jù)科學(xué)對(duì)科學(xué)研究的影響 ................................ 10 1.4 數(shù)據(jù)科學(xué)的課程體系....................................... 10 1.5 本書結(jié)構(gòu) .................................................. 11 第 2 章 數(shù)據(jù)預(yù)處理................................................ 13 2.1 特征編碼 .................................................. 14 2.1.1 數(shù)字編碼.............................................. 14 2.1.2 One-Hot 編碼 ......................................... 15 2.2 缺失值處理 ................................................ 16 2.3 數(shù)據(jù)標(biāo)準(zhǔn)化 ................................................ 19 2.3.1 Z-score 標(biāo)準(zhǔn)化......................................... 19 2.3.2 Min-Max 標(biāo)準(zhǔn)化 ....................................... 20 2.3.3 小數(shù)定標(biāo)標(biāo)準(zhǔn)化 ........................................ 21 2.3.4 Logistic 標(biāo)準(zhǔn)化 ........................................ 21 2.3.5 不同標(biāo)準(zhǔn)化方法的對(duì)比 .................................. 22 2.4 特征離散化 ................................................ 23 2.4.1 等距離散化............................................ 24 2.4.2 等頻離散化............................................ 25 2.4.3 聚類離散化............................................ 26 2.4.4 信息增益離散化 ........................................ 26 2.4.5 卡方離散化............................................ 27 2.4.6 類別屬性相互依賴最大化 ................................ 28 2.4.7 小結(jié)..................................................29 2.5 離群值檢測(cè) ................................................ 29 2.5.1 基于統(tǒng)計(jì)的方法 ........................................ 30 2.5.2 基于近鄰的方法 ........................................ 30 2.5.3 小結(jié)..................................................33 2.6 其他預(yù)處理方法 ........................................... 33 案例與實(shí)戰(zhàn) ..................................................... 33 第 3 章 回歸模型 .................................................. 35 3.1 線性回歸 .................................................. 36 3.1.1 一元線性回歸 .......................................... 36 3.1.2 多元線性回歸 .......................................... 37 3.1.3 小結(jié)..................................................38 3.2 線性回歸正則化 ........................................... 39 3.2.1 嶺回歸和 LASSO.......................................39 3.2.2 其他正則化的線性回歸模型 .............................. 43 3.3 非線性回歸 ................................................ 44 3.3.1 樣條回歸.............................................. 44 3.3.2 徑向基函數(shù)網(wǎng)絡(luò) ........................................ 46 案例與實(shí)戰(zhàn) ..................................................... 48 第 4 章 分類模型 .................................................. 50 4.1 邏輯回歸 .................................................. 51 4.1.1 從線性回歸到邏輯回歸 .................................. 52 4.1.2 參數(shù)估計(jì).............................................. 53 4.1.3 小結(jié)..................................................54 4.2 k-近鄰..................................................... 55 4.2.1 k 值的選擇 ............................................ 56 4.2.2 提高預(yù)測(cè)性能 .......................................... 57 4.2.3 小結(jié)..................................................58 4.3 決策樹 .................................................... 59 4.3.1 決策樹的生成 .......................................... 60 4.3.2 常見的決策樹算法 ...................................... 65 4.3.3 決策樹的剪枝 .......................................... 67 4.3.4 決策樹分析............................................ 68 4.4 樸素貝葉斯 ................................................ 69 4.4.1 貝葉斯定理............................................ 69 4.4.2 樸素貝葉斯模型 ........................................ 70 4.4.3 參數(shù)估計(jì)方法 .......................................... 71 4.4.4 算法分析.............................................. 72 4.5 支持向量機(jī) ................................................ 72 4.5.1 間隔與支持向量 ........................................ 72 4.5.2 對(duì)偶問題與 SMO 算法 .................................. 75 4.5.3 軟間隔................................................77 4.5.4 核函數(shù)與核方法 ........................................ 79 4.5.5 支持向量機(jī)的優(yōu)缺點(diǎn) .................................... 80 案例與實(shí)戰(zhàn) ..................................................... 80 第 5 章 集成模型 .................................................. 82 5.1 集成方法綜述..............................................83 5.1.1 Bagging 算法 .......................................... 84 5.1.2 Boosting 算法 ......................................... 86 5.1.3 Stacking 算法 ......................................... 87 5.2 隨機(jī)森林算法..............................................88 5.2.1 隨機(jī)森林算法的原理 .................................... 88 5.2.2 性能評(píng)估和特征評(píng)估 .................................... 89 5.2.3 隨機(jī)森林算法的特點(diǎn) .................................... 90 5.3 AdaBoost 算法 ............................................ 91 5.3.1 AdaBoost 算法的流程 .................................. 92 5.3.2 AdaBoost 算法的誤差分析...............................96 5.3.3 AdaBoost 算法的目標(biāo)函數(shù)...............................98 5.3.4 AdaBoost 算法小結(jié) .................................... 98 5.4 應(yīng)用實(shí)例:個(gè)人信用風(fēng)險(xiǎn)評(píng)估.............................. 99 5.4.1 項(xiàng)目背景.............................................. 99 5.4.2 建模流程.............................................. 99 5.4.3 效果評(píng)估.............................................100 5.4.4 總結(jié) ................................................ 104 案例與實(shí)戰(zhàn) .................................................... 104 第 6 章 聚類模型 ................................................. 106 6.1 K-means 聚類............................................ 107 6.1.1 模型 ................................................ 108 6.1.2 K 值的選擇 .......................................... 109 6.1.3 質(zhì)心的選擇...........................................109 6.1.4 K-means 的一些變種 .................................. 110 6.2 層次聚類 ................................................ 110 6.2.1 聚合式聚類...........................................111 6.2.2 分拆式聚類...........................................113 6.3 譜聚類 ................................................... 114 6.4 基于密度的聚類 .......................................... 116 6.5 小結(jié)......................................................117 案例與實(shí)戰(zhàn) .................................................... 118 第 7 章 關(guān)聯(lián)規(guī)則挖掘 ............................................ 119 7.1 關(guān)聯(lián)規(guī)則概述.............................................120 7.2 Apriori 算法.............................................. 123 7.2.1 Apriori 算法的性質(zhì)....................................123 7.2.2 Apriori 算法的步驟....................................123 7.2.3 Apriori 算法的示例....................................124 7.2.4 關(guān)聯(lián)規(guī)則生成.........................................125 7.2.5 Apriori 算法小結(jié)......................................125 7.3 FP-Growth 算法..........................................126 7.3.1 構(gòu)建 FP-tree ......................................... 126 7.3.2 基于 FP-tree 挖掘頻繁項(xiàng)集............................. 130 7.3.3 關(guān)聯(lián)規(guī)則生成.........................................132 7.3.4 FP-Growth 算法小結(jié) .................................. 132 案例與實(shí)戰(zhàn) .................................................... 133 第 8 章 降維 ..................................................... 135 8.1 主成分分析............................................... 136 8.1.1 PCA 算法的步驟......................................137 8.1.2 PCA 算法小結(jié)........................................139 8.2 線性判別分析.............................................139 8.2.1 LDA 的優(yōu)化目標(biāo)...................................... 140 8.2.2 LDA 的求解方法...................................... 142 8.2.3 LDA 小結(jié)............................................143 8.3 多維尺度變換.............................................145 8.3.1 多維尺度變換的優(yōu)化目標(biāo) ............................... 145 8.3.2 多維尺度變換的求解方法 ............................... 145 8.3.3 應(yīng)用實(shí)例.............................................148 8.3.4 多維尺度變換小結(jié) ..................................... 149 8.4 局部線性嵌入.............................................149 8.4.1 局部線性嵌入算法的步驟 ............................... 150 8.4.2 局部線性重構(gòu).........................................151 8.4.3 尋找低維表示.........................................152 8.4.4 局部線性嵌入算法小結(jié) ................................. 153 8.5 其他降維方法.............................................154 案例與實(shí)戰(zhàn) .................................................... 154 第 9 章 特征選擇 ................................................. 156 9.1 特征選擇的一般過程...................................... 157 9.2 特征選擇常用的方法...................................... 159 9.2.1 過濾式...............................................159 9.2.2 封裝式...............................................160 9.2.3 嵌入式...............................................161 9.3 無監(jiān)督特征選擇 .......................................... 162 9.4 小結(jié)......................................................163 案例與實(shí)戰(zhàn) .................................................... 163 第 10 章 最大期望算法 ........................................... 165 10.1 EM 算法概述............................................166 10.2 高斯混合模型 ........................................... 168 10.3 EM 算法小結(jié)............................................171 案例與實(shí)戰(zhàn) .................................................... 172 第 11 章 概率圖模型 ............................................. 174 11.1 概率圖模型概述 ......................................... 175 11.1.1 有向圖模型..........................................176 11.1.2 無向圖模型..........................................177 11.2 隱馬爾可夫模型 ......................................... 178 11.2.1 估算問題:前后向算法 ................................ 180 11.2.2 解碼問題:Viterbi 算法 ............................... 181 11.2.3 學(xué)習(xí)問題:Baum-Welch 算法 .......................... 183 11.2.4 隱馬爾可夫模型的拓展 ................................ 186 11.3 條件隨機(jī)場(chǎng)..............................................188 11.3.1 一階鏈?zhǔn)綏l件隨機(jī)場(chǎng)及其一般形式 ...................... 188 11.3.2 特征工程............................................190 11.3.3 條件隨機(jī)場(chǎng)模型的參數(shù)估計(jì) ............................ 192 11.3.4 條件隨機(jī)場(chǎng)模型的推斷 ................................ 192 11.4 小結(jié) .................................................... 193 案例與實(shí)戰(zhàn) .................................................... 193 第 12 章 深度學(xué)習(xí)................................................195 12.1 多層感知機(jī)..............................................198 12.1.1 激活函數(shù)............................................199 12.1.2 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)........................................200 12.1.3 輸出層..............................................201 12.1.4 損失函數(shù)............................................201 12.1.5 反向傳播算法........................................202 12.2 深度學(xué)習(xí)模型的優(yōu)化.....................................204 12.2.1 動(dòng)量法..............................................206 12.2.2 Nesterov 動(dòng)量法 ..................................... 206 12.2.3 具有自適應(yīng)學(xué)習(xí)率的優(yōu)化算法 .......................... 206 12.2.4 批規(guī)范化............................................209 12.2.5 小結(jié) ............................................... 210 12.3 卷積神經(jīng)網(wǎng)絡(luò) ........................................... 211 12.3.1 卷積操作............................................211 12.3.2 池化 ............................................... 214 12.3.3 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu) .............................. 215 12.4 循環(huán)神經(jīng)網(wǎng)絡(luò) ........................................... 216 12.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò)的計(jì)算圖表示 ............................ 217 12.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) .................................. 217 12.4.3 長(zhǎng)短期記憶網(wǎng)絡(luò)...................................... 220 12.5 注意力機(jī)制網(wǎng)絡(luò) ......................................... 222 12.5.1 序列到序列模型中的注意力機(jī)制 ........................ 223 12.5.2 一般化的注意力機(jī)制 .................................. 225 12.5.3 基于注意力機(jī)制的 Transformer 模型 .................... 226 12.5.4 BERT 和 GPT-3 預(yù)訓(xùn)練模型 .......................... 231 12.6 小結(jié) .................................................... 233 案例與實(shí)戰(zhàn) .................................................... 234 第 13 章 文本分析................................................235 13.1 文本表示模型 ........................................... 237 13.1.1 向量空間模型........................................237 13.1.2 文本降維............................................239 13.2 主題模型 ................................................ 245 13.2.1 LDA 模型...........................................245 13.2.2 參數(shù)估計(jì)............................................247 13.2.3 主題模型小結(jié)........................................250 13.3 詞向量 .................................................. 251 13.3.1 Word2Vec .......................................... 251 13.3.2 GloVe .............................................. 253 13.3.3 ELMo .............................................. 254 13.3.4 小結(jié) ............................................... 256 13.4 情感分析 ................................................ 256 13.4.1 情感分類............................................257 13.4.2 基于特性的情感分析 .................................. 259 13.4.3 小結(jié) ............................................... 263 案例與實(shí)戰(zhàn) .................................................... 264 第 14 章 圖與網(wǎng)絡(luò)分析 ........................................... 266 14.1 圖論的基本概念 ......................................... 267 14.1.1 基本定義............................................268 14.1.2 常見圖介紹..........................................269 14.2 幾何特征 ................................................ 271 14.2.1 中心度..............................................272 14.2.2 集聚系數(shù)............................................275 14.2.3 模塊度..............................................276 14.3 鏈接分析 ................................................ 277 14.3.1 PageRank 算法 ...................................... 277 14.3.2 主題敏感 PageRank 算法..............................280 14.3.3 HITS 算法 .......................................... 280 14.4 圖表示學(xué)習(xí)..............................................281 14.4.1 淺層節(jié)點(diǎn)向量表示 .................................... 281 14.4.2 圖神經(jīng)網(wǎng)絡(luò)..........................................285 14.4.3 圖向量表示..........................................289 14.5 社區(qū)發(fā)現(xiàn) ................................................ 289 14.5.1 基于層次聚類的算法 .................................. 290 14.5.2 基于模塊度優(yōu)化的算法 ................................ 291 14.6 知識(shí)圖譜 ................................................ 292 14.6.1 知識(shí)圖譜的數(shù)據(jù)模型 .................................. 292 14.6.2 知識(shí)圖譜的數(shù)據(jù)管理方法 .............................. 294 14.6.3 知識(shí)圖譜在不同領(lǐng)域的研究熱點(diǎn) ........................ 295 案例與實(shí)戰(zhàn) .................................................... 296 第 15 章 分布式計(jì)算 ............................................. 297 15.1 Hadoop: 分布式存儲(chǔ)與處理.............................. 298 15.1.1 分布式文件系統(tǒng) HDFS................................299 15.1.2 分布式數(shù)據(jù)處理框架 MapReduce ....................... 301 15.2 常見模型的 MapReduce 實(shí)現(xiàn)............................ 304 15.2.1 統(tǒng)計(jì)查詢模型的 MapReduce 實(shí)現(xiàn) ...................... 304 15.2.2 線性回歸的 MapReduce 實(shí)現(xiàn) .......................... 305 15.2.3 支持向量機(jī)的 MapReduce 實(shí)現(xiàn) ........................ 306 15.2.4 K-means 的 MapReduce 實(shí)現(xiàn) ......................... 307 15.2.5 PageRank 的 MapReduce 實(shí)現(xiàn) ........................ 307 15.2.6 小結(jié) ............................................... 308 15.3 Spark:分布式數(shù)據(jù)分析 ................................. 308 15.3.1 彈性分布式數(shù)據(jù)集 .................................... 309 15.3.2 Spark 運(yùn)行流程 ...................................... 311 15.3.3 Spark 與 Hadoop 的對(duì)比.............................. 312 15.4 其他分布式系統(tǒng) ......................................... 313 附錄 A 矩陣運(yùn)算 ................................................. 314 A.1 基本概念 ................................................ 315 A.2 矩陣求導(dǎo) ................................................ 317 A.3 矩陣分解 ................................................ 318 附錄 B 概率論基礎(chǔ) ............................................... 320 B.1 基本概念.................................................321 B.2 常見概率分布 ............................................ 321 附錄 C 優(yōu)化算法 ................................................. 326 C.1 基本概念.................................................327 C.2 梯度下降法 .............................................. 328 C.3 拉格朗日乘數(shù)法.......................................... 329 附錄 D 距離......................................................331 D.1 歐氏距離 ................................................ 332 D.2 曼哈頓距離 .............................................. 332 D.3 馬氏距離 ................................................ 333 D.4 海明距離 ................................................ 333 D.5 余弦相似度 .............................................. 334 D.6 皮爾遜相關(guān)系數(shù)..........................................334 D.7 杰卡德相似度 ............................................ 334 D.8 KL 散度 ................................................. 335 附錄 E 模型評(píng)估 ................................................. 336 E.1 基本概念.................................................337 E.2 數(shù)據(jù)集劃分方法.......................................... 339 E.3 模型評(píng)價(jià)指標(biāo) ............................................ 341
你還可能感興趣
我要評(píng)論
|








