本書引導讀者從數(shù)據(jù)科學基本概念出發(fā),全面了解數(shù)據(jù)科學相關(guān)知識,掌握數(shù)據(jù)科學中數(shù)據(jù)處理的流程和方法。本書在理論上突出可讀性和完整性,力求兼具一定的廣度和深度;在實踐上強調(diào)對常用技術(shù)工具的操作性,力求體現(xiàn)數(shù)據(jù)科學應用的多樣性和代表性。全書共12章,可分為三大部分:第1、2章是數(shù)據(jù)科學概述部分;第3~6章是數(shù)據(jù)科學理論基礎(chǔ)和重點工具部分;第7~12章是數(shù)據(jù)科學全流程的技術(shù)與方法部分(包括數(shù)據(jù)采集、數(shù)據(jù)存儲與管理、數(shù)據(jù)可視化、數(shù)據(jù)分析、數(shù)據(jù)安全與倫理,以及數(shù)據(jù)科學的應用與案例)。登錄華信教育資源網(wǎng)(www.hxedu.com.cn)可下載本書涉及的案例與示例的全部代碼和數(shù)據(jù)集,以及各章PPT和教學大綱等資料。本書可作為高等院校數(shù)據(jù)科學相關(guān)專業(yè)的教學用書,也可作為數(shù)據(jù)科學相關(guān)研究從業(yè)人員的參考用書。
薛薇,工學碩士,經(jīng)濟學博士,中國人民大學應用統(tǒng)計學科研究中心研究員,中國人民大學統(tǒng)計學院副教授。主要研究領(lǐng)域:機器學習和文本挖掘、復雜網(wǎng)絡建模等。關(guān)注統(tǒng)計和數(shù)據(jù)挖掘算法及軟件應用。涉足企業(yè)客戶終身價值測算,基于文本挖掘的熱點事件主題提取和分類,金融、貿(mào)易等復雜網(wǎng)絡動態(tài)建模等方面。主要代表性教材:《SPSS統(tǒng)計分析方法及應用》《R語言數(shù)據(jù)挖掘方法及應用》《R語言:大數(shù)據(jù)分析中的統(tǒng)計方法及應用》《SPSS Modeler數(shù)據(jù)挖掘方法及應用》《數(shù)據(jù)科學概論——從概念到應用》等。
目錄
第1章 數(shù)據(jù)與信息概述 1
1.1 數(shù)據(jù)的概念、特征和作用 1
1.1.1 數(shù)據(jù)的概念 1
1.1.2 數(shù)據(jù)的特征 2
1.1.3 數(shù)據(jù)的作用 3
1.2 數(shù)據(jù)的尺度與類型 3
1.2.1 定性數(shù)據(jù)和定量數(shù)據(jù) 4
1.2.2 離散數(shù)據(jù)和連續(xù)數(shù)據(jù) 5
1.2.3 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù) 5
1.3 數(shù)據(jù)的表格化 8
1.3.1 個體數(shù)據(jù)的表格化 8
1.3.2 批量匯總數(shù)據(jù)的表格化 9
1.3.3 統(tǒng)計指標 11
1.4 數(shù)據(jù)的數(shù)字化 12
1.4.1 二進制與數(shù)字化 12
1.4.2 文本的數(shù)字化 13
1.4.3 數(shù)字的數(shù)字化 15
1.4.4 多媒體的數(shù)字化 17
1.4.5 數(shù)字化轉(zhuǎn)型與數(shù)字化經(jīng)濟 18
1.5 信息與信息熵 19
1.5.1 信息熵:不確定性的度量 19
1.5.2 信息增益:不確定性減少的度量 20
第2章 數(shù)據(jù)科學概述 22
2.1 數(shù)據(jù)科學的科學觀 22
2.1.1 從科學高度看數(shù)據(jù)科學 22
2.1.2 通過案例初識數(shù)據(jù)科學 23
2.2 數(shù)據(jù)科學概念 25
2.2.1 數(shù)據(jù)科學產(chǎn)生的重大技術(shù)背景 25
2.2.2 數(shù)據(jù)科學產(chǎn)生的典型應用背景 25
2.2.3 數(shù)據(jù)科學的定義 27
2.3 歷史觀察:探討數(shù)據(jù)科學的發(fā)展歷程 27
2.3.1 古代:從結(jié)繩記事到阿拉伯數(shù)字 27
2.3.2 古典:政治算術(shù)和國勢學 29
2.3.3 近代:隨機現(xiàn)象、概率論與數(shù)理統(tǒng)計 29
2.3.4 現(xiàn)代:抽樣與推斷統(tǒng)計 31
2.3.5 計算機時代:技術(shù)革命帶來的繁榮 32
2.3.6 大數(shù)據(jù)時代:奠定數(shù)據(jù)科學基礎(chǔ) 33
2.4 數(shù)據(jù)世界:探討數(shù)據(jù)科學的對象 37
2.4.1 數(shù)據(jù)世界和數(shù)據(jù)科學 37
2.4.2 數(shù)據(jù)世界和數(shù)字孿生 38
2.5 DIKW模型:探討數(shù)據(jù)科學中的若干基本概念 39
2.5.1 DIKW模型 39
2.5.2 從DIKW模型看數(shù)據(jù)科學 41
2.6 維恩圖:探討數(shù)據(jù)科學的學科交叉性 42
2.6.1 文獻中的數(shù)據(jù)科學維恩圖 42
2.6.2 數(shù)據(jù)科學學科交叉性的總結(jié) 43
2.7 從數(shù)據(jù)到模型:探討數(shù)據(jù)科學的一般方法 45
2.7.1 反問題的方法 45
2.7.2 數(shù)據(jù)驅(qū)動的方法 46
2.7.3 模型化的方法 47
2.8 數(shù)據(jù)處理流程:探討數(shù)據(jù)科學方法論 53
2.8.1 傳統(tǒng)理念下的數(shù)據(jù)處理方法論 53
2.8.2 計算機時代的數(shù)據(jù)處理方法論 54
2.8.3 大數(shù)據(jù)時代的數(shù)據(jù)處理方法論 56
2.9 三維視角:總覽數(shù)據(jù)科學 58
2.9.1 從三維視角看數(shù)據(jù)科學 58
2.9.2 理論方法維度 58
2.9.3 處理流程維度 60
2.9.4 應用領(lǐng)域維度 60
第3章 數(shù)據(jù)科學中的計算機基礎(chǔ) 61
3.1 計算機系統(tǒng)概述 61
3.1.1 計算機的發(fā)展 62
3.1.2 計算機的種類 62
3.2 計算機硬件 63
3.2.1 計算機硬件的組成 63
3.2.2 計算機硬件的工作原理 64
3.3 計算機軟件 65
3.3.1 操作系統(tǒng) 65
3.3.2 計算機語言 66
3.3.3 應用軟件 68
3.4 計算機網(wǎng)絡 68
3.4.1 局域網(wǎng)、廣域網(wǎng)和因特網(wǎng) 69
3.4.2 計算機網(wǎng)絡的通信協(xié)議 71
3.5 計算機應用的技術(shù)模式 72
3.5.1 主機/終端模式 72
3.5.2 客戶機/服務器模式 73
3.5.3 瀏覽器/服務器模式 74
3.5.4 云計算模式 75
3.5.5 對等模式 78
3.6 計算機應用 79
3.6.1 科學計算 79
3.6.2 數(shù)據(jù)處理與大數(shù)據(jù) 80
3.6.3 人工智能 81
3.6.4 過程控制 85
第4章 數(shù)據(jù)科學中的數(shù)學與統(tǒng)計學基礎(chǔ) 86
4.1 微積分與數(shù)據(jù)科學應用 87
4.1.1 微積分的產(chǎn)生背景 87
4.1.2 微積分的基本思想方法 88
4.1.3 梯度下降法及數(shù)據(jù)科學應用示例 90
4.2 線性代數(shù)與數(shù)據(jù)科學應用 93
4.2.1 向量與向量空間及應用示例 93
4.2.2 矩陣與線性變換及應用示例 95
4.2.3 特征值與奇異值及數(shù)據(jù)科學應用示例 99
4.3 統(tǒng)計學與數(shù)據(jù)科學應用 103
4.3.1 描述統(tǒng)計要點 104
4.3.2 概率與概率分布要點 107
4.3.3 推斷統(tǒng)計和多元統(tǒng)計分析要點 108
4.3.4 貝葉斯思維在數(shù)據(jù)科學中的應用 109
4.4 集合論與數(shù)據(jù)科學的應用 113
4.4.1 集合論與羅素悖論 113
4.4.2 粗糙集與數(shù)據(jù)科學應用示例 115
4.5 圖論與數(shù)據(jù)科學的應用 120
4.5.1 歐拉和哥尼斯堡七橋問題 120
4.5.2 圖論的發(fā)展沿革 121
4.5.3 圖論與數(shù)據(jù)科學應用示例 122
第5章 數(shù)據(jù)科學中的SQL基礎(chǔ) 125
5.1 SQL概述 125
5.1.1 SQL的優(yōu)點 125
5.1.2 MySQL和SQL入門 127
5.2 SQL的數(shù)據(jù)定義和應用 130
5.2.1 SQL數(shù)據(jù)定義語句 131
5.2.2 SQL數(shù)據(jù)定義應用 133
5.3 SQL的數(shù)據(jù)操縱和應用 137
5.3.1 SQL數(shù)據(jù)操縱語句 137
5.3.2 SQL數(shù)據(jù)操縱應用 137
5.4 SQL的數(shù)據(jù)查詢 139
5.4.1 SELECT語句的簡單應用 139
5.4.2 SELECT語句的進階應用 145
5.4.3 SELECT語句的其他應用 150
5.5 MySQL的系統(tǒng)管理 151
5.5.1 MySQL的用戶管理 151
5.5.2 MySQL的權(quán)限管理 152
5.5.3 MySQL的事務管理 153
5.5.4 MySQL的文件存儲和日志管理 155
5.5.5 MySQL的客戶端數(shù)據(jù)庫管理工具Navicat 158
第6章 數(shù)據(jù)科學中的Python基礎(chǔ) 160
6.1 Python概述 160
6.1.1 Python的特點 160
6.1.2 Python的安裝和啟動 161
6.1.3 第一個Python程序與幫助 162
6.2 Python基礎(chǔ) 164
6.2.1 Python的基本數(shù)據(jù)類型和組織 164
6.2.2 Python的程序結(jié)構(gòu)和流程控制 169
6.2.3 異常處理結(jié)構(gòu) 173
6.3 Python語言進階 176
6.3.1 面向?qū)ο蟪绦蛟O計 176
6.3.2 模塊與包 177
6.3.3 Python綜合:chaos混沌態(tài) 178
6.4 NumPy入門 181
6.4.1 NumPy數(shù)組的創(chuàng)建 182
6.4.2 NumPy數(shù)組的訪問 185
6.4.3 NumPy數(shù)組的計算 186
6.5 Pandas入門 190
6.5.1 Pandas的數(shù)據(jù)組織 191
6.5.2 Pandas的數(shù)據(jù)加工處理 194
6.6 Matplotlib入門 196
6.6.1 Matplotlib的基本繪圖 196
6.6.2 Matplotlib的參數(shù)配置 198
6.6.3 Matplotlib的子圖設置 200
6.6.4 Matplotlib的常見統(tǒng)計圖 201
6.7 Python綜合應用示例:對空氣質(zhì)量監(jiān)測數(shù)據(jù)的分析 206
6.7.1 空氣質(zhì)量數(shù)據(jù)的預處理 207
6.7.2 空氣質(zhì)量數(shù)據(jù)的基本分析 209
6.7.3 空氣質(zhì)量數(shù)據(jù)的可視化 212
第7章 數(shù)據(jù)采集 217
7.1 傳統(tǒng)數(shù)據(jù)采集方式和技術(shù) 218
7.1.1 普查和統(tǒng)計報表制度 218
7.1.2 抽樣調(diào)查和問卷調(diào)查 220
7.1.3 觀察法和實驗法 221
7.1.4 傳統(tǒng)數(shù)據(jù)采集技術(shù) 224
7.2 互聯(lián)網(wǎng)數(shù)據(jù)采集 226
7.2.1 互聯(lián)網(wǎng)數(shù)據(jù)采集概述 227
7.2.2 網(wǎng)站運營數(shù)據(jù)庫和數(shù)據(jù)分析及采集 227
7.2.3 網(wǎng)頁埋點和數(shù)據(jù)采集 229
7.2.4 開放數(shù)據(jù)庫和數(shù)據(jù)采集 231
7.2.5 搜索引擎和數(shù)據(jù)采集 233
7.2.6 網(wǎng)頁爬蟲和數(shù)據(jù)采集 236
7.3 物聯(lián)網(wǎng)數(shù)據(jù)采集 240
7.3.1 物聯(lián)網(wǎng)數(shù)據(jù)采集概述 240
7.3.2 傳感器和數(shù)據(jù)采集 241
7.3.3 衛(wèi)星通信和數(shù)據(jù)采集 242
7.3.4 射頻識別技術(shù)、條形碼和數(shù)據(jù)采集 244
7.4 數(shù)據(jù)采集與人工智能 245
7.4.1 數(shù)據(jù)標注與數(shù)據(jù)采集 246
7.4.2 文本數(shù)據(jù)采集和挖掘 248
7.4.3 圖像數(shù)據(jù)采集和識別 249
第8章 數(shù)據(jù)存儲與管理 251
8.1 數(shù)據(jù)文件和數(shù)據(jù)庫系統(tǒng) 251
8.1.1 數(shù)據(jù)文件 251
8.1.2 數(shù)據(jù)庫系統(tǒng)的概念 254
8.1.3 關(guān)系型數(shù)據(jù)庫系統(tǒng)和聯(lián)機事務處理 255
8.1.4 數(shù)據(jù)庫索引技術(shù) 257
8.2 數(shù)據(jù)倉庫系統(tǒng) 260
8.2.1 數(shù)據(jù)倉庫的概念 260
8.2.2 數(shù)據(jù)倉庫系統(tǒng)的基本結(jié)構(gòu) 261
8.2.3 聯(lián)機分析處理 264
8.2.4 知識發(fā)現(xiàn)與商業(yè)智能 266
8.3 數(shù)據(jù)庫系統(tǒng)的技術(shù)發(fā)展 268
8.3.1 并行數(shù)據(jù)庫技術(shù) 269
8.3.2 分布式數(shù)據(jù)庫技術(shù) 271
8.3.3 NoSQL數(shù)據(jù)庫系統(tǒng)和NewSQL數(shù)據(jù)庫系統(tǒng) 272
8.4 Hadoop大數(shù)據(jù)系統(tǒng) 275
8.4.1 什么是Hadoop 275
8.4.2 HDFS 276
8.4.3 MapReduce計算框架 279
8.4.4 Hadoop大數(shù)據(jù)生態(tài)系統(tǒng) 280
8.5 Spark大數(shù)據(jù)系統(tǒng) 286
8.5.1 什么是Spark 287
8.5.2 Spark大數(shù)據(jù)生態(tài)系統(tǒng) 288
8.5.3 Spark大數(shù)據(jù)平臺databricks應用 290
8.6 Flink大數(shù)據(jù)系統(tǒng) 294
8.6.1 流數(shù)據(jù) 294
8.6.2 Flink大數(shù)據(jù)生態(tài)系統(tǒng) 297
8.7 數(shù)據(jù)湖系統(tǒng) 300
8.7.1 什么是數(shù)據(jù)湖系統(tǒng) 300
8.7.2 數(shù)據(jù)湖系統(tǒng)的基本功能 301
8.7.3 典型的數(shù)據(jù)湖系統(tǒng) 302
第9章 數(shù)據(jù)可視化 305
9.1 數(shù)據(jù)可視化概述 305
9.1.1 數(shù)據(jù)可視化起源和發(fā)展 305
9.1.2 數(shù)據(jù)可視化元素 307
9.1.3 數(shù)據(jù)可視化步驟和原則 308
9.2 數(shù)據(jù)可視化一般方法 309
9.2.1 電子地圖及地圖圖表 309
9.2.2 高維數(shù)據(jù)的可視化展現(xiàn) 312
9.3 數(shù)據(jù)可視化實現(xiàn)和Tableau應用 315
9.3.1 數(shù)據(jù)可視化實現(xiàn)方式 316
9.3.2 Tableau及其應用 317
9.4 數(shù)據(jù)可視化的新發(fā)展 325
9.4.1 計算機圖形學 326
9.4.2 虛擬現(xiàn)實及相關(guān)技術(shù) 327
9.4.3 增強現(xiàn)實技術(shù) 329
第10章 數(shù)據(jù)分析 332
10.1 數(shù)據(jù)分析方法、目標及軟件工具 332
10.1.1 數(shù)據(jù)分析方法 332
10.1.2 數(shù)據(jù)分析目標 337
10.1.3 數(shù)據(jù)分析軟件工具:sklearn簡介 338
10.2 數(shù)據(jù)預處理 340
10.2.1 數(shù)據(jù)標準化處理 340
10.2.2 缺失值處理 342
10.2.3 特征選擇與特征提取 344
10.3 經(jīng)典聚類算法 347
10.3.1 聚類分析概述 347
10.3.2 層次聚類 349
10.3.3 K-均值聚類 351
10.3.4 DBSCAN聚類 353
10.3.5 聚類分析應用實例 355
10.4 數(shù)據(jù)預測:經(jīng)典統(tǒng)計方法 360
10.4.1 數(shù)據(jù)預測中的一般問題 360
10.4.2 一般線性回歸分析 362
10.4.3 二項邏輯回歸分析 365
10.4.4 數(shù)據(jù)預測應用實例 367
10.5 數(shù)據(jù)預測:經(jīng)典機器學習方法 370
10.5.1 K-近鄰分析 370
10.5.2 決策樹算法 373
10.5.3 支持向量機 377
10.5.4 分類算法的對比 379
第11章 數(shù)據(jù)安全與倫理 384
11.1 數(shù)據(jù)安全概述 384
11.1.1 什么是數(shù)據(jù)安全 384
11.1.2 數(shù)據(jù)安全的分類 385
11.2 數(shù)據(jù)安全體系 388
11.2.1 數(shù)據(jù)安全管理系統(tǒng) 388
11.2.2 數(shù)據(jù)安全法律法規(guī)系統(tǒng) 389
11.2.3 數(shù)據(jù)安全技術(shù)系統(tǒng) 391
11.3 傳統(tǒng)數(shù)據(jù)安全技術(shù) 393
11.3.1 數(shù)據(jù)加密 393
11.3.2 數(shù)據(jù)脫敏 394
11.4 大數(shù)據(jù)時代的數(shù)據(jù)安全技術(shù) 396
11.4.1 區(qū)塊鏈 396
11.4.2 聯(lián)邦學習 398
11.5 數(shù)據(jù)倫理和算法倫理 402
11.5.1 數(shù)據(jù)倫理與案例 403
11.5.2 算法倫理與案例 405
第12章 數(shù)據(jù)科學的應用與案例 408
12.1 數(shù)據(jù)科學的商業(yè)應用:RFM分析與客戶終身價值 408
12.1.1 客戶購買行為的RFM分析 408
12.1.2 客戶終身價值 409
12.1.3 客戶終身價值的計算和應用案例 411
12.1.4 應用啟示:理解業(yè)務才能做好分析 415
12.2 數(shù)據(jù)科學的海關(guān)應用:抽樣方案升級 416
12.2.1 海關(guān)稽查案例 417
12.2.2 海關(guān)稽查抽樣的數(shù)據(jù)模擬 418
12.2.3 應用啟示:數(shù)據(jù)治理體系 424
12.3 數(shù)據(jù)科學的企業(yè)應用:數(shù)字化轉(zhuǎn)型 426
12.3.1 數(shù)字化轉(zhuǎn)型概述 426
12.3.2 數(shù)字化轉(zhuǎn)型案例 427
12.3.3 應用啟示:數(shù)字化轉(zhuǎn)型的評估模型 430
附錄A MySQL函數(shù)列表 432