CDA三級認證教材:敏捷數(shù)據(jù)挖掘
定 價:109 元
- 作者:CDA數(shù)據(jù)科學(xué)研究院
- 出版時間:2026/1/1
- ISBN:9787121516030
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:420
- 紙張:
- 版次:01
- 開本:16開
本書作為CDA三級認證教材,打破了傳統(tǒng)的學(xué)院派知識整合模式,從業(yè)務(wù)應(yīng)用場景出發(fā)來組織內(nèi)容, 旨在更加貼近業(yè)務(wù)需求,而非單純羅列算法。經(jīng)過多年的打磨,本書精選了在行業(yè)應(yīng)用中價值最大的九類場景,并提供不同場景下構(gòu)建數(shù)據(jù)應(yīng)用的最佳實踐。 本書涉及的算法不僅涵蓋傳統(tǒng)的統(tǒng)計學(xué)習(xí),還結(jié)合企業(yè)實際需求,解構(gòu)了機器學(xué)習(xí)、深度學(xué)習(xí)的前沿方法,并提供了豐富的示例代碼, 以便讀者借鑒。本書分為三篇:理論篇、技術(shù)篇和管理篇。 理論篇共1章,講解數(shù)據(jù)挖掘的核心思維、算法模型和數(shù)據(jù)挖掘之間的關(guān)系, 以及數(shù)據(jù)挖掘的落地場景框架。技術(shù)篇共6章,講解決策類、識別類、優(yōu)化分析類模型的具體算法,以及參數(shù)調(diào)優(yōu)、特征工程、類別不平衡問題等內(nèi)容。管理篇共2章,講解 MLOps 和模型生命周期管理。
CDA 數(shù)據(jù)科學(xué)研究院簡介2013年,大數(shù)據(jù)行業(yè)方興未艾,CDA 數(shù)據(jù)科學(xué)研究院孕育而生,是全球率先成立的專注于數(shù)據(jù)科學(xué)領(lǐng)域的專業(yè)研究機構(gòu)。CDA 數(shù)據(jù)科學(xué)研究院匯集國內(nèi)外數(shù)據(jù)行業(yè)專家,團隊具有專業(yè)的學(xué)術(shù)素養(yǎng)、精湛的研究水平、扎實的企業(yè)實戰(zhàn)經(jīng)驗、豐富的行業(yè)資源,通過對各類企業(yè)、社會組織等進行全面、系統(tǒng)、深入的調(diào)查和訪問,獲得緊跟技術(shù)發(fā)展的經(jīng)驗與數(shù)據(jù),并結(jié)合數(shù)據(jù)行業(yè)的未來發(fā)展方向進行系統(tǒng)的研究,不斷研發(fā)創(chuàng)新的知識體系和技術(shù)應(yīng)用。近十年來,CDA 數(shù)據(jù)科學(xué)研究院秉持“專業(yè)性、前沿性、科學(xué)性”的定位,深耕數(shù)據(jù)分析、大數(shù)據(jù)、人工智能等核心領(lǐng)域,持續(xù)推進數(shù)據(jù)科學(xué)的行業(yè)發(fā)展和數(shù)字化人才標準體系的建立。未來,CDA 數(shù)據(jù)科學(xué)研究院也將順應(yīng)數(shù)字化時代浪潮,持續(xù)開拓創(chuàng)新,繼續(xù)加大數(shù)據(jù)科學(xué)領(lǐng)域的內(nèi)容建設(shè),推進人才數(shù)字化賦能,助力企業(yè)數(shù)字化轉(zhuǎn)型。
目錄
第1篇 原理篇
第1章 進階數(shù)據(jù)分析思維
1.1 數(shù)字化時代的三種重要思維 1
1.1.1 設(shè)計思維 .2
1.1.2 敏捷思維 .4
1.1.3 數(shù)據(jù)思維 .7
1.2 數(shù)據(jù)思維在現(xiàn)代企業(yè)管理中的作用 8
1.2.1 探查階段的數(shù)據(jù)分析 .9
1.2.2 定義階段的數(shù)據(jù)分析 .10
1.2.3 設(shè)計階段的數(shù)據(jù)分析 .13
1.2.4 交付階段的數(shù)據(jù)分析 .15
第2章 量化策略分析框架.20
2.1 探索階段 23
2.2 診斷階段 24
2.3 指導(dǎo)階段 27
第3章 量化策略分析流程.29
3.1 發(fā)現(xiàn)問題 31
3.2 近因分析 33
3.3 根因分析 35
3.4 做出預(yù)測 36
3.5 制定方案 37
3.6 驗證方案 38
3.7 工具支持 39
第2篇 技術(shù)篇
第4章 數(shù)據(jù)處理.42
4.1 使用pandas讀取結(jié)構(gòu)化數(shù)據(jù) .43
4.1.1 讀取數(shù)據(jù) .44
4.1.2 寫出數(shù)據(jù) .47
4.2 數(shù)據(jù)整合 47
4.2.1 行、列操作 .47
4.2.2 條件查詢 .51
4.2.3 橫向連接 .54
4.2.4 縱向合并 .57
4.2.5 排序 .60
4.2.6 分組匯總 .61
4.2.7 拆分列 .65
4.2.8 賦值與條件賦值 .66
4.3 數(shù)據(jù)清洗 69
4.3.1 重復(fù)值處理 .69
4.3.2 缺失值處理 .70
第5章 數(shù)據(jù)可視化74
5.1 Python可視化 74
5.1.1 Matplotlib繪圖庫 .74
5.1.2 Seaborn繪圖庫.83
5.2 描述性統(tǒng)計分析與繪圖 89
5.2.1 描述性統(tǒng)計進行數(shù)據(jù)探索 .89
5.2.2 制作報表與統(tǒng)計圖形 .99
第6章 市場調(diào)研與數(shù)據(jù)預(yù)處理.107
6.1 數(shù)據(jù)采集方法 107
6.1.1 市場研究中的數(shù)據(jù) .107
6.1.2 概率抽樣方法 .108
6.1.3 非概率抽樣方法 .114
6.1.4 概率抽樣和非概率抽樣的比較 .116
6.2 市場調(diào)研和數(shù)據(jù)錄入 116
6.2.1 市場調(diào)研流程 .116
6.2.2 市場調(diào)研目標設(shè)定 .117
6.2.3 市場調(diào)研前的準備工作 .117
6.2.4 實施調(diào)研 .124
6.3 數(shù)據(jù)預(yù)處理基礎(chǔ) 125
6.3.1 數(shù)據(jù)預(yù)處理基本步驟 .125
6.3.2 錯誤數(shù)據(jù)識別與處理 .126
6.3.3 連續(xù)變量離群值識別與處理 .130
6.3.4 分類變量概化處理 .132
6.3.5 缺失值處理 .133
6.3.6 連續(xù)變量分布形態(tài)轉(zhuǎn)換 .136
6.3.7 連續(xù)變量中心標準化或歸一化 .137
6.3.8 變量降維 .138
6.3.9 WoE轉(zhuǎn)換 139
第7章 數(shù)據(jù)降維方法141
7.1 矩陣分析法 141
7.2 連續(xù)變量降維 146
7.2.1 方法概述 .147
7.2.2 變量篩選 .147
7.2.3 維度規(guī)約 .147
7.3 主成分分析法 148
7.3.1 主成分分析簡介 .148
7.3.2 主成分分析原理 .149
7.3.3 主成分分析的運用 .152
7.3.4 實戰(zhàn)案例:在Python中實現(xiàn)主成分分析 .153
7.3.5 基于主成分的冗余變量篩選 .156
7.4 因子分析法 157
7.4.1 因子分析模型 .158
7.4.2 因子分析算法 .159
7.4.3 實戰(zhàn)案例:在Python中實現(xiàn)因子分析 .162
第8章 使用統(tǒng)計學(xué)方法進行檢驗和預(yù)測.167
8.1 假設(shè)檢驗 167
8.1.1 假設(shè)檢驗的基本原理 .168
8.1.2 假設(shè)檢驗中的兩類錯誤 .169
8.1.3 假設(shè)檢驗與區(qū)間估計的聯(lián)系 .170
8.1.4 假設(shè)檢驗的基本步驟 .171
8.1.5 配對樣本t檢驗172
8.2 方差分析 172
8.2.1 單因素方差分析 .173
8.2.2 多因素方差分析 .178
8.3 列聯(lián)表分析與卡方檢驗 181
8.3.1 列聯(lián)表 .1818.3.2 卡方檢驗 .183
8.4 線性回歸 185
8.4.1 簡單線性回歸 .185
8.4.2 多元線性回歸 .187
8.4.3 多元線性回歸的變量篩選 .196
8.4.4 線性回歸模型的經(jīng)典假設(shè) .199
8.4.5 建立線性回歸模型的基本步驟 .208
8.5 邏輯回歸 209
8.5.1 邏輯回歸的相關(guān)關(guān)系分析 211
8.5.2 邏輯回歸模型及實現(xiàn) 213
8.5.3 邏輯回歸的極大似然估計 223
8.5.4 模型評估 .225
8.5.5 因果推斷模型 .233
第9章 用戶分群方法.239
9.1 用戶細分與聚類 239
9.1.1 用戶細分的重要意義 .23
99.1.2 用戶細分的不同商業(yè)主題 .240
9.2 聚類分析的基本概念 247
9.3 聚類模型的評估 248
9.3.1 輪廓系數(shù) .248
9.3.2 平方根標準誤差 249
9.3.3 R2 2499.3.4 ARI 250
9.4 層次聚類 250
9.4.1 層次聚類算法描述 .251
9.4.2 層次聚類分群數(shù)量的確定 .254
9.4.3 層次聚類應(yīng)用簡單示例 .255
9.4.4 層次聚類的特點 .260
9.5 K-means聚類算法 260
9.5.1 K-means聚類算法描述 260
9.5.2 K-means聚類算法的應(yīng)用:用戶細分 261
9.6 聚類事后分析:決策樹應(yīng)用 269
9.6.1 決策樹的基本概念 .269
9.6.2 利用決策樹解讀用戶分群后的特征 .271
第3篇 管理篇
第10章 企業(yè)數(shù)據(jù)管理方法論.274
10.1 基本概念和關(guān)鍵術(shù)語解析 274
10.1.1 背景與目標 .274
10.1.2 數(shù)據(jù)管理主要模塊及其關(guān)系 .276
10.1.3 數(shù)據(jù)生存周期管理 .279
10.2 輸入和資源需求 282
10.2.1 業(yè)務(wù)戰(zhàn)略 .282
10.2.2 組織文化 .283
10.2.3 架構(gòu)設(shè)計和IT系統(tǒng)現(xiàn)狀說明 .283
10.3 數(shù)據(jù)治理流程 283
10.3.1 “盤”:盤清現(xiàn)狀 .284
10.3.2 “規(guī)”:制定規(guī)范 .289
10.3.3 “治”:問題整治 .291
10.3.4 “用”:數(shù)據(jù)應(yīng)用 .292
10.4 輸出和績效評估 292
10.4.1 數(shù)據(jù)管理的輸出 .292
10.4.2 數(shù)據(jù)管理的績效評估 .293
10.5 數(shù)據(jù)管理的成熟度模型 294
10.5.1 能力域和能力項 .294
10.5.2 成熟度評估等級 .298
10.6 數(shù)據(jù)資產(chǎn)價值評估與數(shù)據(jù)資源入表 301
10.6.1 數(shù)據(jù)資產(chǎn)價值評估方法 .301
10.6.2 數(shù)據(jù)資源入表 .305
10.7 本章小結(jié) 307
第11.章 企業(yè)數(shù)據(jù)安全管理方法論.308
11.1 數(shù)據(jù)安全導(dǎo)論 308
11.1.1 數(shù)據(jù)安全需求 .308
11.1.2 數(shù)據(jù)安全定義 .312
11.1.3 數(shù)據(jù)安全管理目標和原則 .312
11.2 輸入和資源需求 314
11.2.1 業(yè)務(wù)需求 .314
11.2.2 監(jiān)管要求 .314
11.3 數(shù)據(jù)生存周期安全管理流程 314
11.3.1 數(shù)據(jù)安全需求分析 .314
11.3.2 制定數(shù)據(jù)安全制度和細則 .315
11.3.3 數(shù)據(jù)的分類分級 .316
11.3.4 數(shù)據(jù)安全實施控制 .319
11.4 輸出和績效評估 321
11.4.1 數(shù)據(jù)安全的輸出 .321
11.4.2 數(shù)據(jù)安全的績效評估 322
11.5 數(shù)據(jù)安全能力成熟度模型 323
11.6 本章小結(jié) 327