真實(shí)數(shù)據(jù)科學(xué)
定 價(jià):96 元
當(dāng)前圖書(shū)已被 3 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:[美]郁彬 麗貝卡·L·巴特
- 出版時(shí)間:2025/8/1
- ISBN:9787300337500
- 出 版 社:中國(guó)人民大學(xué)出版社
- 中圖法分類:TP274
- 頁(yè)碼:
- 紙張:
- 版次:1
- 開(kāi)本:16
本書(shū)內(nèi)容翔實(shí),結(jié)構(gòu)清晰,主要分為三大部分。
第一部分:基礎(chǔ)概念篇。此部分將引領(lǐng)您踏入實(shí)踐真實(shí)數(shù)據(jù)科學(xué)的門(mén)檻,詳細(xì)解析PCS框架的精髓,并對(duì)DSLC進(jìn)行全面概述。同時(shí)介紹一系列計(jì)算概念,這些概念將成為您后續(xù)實(shí)施示例和技術(shù)的堅(jiān)實(shí)基石。此外,本書(shū)還將指導(dǎo)您如何在計(jì)算機(jī)上高效組織數(shù)據(jù)科學(xué)項(xiàng)目,傳授編寫(xiě)高效代碼的經(jīng)驗(yàn),并助您熟練運(yùn)用Git和GitHub等開(kāi)發(fā)工具。
第二部分:數(shù)據(jù)準(zhǔn)備與探索篇。在這一部分,我們將深入探討數(shù)據(jù)清理、預(yù)處理及數(shù)據(jù)爆炸等核心議題。盡管每個(gè)數(shù)據(jù)科學(xué)項(xiàng)目都會(huì)涉及數(shù)據(jù)清理和預(yù)處理工作,但本書(shū)將為您提供前所未有的詳細(xì)指導(dǎo)。您將了解到,雖然數(shù)據(jù)清理工作繁瑣,但對(duì)于全面理解數(shù)據(jù)至關(guān)重要。此外,本書(shū)還將引導(dǎo)您運(yùn)用數(shù)據(jù)可視化、維度縮小及聚類等技術(shù),深入挖掘數(shù)據(jù)中的隱藏模式和趨勢(shì)。隨著閱讀的深入,您將逐漸領(lǐng)略到PCS框架的強(qiáng)大威力。
第三部分:預(yù)測(cè)與分析篇。本書(shū)的最后一部分將聚焦于預(yù)測(cè)問(wèn)題,為您呈現(xiàn)一系列生成預(yù)測(cè)的先進(jìn)技術(shù)。這些技術(shù)將基于一系列常見(jiàn)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)(ML)算法,助您做出明智的決策。當(dāng)您進(jìn)入第三部分時(shí),您將能夠熟練進(jìn)行一般PCS評(píng)估,以評(píng)估數(shù)據(jù)科學(xué)結(jié)果的可信度。
郁彬,本科畢業(yè)于北京大學(xué)數(shù)學(xué)系,在加州大學(xué)伯克利分校取得了統(tǒng)計(jì)學(xué)碩士與博士學(xué)位。曾執(zhí)教過(guò)美國(guó)的威斯康星大學(xué)麥迪遜分校,1993年加入伯克利分校統(tǒng)計(jì)系任教,2009年曾擔(dān)任過(guò)加州大學(xué)伯克利分校統(tǒng)計(jì)系主任,目前是統(tǒng)計(jì)系與電氣工程與計(jì)算機(jī)科學(xué)系終身教授。2013年當(dāng)選美國(guó)藝術(shù)與科學(xué)院院士,2014年當(dāng)選美國(guó)國(guó)家科學(xué)院院士。郁彬教授是統(tǒng)計(jì)理論、高維數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等方面國(guó)際著名學(xué)者。她的交叉學(xué)科研究即廣泛又深入,包括神經(jīng)科學(xué)、遙感、生物信息、及文本總結(jié)。她的多項(xiàng)工作均在理論和應(yīng)用領(lǐng)域有很大影響,其中最近的一項(xiàng)工作為,和合作者利用fMRI分析解碼人類在觀看影片時(shí)的大腦視覺(jué)信號(hào)來(lái)重建影片中的影像,該工作被時(shí)代周刊評(píng)為年度top50發(fā)明之一 。她在頂尖的科學(xué)期刊上發(fā)表了70余篇論文,涉及統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、信息論、信號(hào)處理、遙感、神經(jīng)科學(xué)和網(wǎng)絡(luò)研究等領(lǐng)域。她還在許多期刊中擔(dān)任編委,比如統(tǒng)計(jì)年刊(Annals of Statistics)、美國(guó)統(tǒng)計(jì)學(xué)會(huì)會(huì)刊(Journal of American Statistical Association)、機(jī)器學(xué)習(xí)研究期刊(Journal of Machine Learning Research)和技術(shù)計(jì)量學(xué)(Technometrics)
第1部分 簡(jiǎn)介
第1章 真實(shí)數(shù)據(jù)科學(xué)簡(jiǎn)介
1.1 數(shù)據(jù)和算法在現(xiàn)實(shí)決策中的作用
1.2 運(yùn)用批判性思維評(píng)估和建立可信度
1.3 使用 PCS 框架評(píng)估和建立可信度
練習(xí)題
第2章 數(shù)據(jù)科學(xué)生命周期
2.1 數(shù)據(jù)術(shù)語(yǔ)
2.2 DSLC 階段1:?jiǎn)栴}構(gòu)建和數(shù)據(jù)收集
2.3 DSLC 階段2:數(shù)據(jù)清洗、預(yù)處理和探索性數(shù)據(jù)分析
2.4 DSLC 階段3:探索數(shù)據(jù)的內(nèi)在結(jié)構(gòu)
2.5 DSLC 階段4:預(yù)測(cè)和/或推斷分析
2.6 DSLC 階段5:評(píng)估結(jié)果
2.7 DSLC 階段6:溝通結(jié)果和更新領(lǐng)域知識(shí)
練習(xí)題
第3章 建立數(shù)據(jù)科學(xué)項(xiàng)目
3.1 編程語(yǔ)言和集成開(kāi)發(fā)環(huán)境
3.2 一致的項(xiàng)目結(jié)構(gòu)
3.3 可重復(fù)性
3.4 協(xié)作工具
練習(xí)題
第2部分 準(zhǔn)備、探索和描述數(shù)據(jù)
第4章 數(shù)據(jù)準(zhǔn)備
4.1 器官捐獻(xiàn)數(shù)據(jù)
4.2 通用的數(shù)據(jù)清洗流程
4.3 步驟1:了解數(shù)據(jù)收集過(guò)程和問(wèn)題域
4.4 步驟2:加載數(shù)據(jù) / 57
4.5 步驟3:檢查數(shù)據(jù)并創(chuàng)建操作項(xiàng)
4.6 步驟4:清洗數(shù)據(jù)
4.7 其他常見(jiàn)的預(yù)處理步驟
練習(xí)題
第5章 探索性數(shù)據(jù)分析
5.1 基于問(wèn)答的探索性數(shù)據(jù)分析工作流程
5.2 常見(jiàn)的數(shù)據(jù)匯總方法
5.3 可比性
5.4 探索性數(shù)據(jù)分析結(jié)果的PCS審查
練習(xí)題
第6章 主成分分析
6.1 食物營(yíng)養(yǎng)項(xiàng)目
6.2 生成歸納變量:主成分分析
6.3 預(yù)處理:為了可比性的標(biāo)準(zhǔn)化
6.4 奇異值分解
6.5 預(yù)處理:高斯性和變換
6.6 主成分分析步驟總結(jié)
6.7 PCS評(píng)估主成分分析
6.8 將主成分分析應(yīng)用于每個(gè)營(yíng)養(yǎng)組
6.9 主成分分析的替代方法
練習(xí)題
第7章 聚類
7.1 理解聚類
7.2 層次聚類
7.3 K-means 聚類
7.4 高維聚類可視化
7.5 聚類質(zhì)量的定量度量
7.6 比較聚類相似性的蘭德指數(shù)
7.7 選擇類別數(shù)
7.8 聚類結(jié)果的PCS審查
7.9 最終的聚類結(jié)果
練習(xí)題
第3部分 預(yù)測(cè)
第8章 預(yù)測(cè)問(wèn)題簡(jiǎn)介
8.1 連接過(guò)去、現(xiàn)在和未來(lái)的預(yù)測(cè)問(wèn)題
8.2 設(shè)置預(yù)測(cè)問(wèn)題
8.3 PCS和評(píng)估預(yù)測(cè)算法
8.4 艾奧瓦州艾姆斯房?jī)r(jià)預(yù)測(cè)項(xiàng)目
練習(xí)題
第9章 連續(xù)響應(yīng)和最小二乘法
9.1 可視化預(yù)測(cè)關(guān)系
9.2 使用擬合直線生成預(yù)測(cè)
9.3 計(jì)算擬合直線
9.4 預(yù)測(cè)性能的量化指標(biāo)1
9.5 預(yù)測(cè)結(jié)果的 PCS 審查
練習(xí)題
第10章 最小二乘法的推廣
10.1 基于多個(gè)解釋變量的線性擬合
10.2 預(yù)處理:獨(dú)熱編碼
10.3 預(yù)處理:變量變換
10.4 變量選擇
10.5 正則化
10.6 PCS評(píng)估
10.7 附錄:線性擬合的矩陣形式
練習(xí)題
第11章 二元響應(yīng)變量和邏輯回歸
11.1 在線購(gòu)物購(gòu)買預(yù)測(cè)項(xiàng)目
11.2 二元預(yù)測(cè)的最小二乘法
11.3 邏輯回歸
11.4 二元預(yù)測(cè)性能的定量度量
11.5 二元預(yù)測(cè)結(jié)果的PCS審查
練習(xí)題
第12章 決策樹(shù)和隨機(jī)森林算法
12.1 決策樹(shù)
12.2 分類與回歸樹(shù)算法
12.3 隨機(jī)森林算法
12.4 隨機(jī)森林變量重要性度量
12.5 CART和RF算法的PCS評(píng)估
練習(xí)題
第13章 生成最終預(yù)測(cè)結(jié)果
13.1 方法1:使用PCS選擇單一預(yù)測(cè)擬合
13.2 方法2:PCS集成
13.3 方法3:校準(zhǔn)的PCS預(yù)測(cè)擾動(dòng)區(qū)間
13.4 選擇最終預(yù)測(cè)方法
13.5 在實(shí)際應(yīng)用中使用預(yù)測(cè)
練習(xí)題
第14章 結(jié)論
14.1 可預(yù)測(cè)性
14.2 穩(wěn)定性和不確定性
14.3 PCS的未來(lái)方向:推斷
14.4 結(jié)束語(yǔ)
判斷練習(xí)參考答案
參考文獻(xiàn)