第1部分基礎(chǔ)理論
第1章大數(shù)據(jù)概述
1.1大數(shù)據(jù)基礎(chǔ)
1.1.1大數(shù)據(jù)的基本概念
1.1.2大數(shù)據(jù)的5V特征
1.1.3大數(shù)據(jù)的發(fā)展歷程
1.2大數(shù)據(jù)生態(tài)系統(tǒng)
1.2.1Hadoop
1.2.2Spark
1.3大數(shù)據(jù)的實(shí)際應(yīng)用
1.3.1大數(shù)據(jù)的應(yīng)用領(lǐng)域
1.3.2大數(shù)據(jù)面臨的挑戰(zhàn)
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 大數(shù)據(jù)軟件生態(tài)探索
第2部分?jǐn)?shù)據(jù)采集
第2章數(shù)據(jù)采集基礎(chǔ)
2.1數(shù)據(jù)采集的基本概念和特征
2.1.1數(shù)據(jù)采集的基本概念
2.1.2數(shù)據(jù)采集的特征
2.2數(shù)據(jù)采集的方法
2.2.1數(shù)據(jù)庫采集
2.2.2系統(tǒng)日志采集
2.2.3網(wǎng)絡(luò)數(shù)據(jù)采集
2.2.4傳感器采集
2.2.5眾包采集
2.3數(shù)據(jù)采集的技術(shù)
2.3.1網(wǎng)絡(luò)爬蟲
2.3.2數(shù)據(jù)抽取技術(shù)
2.4數(shù)據(jù)采集工具介紹
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 利用Octoparse采集網(wǎng)站數(shù)據(jù)
第3章Python網(wǎng)絡(luò)數(shù)據(jù)采集
3.1網(wǎng)絡(luò)爬蟲基礎(chǔ)
3.1.1HTML
3.1.2HTTP
3.1.3JavaScript
3.1.4Robots協(xié)議
3.2Python爬蟲基礎(chǔ)庫編寫爬蟲
3.2.1Requests庫采集網(wǎng)頁
3.2.2BeautifulSoup庫解析網(wǎng)頁
3.3Scrapy框架構(gòu)建爬蟲
3.3.1Scrapy框架簡介
3.3.2Scrapy框架安裝
3.3.3Scrapy框架爬蟲編寫
3.4Selenium庫模擬人工爬蟲
3.4.1Selenium庫簡介
3.4.2Selenium庫與瀏覽器驅(qū)動(dòng)安裝
3.4.3Selenium庫爬蟲編寫
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 股票報(bào)告爬蟲編寫
第3部分?jǐn)?shù)據(jù)預(yù)處理
第4章數(shù)據(jù)預(yù)處理基礎(chǔ)
4.1概述
4.1.1數(shù)據(jù)預(yù)處理的意義
4.1.2數(shù)據(jù)預(yù)處理的分類
4.2數(shù)據(jù)清理
4.2.1內(nèi)容格式錯(cuò)誤數(shù)據(jù)處理
4.2.2缺失值處理
4.2.3噪聲數(shù)據(jù)處理
4.2.4重復(fù)數(shù)據(jù)處理
4.3數(shù)據(jù)集成
4.3.1實(shí)體識(shí)別問題
4.3.2冗余問題
4.3.3沖突數(shù)據(jù)值的檢測與處理
4.4數(shù)據(jù)歸約
4.4.1維度歸約
4.4.2數(shù)量歸約
4.4.3數(shù)據(jù)壓縮
4.5數(shù)據(jù)轉(zhuǎn)換
4.5.1數(shù)據(jù)離散化
4.5.2數(shù)據(jù)標(biāo)準(zhǔn)化
4.5.3對(duì)數(shù)變換與指數(shù)變換
4.5.4數(shù)據(jù)脫敏
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 文本數(shù)據(jù)預(yù)處理
第5章Python數(shù)據(jù)預(yù)處理
5.1科學(xué)計(jì)算庫NumPy
5.1.1NumPy介紹與安裝
5.1.2NumPy的數(shù)據(jù)結(jié)構(gòu)與索引
5.1.3NumPy的數(shù)據(jù)類型與轉(zhuǎn)換
5.1.4NumPy的數(shù)學(xué)運(yùn)算
5.1.5NumPy常用的數(shù)學(xué)函數(shù)
5.1.6Numpy缺失值、異常值和重復(fù)值的處理
5.2數(shù)據(jù)分析庫Pandas
5.2.1Pandas介紹與安裝
5.2.2Pandas的數(shù)據(jù)結(jié)構(gòu)與索引
5.2.3Pandas的數(shù)據(jù)類型與轉(zhuǎn)換
5.2.4Pandas的數(shù)據(jù)輸入與輸出
5.2.5Pandas常用的數(shù)學(xué)函數(shù)
5.2.6Pandas缺失值、異常值和重復(fù)值處理
5.2.7apply()函數(shù)
5.2.8Pandas數(shù)據(jù)分組
5.2.9Pandas數(shù)據(jù)合并
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 空氣質(zhì)量分析
第4部分?jǐn)?shù)據(jù)可視化
第6章數(shù)據(jù)可視化基礎(chǔ)
6.1數(shù)據(jù)可視化概述
6.1.1數(shù)據(jù)可視化的發(fā)展歷史
6.1.2數(shù)據(jù)可視化的分類
6.2時(shí)間數(shù)據(jù)可視化
6.2.1時(shí)間數(shù)據(jù)可視化的方法
6.2.2時(shí)間數(shù)據(jù)可視化的應(yīng)用
6.3比例數(shù)據(jù)可視化
6.3.1比例數(shù)據(jù)可視化的方法
6.3.2比例數(shù)據(jù)可視化的應(yīng)用
6.4關(guān)系數(shù)據(jù)可視化
6.4.1關(guān)系數(shù)據(jù)可視化的方法
6.4.2關(guān)系數(shù)據(jù)可視化的應(yīng)用
6.5文本數(shù)據(jù)可視化
6.5.1文本數(shù)據(jù)可視化的方法
6.5.2文本數(shù)據(jù)可視化的應(yīng)用
6.6復(fù)雜數(shù)據(jù)可視化
6.6.1復(fù)雜數(shù)據(jù)可視化的方法
6.6.2復(fù)雜數(shù)據(jù)可視化的應(yīng)用
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 可視化圖表繪制
第7章Python數(shù)據(jù)可視化
7.1Python數(shù)據(jù)可視化庫概述
7.1.1Matplotlib
7.1.2Seaborn
7.1.3pyecharts
7.1.4NetworkX
7.1.5wordcloud
7.2Matplotlib圖表繪制
7.2.1Matplotlib安裝
7.2.2Matplotlib繪圖
7.2.3Matplotlib繪圖參數(shù)設(shè)置
7.3Seaborn圖表繪制
7.3.1Seaborn安裝
7.3.2Seaborn繪圖
7.3.3Seaborn繪圖參數(shù)設(shè)置
7.4pyecharts圖表繪制
7.4.1pyecharts安裝
7.4.2pyecharts繪圖
7.4.3pyecharts繪圖參數(shù)設(shè)置
7.5NetworkX圖表繪制
7.5.1NetworkX安裝
7.5.2NetworkX繪圖
7.5.3NetworkX繪圖參數(shù)設(shè)置
7.6wordcloud圖表繪制
7.6.1wordcloud安裝
7.6.2wordcloud繪圖
7.6.3wordcloud繪圖參數(shù)設(shè)置
思考與練習(xí)
章節(jié)實(shí)訓(xùn): 繪制可視化圖表
第5部分應(yīng)用案例
第8章案例: 用戶消費(fèi)行為分析
8.1RFM模型簡介
8.2數(shù)據(jù)讀入
8.3數(shù)據(jù)清洗和預(yù)處理
8.3.1數(shù)據(jù)清洗
8.3.2數(shù)據(jù)預(yù)處理
8.4RFM統(tǒng)計(jì)量計(jì)算
8.5RFM歸類
8.6結(jié)果保存
8.7可視化結(jié)果
第9章案例: 爬取二手房房價(jià)數(shù)據(jù)并繪制熱力圖
9.1數(shù)據(jù)抓取
9.1.1分析網(wǎng)頁
9.1.2地址轉(zhuǎn)換成經(jīng)緯度
9.1.3編寫代碼
9.1.4數(shù)據(jù)下載結(jié)果
9.2繪制熱力圖
第10章案例: 使用Spark實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)分析及性能優(yōu)化
10.1背景
10.2系統(tǒng)架構(gòu)
10.2.1總體方案
10.2.2詳細(xì)設(shè)計(jì)
10.2.3優(yōu)化設(shè)計(jì)
10.3具體實(shí)現(xiàn)
10.3.1數(shù)據(jù)獲取
10.3.2數(shù)據(jù)可視化
10.4性能優(yōu)化
10.4.1讀取優(yōu)化
10.4.2查詢優(yōu)化
10.4.3Spark參數(shù)級(jí)優(yōu)化