大數(shù)據(jù)技術(shù)涵蓋面廣、體系龐大,涉及不同層面及其相關(guān)技術(shù)。本書主要介紹大數(shù)據(jù)應(yīng)用中的兩大關(guān)鍵技術(shù),即數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理與分析。首先介紹大數(shù)據(jù)的基本概念,然后基于Hadoop架構(gòu)簡(jiǎn)要講解HDFS大數(shù)據(jù)存儲(chǔ)原理,剖析MapReduce和Spark分布式計(jì)算模型,重點(diǎn)通過(guò)Python語(yǔ)言詳細(xì)介紹大數(shù)據(jù)處理、數(shù)據(jù)可視化和數(shù)據(jù)分析的方法及相關(guān)技術(shù),同時(shí)詳細(xì)介紹PySpark大數(shù)據(jù)分析的方法,最后通過(guò)綜合案例演示大數(shù)據(jù)處理和分析過(guò)程。
本書力求較全面地介紹大數(shù)據(jù)的理論以及Python數(shù)據(jù)處理和分析的實(shí)踐,使讀者輕松學(xué)會(huì)利用Python進(jìn)行大數(shù)據(jù)分析及應(yīng)用的技術(shù)。本書適合信息類專業(yè)開(kāi)設(shè)大數(shù)據(jù)技術(shù)課程時(shí)作為教材使用,也適合大數(shù)據(jù)相關(guān)技術(shù)人員作為入門參考書使用。
第1章 大數(shù)據(jù)概述
1.1 什么是大數(shù)據(jù)?
1.2 大數(shù)據(jù)的發(fā)展歷程
1.3 大數(shù)據(jù)關(guān)鍵技術(shù)
1.4 大數(shù)據(jù)計(jì)算模式
本章小結(jié)
課后習(xí)題
第2章 大數(shù)據(jù)分布式存儲(chǔ)
2.1 大數(shù)據(jù)處理架構(gòu) Hadoop
2.2 分布式文件系統(tǒng) HDFS
本章小結(jié)
課后習(xí)題
第3章 大數(shù)據(jù)分布式處理
3.1 MapReduce
3.2 Spark
本章小結(jié)
課后習(xí)題
第4章 Python語(yǔ)言基礎(chǔ)
4.1 Python基本語(yǔ)法
4.2 NumPy簡(jiǎn)介
4.3 Pandas簡(jiǎn)介
本章小結(jié)
課后習(xí)題
第5章 Python基本數(shù)據(jù)處理
5.1 數(shù)據(jù)清洗
5.2 數(shù)據(jù)透視
5.3 數(shù)據(jù)分組
5.4 離散化處理
5.5 合并數(shù)據(jù)集
本章小結(jié)
課后習(xí)題
第6章 Python 數(shù)據(jù)可視化
6.1 matplotlib繪圖基礎(chǔ)
6.2 matplotlib可視化實(shí)例
6.3 Seaborn繪圖
6.4 中文分詞及詞云圖
6.5 圖像處理簡(jiǎn)介
本章小結(jié)
課后習(xí)題
第7章 數(shù)據(jù)分析之機(jī)器學(xué)習(xí)
7.1 機(jī)器學(xué)習(xí)基本概念
7.2 機(jī)器學(xué)習(xí)庫(kù)sklearn簡(jiǎn)介
7.3 回歸算法原理與應(yīng)用
7.4 支持向量機(jī)算法原理與應(yīng)用
7.5 KNN分類算法原理與應(yīng)用
7.6 KMeans 聚類算法原理與應(yīng)用
本章小結(jié)
課后習(xí)題
第8章 數(shù)據(jù)分析之文本分析
8.1 距離度量和相似性度量
8.2 文本向量表示及應(yīng)用
本章小結(jié)
課后習(xí)題
第9章 PySpark 數(shù)據(jù)處理及分析
9.1 PySpark數(shù)據(jù)基本操作
9.2 PySpark 機(jī)器學(xué)習(xí)
9.3 Spark Streaming流處理技術(shù)
9.4 Kafka消息發(fā)布-訂閱系統(tǒng)
本章小結(jié)
課后習(xí)題
第10章 大數(shù)據(jù)應(yīng)用綜合案例
10.1 網(wǎng)絡(luò)爬行器
10.2 案例需求分析
10.3 案例設(shè)計(jì)
10.4 案例實(shí)現(xiàn)
本章小結(jié)
課后習(xí)題
參考文獻(xiàn)