隨著計算機和互聯(lián)網技術的飛速發(fā)展和廣泛普及,互聯(lián)網已經成為人類獲取知識的最大平臺。在爬取了Web網頁語料后,需要通過數據預處理和數據分析來獲取數據的價值,從而造福人類,推動社會發(fā)展。本書主要是Web大數據預處理和數據分析的實戰(zhàn)指南,內容包括三部分:基礎知識、基于Python的數據預處理、基于Python的數據分析
更多科學出版社服務,請掃碼獲取。
目錄
第一部分 基礎知識
第1章 概述 3
1.1 大數據預處理和分析 3
1.2 各章概要 8
1.3 如何閱讀本書 12
第2章 數據挖掘基礎知識 14
2.1 數據挖掘 14
2.2 有監(jiān)督學習 16
2.3 無監(jiān)督學習 17
2.4 部分監(jiān)督學習 19
第3章 關系型數據庫和語料知識庫 21
3.1 關系型數據庫 21
3.2 SQL基礎知識 23
3.3 Python調用數據庫 32
3.4 常見的語料知識庫 39
第4章 正則表達式和基本字符串函數 48
4.1 正則表達式 48
4.2 基本字符串函數 58
4.3 字符編碼簡介 64
第二部分 基于Python的大數據預處理
第5章 數據預處理相關介紹 71
5.1 預處理概述 71
5.2 中文分詞 72
5.3 數據清洗 74
5.4 詞性標注基礎 75
5.5 向量空間模型及特征提取 76
5.6 權重計算 76
第6章 中文分詞技術及Jieba工具 77
6.1 中文分詞技術介紹 77
6.2 常用中文分詞工具 80
6.3 Jieba中文分詞工具 81
6.4 案例分析:使用Jieba對百度百科摘要信息進行中文分詞 91
第7章 數據清洗及停用詞過濾 94
7.1 數據清洗的概念 94
7.2 數據清洗常見方法 97
7.3 停用詞過濾 98
第8章 詞性標注 106
8.1 詞性標注概述 106
8.2 BosonNLP詞性標注 109
8.3 Jieba工具詞性標注 115
8.4 案例分析:基于Jieba工具的詞性標注 120
第9章 向量空間模型及特征提取 124
9.1 向量空間模型 124
9.2 特征提取 126
9.3 余弦相似性 129
9.4 案例分析:基于向量空間模型的余弦相似度計算 131
第10章 權重計算及TF-IDF 139
10.1 權重計算 139
10.2 TF-IDF 141
10.3 Scikit-Learn中的TF-IDF使用方法 143
10.4 案例分析:TF-IDF計算中文語料權重 146
第三部分 基于Python的大數據分析
第11章 Python大數據分析的常用庫介紹 157
11.1 數據挖掘概述 157
11.2 開發(fā)軟件安裝過程 159
11.3 Scikit-Learn庫 165
11.4 NumPy、SciPy、Matplotlib庫 169
第12章 基于Python的聚類數據分析 175
12.1 聚類概述 175
12.2 聚類算法基本用法 178
12.3 案例分析:基于Birch層次聚類算法及PAC降維顯示聚類圖像 190
第13章 基于Python的分類算法分析 206
13.1 分類概述 206
13.2 Python分類算法基本用法 214
13.3 案例分析:基于新聞數據分類算法的示例 229
第14章 基于Python的LDA主題模型 242
14.1 LDA主題模型 242
14.2 LDA安裝過程 244
14.3 LDA基本用法 245
14.4 案例分析:LDA主題模型分布計算 254
第15章 基于Python的神經網絡分析 265
15.1 神經網絡的基礎知識 265
15.2 神經網絡的Python簡單實現 271
15.3 Python神經網絡工具包 275
15.4 案例分析:使用神經網絡訓練 280
參考文獻 283