書單推薦 新書推薦 |
大數(shù)據(jù)分析與處理:實踐者的研究方法 車海鶯 薛靜鋒 金福生 商亮 ![]()
本書融合作者多年的教學(xué)與實踐經(jīng)驗,是一本全面且實用的大數(shù)據(jù)分析與處理教材。全書分為六部分共20章,內(nèi)容循序漸進,從大數(shù)據(jù)的基本概念出發(fā),逐步深入探討數(shù)據(jù)采集和預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理、大數(shù)據(jù)分析平臺以及大數(shù)據(jù)應(yīng)用等關(guān)鍵環(huán)節(jié)。本書詳細(xì)介紹了PyTorch、TensorFlow和Spark MLlib等熱門大數(shù)據(jù)分析平臺,并通過深入剖析和實戰(zhàn)演練,幫助讀者輕松掌握這些先進工具的使用技巧。同時,本書針對數(shù)據(jù)可視化、文本分析、推薦系統(tǒng)等經(jīng)典應(yīng)用場景,通過案例分析和代碼實現(xiàn),引導(dǎo)讀者從理論走向?qū)嵺`,快速掌握大數(shù)據(jù)分析的核心技能。本書適合作為普通高校數(shù)據(jù)科學(xué)與大數(shù)據(jù)相關(guān)專業(yè)的教材,也適合相關(guān)專業(yè)的技術(shù)人員使用。
本書以六篇架構(gòu)串聯(lián)理論與實踐,從數(shù)據(jù)預(yù)處理到推薦系統(tǒng)、知識圖譜等應(yīng)用場景,配套案例代碼與學(xué)堂在線慕課,助你快速具備工程落地能力。
前 言在人工智能迅速發(fā)展的今天,數(shù)據(jù)與算法、算力共同構(gòu)成人工智能的三大基本要素,發(fā)揮著至關(guān)重要的作用。其中,高質(zhì)量的數(shù)據(jù)是人工智能性能的重要基石。大數(shù)據(jù)分析不僅成為企業(yè)創(chuàng)新和政府決策的關(guān)鍵支撐,更是推動人工智能與大模型性能持續(xù)提升的原動力。為順應(yīng)人工智能時代對高質(zhì)量數(shù)據(jù)分析能力的需求,我們結(jié)合多年大數(shù)據(jù)分析課程教學(xué)的經(jīng)驗與成果,經(jīng)過近兩年的精心籌備與編寫,推出了本書。本書旨在為廣大讀者提供一個全面、系統(tǒng)且實用的大數(shù)據(jù)分析學(xué)習(xí)指南。我們不僅深入講解了大數(shù)據(jù)分析的原理和方法,還提供了豐富的案例代碼,幫助讀者從理論走向?qū)嵺`,提高大數(shù)據(jù)分析工程實踐能力。通過學(xué)習(xí)本書,讀者將能夠掌握大數(shù)據(jù)分析的核心概念、原理和技術(shù),了解大數(shù)據(jù)分析平臺的應(yīng)用,并具備在實際項目中運用大數(shù)據(jù)分析解決問題的能力。全書共分為六部分,每一部分都圍繞大數(shù)據(jù)分析的關(guān)鍵環(huán)節(jié)展開,力求為讀者構(gòu)建一個完整、系統(tǒng)的學(xué)習(xí)體系。第一部分為緒論,在此部分中簡要介紹了大數(shù)據(jù)的基本概念、發(fā)展歷程及其在各個領(lǐng)域的應(yīng)用價值,為后續(xù)章節(jié)的學(xué)習(xí)打下堅實的理論基礎(chǔ)。第二部分為數(shù)據(jù)采集和預(yù)處理,此部分涵蓋了數(shù)據(jù)源的識別與選擇、數(shù)據(jù)抽取與清洗、數(shù)據(jù)轉(zhuǎn)換與歸約等關(guān)鍵步驟,確保讀者能夠掌握高質(zhì)量數(shù)據(jù)的獲取方法。第三部分為數(shù)據(jù)存儲,在此部分中深入探討了數(shù)據(jù)物理存儲系統(tǒng)和邏輯存儲系統(tǒng)的相關(guān)原理,介紹了數(shù)據(jù)建模、分布式文件系統(tǒng)、NoSQL數(shù)據(jù)庫以及圖數(shù)據(jù)庫等先進技術(shù),旨在幫助讀者理解如何構(gòu)建高效、穩(wěn)定的數(shù)據(jù)存儲環(huán)境。第四部分為數(shù)據(jù)處理,在此部分中全面介紹了各種數(shù)據(jù)處理系統(tǒng)的技術(shù)和方法,包括批數(shù)據(jù)處理、流數(shù)據(jù)處理、分布式圖處理、處理架構(gòu)、內(nèi)存計算以及數(shù)據(jù)處理算法等,幫助讀者掌握不同大數(shù)據(jù)處理模型的核心技術(shù)。第五部分為大數(shù)據(jù)分析平臺,在此部分中重點介紹了PyTorch、TensorFlow和Spark MLlib這三個主流的大數(shù)據(jù)分析平臺,深入剖析了它們的框架原理、優(yōu)勢特點以及使用技巧,并通過實驗案例幫助讀者掌握這些大數(shù)據(jù)分析平臺的使用方法和技巧。第六部分為大數(shù)據(jù)應(yīng)用,在此部分中精心選擇了幾種經(jīng)典的大數(shù)據(jù)應(yīng)用場景,包括數(shù)據(jù)可視化、文本分析、推薦系統(tǒng)、知識圖譜以及社交網(wǎng)絡(luò)分析等,詳細(xì)介紹了這些應(yīng)用的流程,并輔以案例分析和實現(xiàn)代碼,幫助讀者深入理解各種典型大數(shù)據(jù)分析應(yīng)用的原理與實現(xiàn)過程。此外,為了方便讀者學(xué)習(xí),我們還提供了大數(shù)據(jù)分析慕課作為本書的輔助學(xué)習(xí)資源。這些慕課內(nèi)容豐富、講解生動,可以幫助讀者更好地理解和掌握大數(shù)據(jù)分析的相關(guān)知識。同時,本書也提供了實驗源代碼以及習(xí)題解析,這些學(xué)習(xí)資源可以通過掃描以下二維碼獲取。眾多研究生和本科生都熱情參與了本書的編寫工作。他們不僅協(xié)助我們完成了大量的撰寫與校對工作,還為我們提供了寶貴的意見和建議。在此,我們要特別感謝葉潤枝、呂寧、楊婧、吳國承、李灝、賈星辰、鐘文清、韓若嘉、趙羽風(fēng)、魏夢青、劉炳輝、陳軼飛、羅森、李艷茹、鞏傳龍、鄒瑩、馬旭騰、萬李錦芬、戚嘉亮、肖天一、張易從、張博凡、張卓遠(yuǎn)、張延碩、陳伊琳、張博漢、許婧雯等同學(xué)的大力支持和辛勤付出。最后,我們衷心希望本書能夠成為廣大讀者在大數(shù)據(jù)分析領(lǐng)域?qū)W習(xí)和實踐的有力助手,幫助讀者不斷提升自己的大數(shù)據(jù)分析能力和工程實踐能力。同時,我們也歡迎讀者提出寶貴的意見和建議,以便我們不斷完善和提升本書的質(zhì)量。讓我們攜手共進,迎接人工智能時代的挑戰(zhàn)與機遇,共同創(chuàng)造美好的未來!
車海鶯 北京理工大學(xué)計算機學(xué)院數(shù)據(jù)科學(xué)與知識工程研究所副教授。北京理工大學(xué)博士,德國Karlsruhe大學(xué)信息工程博士后。美國史蒂文斯理工學(xué)院訪問學(xué)者。研究方向包括大數(shù)據(jù)分析、人工智能、區(qū)塊鏈技術(shù)等,相關(guān)領(lǐng)域發(fā)表高水平學(xué)術(shù)文章20余篇,發(fā)明專利3項。 講授課程包括全英文大數(shù)據(jù)分析、軟件工程、信息管理等。具有豐富的工程項目經(jīng)驗,作為主要完成人參與完成多項科技部重點研發(fā)計劃項目和國家自然基金項目。獲得2024年華為產(chǎn)學(xué)合作項目,2024年拓金計劃項目“大數(shù)據(jù)分析”,2023年國家一流本科課程(線上一流課程:大數(shù)據(jù)技術(shù)導(dǎo)論)主要成員,2022年北京理工大學(xué)迪文優(yōu)秀教師、2021年華為棟梁之師,重點教改項目等獎項。獲得IBM全球共享研究計劃項目獎,IBM全球?qū)W者獎(Faculty Awards),2015、2017、2019、2020年國家留學(xué)基金委IBM優(yōu)秀教師獎教金等多項獎勵。出版教材專著3部。獨立完成慕課4門(英文大數(shù)據(jù)分析、中文大數(shù)據(jù)分析、大數(shù)據(jù)時代的創(chuàng)新思維和軟件理論與工程),參與建設(shè)慕課1門(大數(shù)據(jù)技術(shù)導(dǎo)論)。社會職務(wù)包括歐美同學(xué)會德奧分會理事,SAP學(xué)術(shù)與教育工作委員會委員等。薛靜鋒 博士,現(xiàn)任北京理工大學(xué)計算機學(xué)院副院長、教授、博士生導(dǎo)師,軟件評測中心主任,兼任高等學(xué)校大學(xué)計算機課程教學(xué)指導(dǎo)委員會委員,全國高等院校計算機基礎(chǔ)教育研究會理工專委會秘書長,中國人工智能學(xué)會理事、智能信息網(wǎng)絡(luò)專委會秘書長。發(fā)表SCI/EI檢索論文60余篇,申請國家發(fā)明專利30余項,編寫教材6部。
目 錄前言第一部分 緒論第1章 概述21.1 大數(shù)據(jù)的基本概念21.1.1 大數(shù)據(jù)的概念21.1.2 大數(shù)據(jù)的來源21.2 結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)31.2.1 結(jié)構(gòu)化數(shù)據(jù)的特點41.2.2 非結(jié)構(gòu)化數(shù)據(jù)的特點41.3 大數(shù)據(jù)的特征51.3.1 規(guī)模性61.3.2 多樣性61.3.3 高速性61.3.4 價值性61.3.5 真實性71.4 科學(xué)研究的第四范式71.4.1 科學(xué)研究的第四范式的 發(fā)展歷程71.4.2 第四范式的概念和特點91.5 大數(shù)據(jù)的生命周期111.5.1 數(shù)據(jù)采集121.5.2 數(shù)據(jù)存儲121.5.3 數(shù)據(jù)整合131.5.4 數(shù)據(jù)呈現(xiàn)與使用131.5.5 數(shù)據(jù)分析與應(yīng)用131.5.6 數(shù)據(jù)歸檔141.5.7 數(shù)據(jù)銷毀151.6 大數(shù)據(jù)的處理流程151.6.1 數(shù)據(jù)采集161.6.2 數(shù)據(jù)存儲161.6.3 數(shù)據(jù)治理161.6.4 數(shù)據(jù)分析171.6.5 數(shù)據(jù)應(yīng)用171.7 大數(shù)據(jù)的架構(gòu)171.7.1 數(shù)據(jù)存儲系統(tǒng)181.7.2 數(shù)據(jù)處理系統(tǒng)191.7.3 數(shù)據(jù)應(yīng)用系統(tǒng)20總結(jié)20習(xí)題20第二部分 數(shù)據(jù)采集和預(yù)處理第2章 大數(shù)據(jù)的采集222.1 內(nèi)部數(shù)據(jù)222.1.1 內(nèi)部數(shù)據(jù)概述222.1.2 內(nèi)部數(shù)據(jù)的價值232.1.3 內(nèi)部數(shù)據(jù)的采集242.2 外部數(shù)據(jù)262.2.1 外部數(shù)據(jù)概述262.2.2 淺網(wǎng)數(shù)據(jù)282.2.3 深網(wǎng)數(shù)據(jù)32總結(jié)34習(xí)題34第3章 大數(shù)據(jù)的預(yù)處理353.1 數(shù)據(jù)預(yù)處理概述353.1.1 數(shù)據(jù)預(yù)處理的意義353.1.2 數(shù)據(jù)預(yù)處理的方法353.2 數(shù)據(jù)質(zhì)量363.2.1 單一數(shù)據(jù)源數(shù)據(jù)質(zhì)量問題363.2.2 多數(shù)據(jù)源數(shù)據(jù)質(zhì)量問題373.3 數(shù)據(jù)清洗技術(shù)373.3.1 殘缺數(shù)據(jù)處理383.3.2 冗余數(shù)據(jù)處理383.3.3 噪聲數(shù)據(jù)處理383.4 數(shù)據(jù)轉(zhuǎn)換403.4.1 數(shù)據(jù)集成403.4.2 數(shù)據(jù)變換413.5 數(shù)據(jù)歸約423.5.1 維歸約433.5.2 數(shù)量歸約443.5.3 數(shù)據(jù)壓縮與變換45總結(jié)45習(xí)題45第三部分 數(shù)據(jù)存儲第4章 數(shù)據(jù)存儲系統(tǒng)484.1 數(shù)據(jù)建模484.1.1 數(shù)據(jù)建模概述484.1.2 如何對數(shù)據(jù)建模504.2 分布式文件系統(tǒng)534.2.1 分布式文件系統(tǒng)概述534.2.2 GFS554.2.3 HDFS574.2.4 主流分布式文件系統(tǒng)對比614.3 NoSQL數(shù)據(jù)庫634.3.1 NoSQL概述644.3.2 NoSQL分類654.3.3 NoSQL與其他數(shù)據(jù)庫的關(guān)系674.4 統(tǒng)一數(shù)據(jù)訪問接口68總結(jié)70習(xí)題71第5章 圖數(shù)據(jù)庫725.1 圖數(shù)據(jù)庫的發(fā)展725.1.1 圖數(shù)據(jù)庫的歷史725.1.2 圖數(shù)據(jù)庫的現(xiàn)狀和發(fā)展735.2 圖數(shù)據(jù)庫概述745.2.1 圖數(shù)據(jù)庫簡介745.2.2 圖數(shù)據(jù)庫的定義755.2.3 圖數(shù)據(jù)庫的應(yīng)用765.2.4 圖數(shù)據(jù)庫未來的發(fā)展趨勢775.3 圖數(shù)據(jù)庫的特點及優(yōu)缺點785.3.1 圖數(shù)據(jù)庫的特點785.3.2 圖數(shù)據(jù)庫的優(yōu)缺點795.4 圖數(shù)據(jù)庫的主要技術(shù)805.4.1 圖數(shù)據(jù)庫的數(shù)據(jù)模型805.4.2 圖數(shù)據(jù)庫的存儲引擎825.4.3 圖數(shù)據(jù)庫的操作語言835.4.4 圖數(shù)據(jù)庫的算法835.5 代表性圖數(shù)據(jù)庫—Neo4j845.5.1 Neo4j概述845.5.2 Neo4j圖數(shù)據(jù)庫的數(shù)據(jù)模型和 存儲結(jié)構(gòu)855.5.3 使用Neo4j的優(yōu)勢855.5.4 Cypher語句855.6 Neo4j圖數(shù)據(jù)庫的基礎(chǔ)實驗885.6.1 實驗?zāi)康?85.6.2 環(huán)境配置885.6.3 實驗步驟895.6.4 實驗總結(jié)965.7 Neo4j圖數(shù)據(jù)庫的進階實驗965.7.1 實驗概述965.7.2 數(shù)據(jù)導(dǎo)入975.7.3 實驗步驟與代碼展示985.7.4 實驗總結(jié)102總結(jié)102習(xí)題102第四部分 數(shù)據(jù)處理第6章 數(shù)據(jù)處理系統(tǒng)1046.1 數(shù)據(jù)處理系統(tǒng)概述1046.1.1 什么是數(shù)據(jù)處理1046.1.2 數(shù)據(jù)處理系統(tǒng)的組成1046.2 計算模型1056.2.1 批處理模型概述1056.2.2 流處理模型概述1056.2.3 大規(guī)模圖像數(shù)據(jù)處理 模型概述1066.2.4 分布式圖處理模型概述1066.2.5 大規(guī)模并行處理模型概述1066.2.6 大規(guī)模物理內(nèi)存計算 模型概述1066.3 計算平臺與引擎1066.3.1 Hadoop1076.3.2 Spark107總結(jié)109習(xí)題109第7章 批數(shù)據(jù)處理系統(tǒng)1107.1 MapReduce1107.1.1 MapReduce的架構(gòu)1117.1.2 MapReduce與RDBMS1127.1.3 共享存儲的批處理模型1127.1.4 Hadoop1137.2 MapReduce應(yīng)用實例1147.2.1 Top k問題1147.2.2 k-means聚類117總結(jié)117習(xí)題117第8章 流數(shù)據(jù)處理系統(tǒng)1188.1 流計算的定義1188.1.1 流處理出現(xiàn)的原因1188.1.2 流處理的定義1188.1.3 流計算的應(yīng)用1198.2 原生流處理—Storm1218.2.1 Storm簡介1218.2.2 Storm的物理架構(gòu)1228.2.3 Storm的邏輯架構(gòu)1238.2.4 其他傳統(tǒng)流處理系統(tǒng)1248.3 微批流處理系統(tǒng)— Spark Streaming1248.3.1 Spark Streaming概述1248.3.2 Spark Streaming的工作流程1258.3.3 Spark Streaming的工作 原理和架構(gòu)1268.3.4 Spark Streaming的特性1298.4 Flink1298.4.1 批處理與流處理1308.4.2 Flink提供的不同級別的 抽象1318.4.3 無界數(shù)據(jù)流與有界數(shù)據(jù)流1318.5 流數(shù)據(jù)處理實驗1328.5.1 Storm流數(shù)據(jù)處理實驗1328.5.2 Spark Streaming流數(shù)據(jù) 處理實驗1378.6 大數(shù)據(jù)處理體系結(jié)構(gòu)1478.6.1 批處理層1488.6.2 服務(wù)層1488.6.3 實時處理層149總結(jié)150習(xí)題150第9章 分布式圖處理1519.1 分布式圖處理概述1519.2 分布式圖處理的概念1529.3 分布式圖處理的工作原理1539.4 分布式圖處理的框架—Pregel1539.4.1 Pregel的基礎(chǔ)概念1539.4.2 Pregel的工作原理1569.4.3 Pregel的體系結(jié)構(gòu)1599.5 Pregel框架實驗1619.5.1 基于C++線程并發(fā)的Pregel 框架模擬1629.5.2 節(jié)點最大值實驗1639.5.3 單源最短路徑實驗1669.5.4 實驗總結(jié)171總結(jié)171習(xí)題171第10章 處理架構(gòu)17210.1 對稱多處理架構(gòu)17210.2 非一致性內(nèi)存訪問架構(gòu)17210.3 大規(guī)模并行處理架構(gòu) 17310.4 SMP、NUMA和MPP的比較17810.4.1 SMP與MPP的比較17810.4.2 NUMA與MPP的比較178總結(jié)179習(xí)題179第11章 內(nèi)存計算18011.1 SAP HANA18011.1.1 SAP HANA概述18011.1.2 SAP HANA的工作原理18111.1.3 SAP HANA的優(yōu)勢18411.2 Spark18411.2.1 Spark的起源18411.2.2 Spark的工作原理18511.2.3 Spark的組件18911.2.4 Spark的優(yōu)勢191總結(jié)191習(xí)題192第12章 數(shù)據(jù)處理算法19312.1 數(shù)據(jù)處理基礎(chǔ)19312.1.1 數(shù)據(jù)挖掘19312.1.2 數(shù)據(jù)建模的一般流程19312.1.3 數(shù)據(jù)建模方法的評估19712.1.4 常見數(shù)據(jù)分類任務(wù)及其 表征手段19912.2 機器學(xué)習(xí)方法20112.2.1 機器學(xué)習(xí)的一般步驟20112.2.2 傳統(tǒng)SVM方法20212.2.3 隨機森林方法20412.2.4 決策樹方法20512.3 深度學(xué)習(xí)方法20812.3.1 線性回歸模型20912.3.2 感知器模型21112.3.3 人工神經(jīng)網(wǎng)絡(luò)21312.3.4 小結(jié)217總結(jié)218習(xí)題218第五部分 大數(shù)據(jù)分析平臺第13章 PyTorch22013.1 PyTorch的發(fā)展背景22013.2 PyTorch結(jié)構(gòu)概覽22113.2.1 torch22113.2.2 torchvision22213.3 數(shù)據(jù)載體模塊22313.3.1 初始化張量22313.3.2 張量的屬性22613.3.3 張量的基本運算和操作22613.3.4 張量與NumPy數(shù)組23113.3.5 圖像轉(zhuǎn)換和處理23313.3.6 小結(jié)23513.4 求導(dǎo)模塊23513.4.1 張量、函數(shù)與計算圖23513.4.2 自動求導(dǎo)機制23613.4.3 梯度計算23713.4.4 禁用梯度跟蹤23913.4.5 小結(jié)23913.5 效率工具模塊24013.5.1 數(shù)據(jù)導(dǎo)入和封裝24013.5.2 載入預(yù)訓(xùn)練模型24413.5.3 訓(xùn)練結(jié)果可視化24513.5.4 小結(jié)24613.6 優(yōu)化算法模塊24713.6.1 前置代碼24813.6.2 超參數(shù)24813.6.3 循環(huán)優(yōu)化25013.6.4 損失函數(shù)25013.6.5 優(yōu)化器25013.6.6 小結(jié)25313.7 神經(jīng)網(wǎng)絡(luò)模塊25413.7.1 獲取設(shè)備25513.7.2 定義類25513.7.3 模型的網(wǎng)絡(luò)層25613.7.4 模型參數(shù)25913.7.5 保存、加載和使用模型25913.7.6 小結(jié)26013.8 運算性能模塊26013.8.1 GPU加速26013.8.2 TorchElastic分布式訓(xùn)練26113.8.3 小結(jié)26213.9 PyTorch的基礎(chǔ)實驗—基于 LSTM的房價預(yù)測26213.9.1 torch.nn模塊介紹26213.9.2 實驗準(zhǔn)備26413.9.3 實驗的具體步驟26513.10 PyTorch的進階實驗—搭建 Transformer框架26813.10.1 Transformer的起源與意義26813.10.2 Transformer的整體結(jié)構(gòu)26913.10.3 Transformer的各組件27113.10.4 Transformer的代碼實現(xiàn)27513.10.5 Transformer的應(yīng)用280總結(jié)282習(xí)題282第14章 TensorFlow28314.1 TensorFlow概述28314.2 TensorFlow的系統(tǒng)架構(gòu)28414.2.1 模型的構(gòu)建、訓(xùn)練和驗證28514.2.2 模型的存儲和部署28714.3 神經(jīng)網(wǎng)絡(luò)的構(gòu)建與TensorFlow 的基本用法28714.3.1 神經(jīng)網(wǎng)絡(luò)前置知識28714.3.2 TensorFlow的基本用法29114.3.3 小結(jié)29314.4 TensorFlow的特點、優(yōu)勢和 應(yīng)用領(lǐng)域29414.4.1 TensorFlow的特點29414.4.2 TensorFlow的優(yōu)勢29414.4.3 TensorFlow的應(yīng)用領(lǐng)域29414.5 比較PyTorch和TensorFlow29514.6 TensorFlow實驗29714.6.1 tf.keras前置知識29714.6.2 TensorFlow圖像分類實驗29714.6.3 TensorFlow圖像風(fēng)格 遷移實驗304總結(jié)304習(xí)題304第15章 Spark MLlib30615.1 Spark MLlib概述30615.2 Spark MLlib的系統(tǒng)架構(gòu)30715.3 Spark MLlib的工作流307總結(jié)310習(xí)題310第六部分 大數(shù)據(jù)應(yīng)用第16章 數(shù)據(jù)可視化31216.1 數(shù)據(jù)可視化概述31216.1.1 數(shù)據(jù)可視化的概念31216.1.2 數(shù)據(jù)可視化的分類31216.1.3 數(shù)據(jù)可視化與其他學(xué)科 領(lǐng)域的關(guān)系31316.2 數(shù)據(jù)可視化基礎(chǔ)31516.2.1 數(shù)據(jù)可視化設(shè)計的原則31516.2.2 數(shù)據(jù)可視化流程31616.2.3 數(shù)據(jù)可視化的基本圖表31716.3 數(shù)據(jù)可視化工具和軟件32116.3.1 Power BI32116.3.2 Tableau32316.3.3 Gephi32516.4 數(shù)據(jù)可視化分析案例32616.4.1 連接數(shù)據(jù)32616.4.2 數(shù)據(jù)初步處理32616.4.3 圖表繪制327總結(jié)330習(xí)題330第17章 大數(shù)據(jù)分析應(yīng)用— 文本分析33117.1 文本分析概述33117.1.1 文本數(shù)據(jù)33117.1.2 文本分析33217.2 文本分析相關(guān)技術(shù)33517.2.1 人工文本分析33517.2.2 基于詞典的方法33617.2.3 詞袋法33717.2.4 監(jiān)督學(xué)習(xí)33817.2.5 無監(jiān)督學(xué)習(xí)33817.2.6 循環(huán)神經(jīng)網(wǎng)絡(luò)34517.2.7 長短時記憶網(wǎng)絡(luò)34717.3 情感分析案例34817.3.1 數(shù)據(jù)獲取34917.3.2 數(shù)據(jù)預(yù)處理34917.3.3 特征工程35017.3.4 模型訓(xùn)練和使用352總結(jié)354習(xí)題355第18章 大數(shù)據(jù)分析應(yīng)用— 推薦系統(tǒng)35618.1 推薦系統(tǒng)概述35618.1.1 信息過載與推薦系統(tǒng)35618.1.2 推薦系統(tǒng)的發(fā)展歷史35618.1.3 推薦系統(tǒng)的意義35718.1.4 推薦系統(tǒng)的基本工作流程35818.1.5 推薦系統(tǒng)的整體架構(gòu)35918.1.6 推薦系統(tǒng)的主要類型35918.2 推薦系統(tǒng)的相關(guān)算法36018.2.1 基于內(nèi)容的推薦算法36018.2.2 協(xié)同過濾推薦算法36218.2.3 深度學(xué)習(xí)推薦算法37018.2.4 混合推薦算法37418.3 推薦系統(tǒng)的其他問題37418.3.1 推薦系統(tǒng)的性能評估37418.3.2 推薦系統(tǒng)的冷啟動37518.3.3 推薦系統(tǒng)的大規(guī)! (shù)據(jù)處理37518.3.4 推薦系統(tǒng)中的稀疏性問題37618.3.5 推薦系統(tǒng)中的長尾問題37718.4 推薦系統(tǒng)案例37718.4.1 背景37718.4.2 數(shù)據(jù)37818.4.3 模型37918.4.4 環(huán)境搭建37918.4.5 數(shù)據(jù)處理38118.4.6 模型構(gòu)建38218.4.7 模型訓(xùn)練38318.4.8 模型評估38318.4.9 推薦38418.4.10 案例總結(jié)384總結(jié)384習(xí)題385第19章 圖數(shù)據(jù)分析的應(yīng)用— 知識圖譜38619.1 圖數(shù)據(jù)分析概述38619.1.1 圖數(shù)據(jù)分析的概念38619.1.2 圖數(shù)據(jù)分析的應(yīng)用38619.1.3 圖數(shù)據(jù)庫與傳統(tǒng)數(shù)據(jù)庫38719.2 知識圖譜概述38719.2.1 知識圖譜的定義38719.2.2 知識圖譜的架構(gòu)38819.2.3 數(shù)據(jù)類型和存儲方式38919.3 知識圖譜的相關(guān)技術(shù)39119.3.1 信息抽取39219.3.2 知識融合39219.3.3 知識加工39319.3.4 知識更新39619.4 知識圖譜的應(yīng)用案例39619.4.1 背景39619.4.2 環(huán)境搭建39719.4.3 數(shù)據(jù)獲取39719.4.4 數(shù)據(jù)處理39819.4.5 實體關(guān)系抽取40219.4.6 結(jié)果可視化402總結(jié)405習(xí)題405第20章 圖數(shù)據(jù)分析的應(yīng)用— 社交網(wǎng)絡(luò)40620.1 社交網(wǎng)絡(luò)概述40620.1.1 社交網(wǎng)絡(luò)的定義40620.1.2 社交網(wǎng)絡(luò)的起源與發(fā)展40620.1.3 社交網(wǎng)絡(luò)的應(yīng)用領(lǐng)域40620.1.4 社交網(wǎng)絡(luò)分析與大數(shù)據(jù) 的關(guān)系40720.1.5 社交網(wǎng)絡(luò)分析工具40720.2 社交網(wǎng)絡(luò)分析的結(jié)構(gòu)特性40920.2.1 統(tǒng)計特性40920.2.2 網(wǎng)絡(luò)特性41020.2.3 網(wǎng)絡(luò)模型41120.3 社交網(wǎng)絡(luò)分析的研究41220.4 基于圖卷積網(wǎng)絡(luò)的社交網(wǎng)絡(luò) 分類實驗41220.4.1 實驗?zāi)康?1320.4.2 實驗內(nèi)容和原理41320.4.3 實驗步驟414總結(jié)419習(xí)題419參考文獻420
你還可能感興趣
我要評論
|








