《大數(shù)據(jù)分析基礎(chǔ)》首先全面介紹了信息技術(shù)、計(jì)算機(jī)基礎(chǔ),以及計(jì)算機(jī)的起源與發(fā)展、計(jì)算機(jī)系統(tǒng)的組成、操作系統(tǒng)和文件管理等內(nèi)容,然后深入探討了Python編程的基礎(chǔ)知識,包括編程環(huán)境、語法、流程控制、組合數(shù)據(jù)類型、函數(shù)和模塊、常用的庫等,并通過豐富的實(shí)操練習(xí)幫助讀者掌握Python在文件管理、數(shù)據(jù)處理、科學(xué)計(jì)算等領(lǐng)域的應(yīng)用能力。此外,本書涵蓋了機(jī)器學(xué)習(xí)、大數(shù)據(jù)分析框架及國產(chǎn)大模型DeepSeek等內(nèi)容,有助于讀者建立從基礎(chǔ)到前沿 的Python知識體系。本書包含豐富的代碼示例和綜合案例,可以幫助讀者快速掌握大數(shù)據(jù)分析理論和實(shí)用的編程技能。
本書適用于高等院校計(jì)算機(jī)相關(guān)專業(yè)的學(xué)生、Python編程初學(xué)者,以及對數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)感興趣的讀者。
?構(gòu)建從基礎(chǔ)到前沿的知識體系,涵蓋Python、機(jī)器學(xué)習(xí)及國產(chǎn)大模型
?以問題為導(dǎo)向,通過實(shí)戰(zhàn)解析技術(shù)應(yīng)用邏輯與設(shè)計(jì)初衷
?包含豐富代碼示例與綜合案例,強(qiáng)化實(shí)操技能掌握
?覆蓋多行業(yè)場景,聚焦從數(shù)據(jù)到?jīng)Q策的落地能力培養(yǎng)
?架構(gòu)設(shè)計(jì)聚焦數(shù)據(jù)友好型語法,突出實(shí)戰(zhàn)脈絡(luò)呈現(xiàn)
作者簡介
李石明, 博士,畢業(yè)于中國科學(xué)技術(shù)大學(xué),主要研究方向?yàn)榇髷?shù)據(jù)、電子政務(wù)、企業(yè)管理等學(xué)科的教學(xué)和研究工作;近年來,主持省部級以上課題4項(xiàng),參與課題2項(xiàng),出版《綠色未來: ESG視角下的碳信息披露與企業(yè)價(jià)值重塑》《電子商務(wù)專業(yè)辦學(xué)特色的探索與實(shí)踐》專著2部,《公司戰(zhàn)略與風(fēng)險(xiǎn)管理》《Python編程:從入門到實(shí)踐》等教材4部,公開發(fā)表SCI 、CSSCI及北大核心期刊論文12篇。
序言
在數(shù)字化浪潮席卷的今天,數(shù)據(jù)已無可爭議地成為推動社會進(jìn)步、經(jīng)濟(jì)繁榮與科技創(chuàng)新的核心要素。從微觀的企業(yè)運(yùn)營到宏觀的國家治理,從日常生活的便捷化到科學(xué)研究的深化,數(shù)據(jù)的力量無處不在,其價(jià)值之巨大,堪比工業(yè)時(shí)代的原油。然而,正如原油須經(jīng)提煉方能成為動力之源,數(shù)據(jù)的價(jià)值也需要通過深度挖掘、精準(zhǔn)分析與有效轉(zhuǎn)化方能顯現(xiàn)。這正是大數(shù)據(jù)分析技術(shù)的魅力所在,也是《大數(shù)據(jù)分析基礎(chǔ)》 一書的初衷與使命。
在大數(shù)據(jù)時(shí)代的背景下,培養(yǎng)具備跨學(xué)科視野、扎實(shí)技術(shù)基礎(chǔ)與創(chuàng)新能力的人才何等重要。Python,這門融合了簡潔性與強(qiáng)大功能的編程語言,憑借其豐富的開源生態(tài)與高效的開發(fā)效率,在大數(shù)據(jù)處理與分析領(lǐng)域大放異彩,已成為連接理論與實(shí)踐、學(xué)術(shù)與產(chǎn)業(yè)的橋梁!洞髷(shù)據(jù)分析基礎(chǔ)》以Python為工具,旨在為讀者搭建一個(gè)從理論到實(shí)踐、從基礎(chǔ)到進(jìn)階的全方位學(xué)習(xí)平臺,助力大家在大數(shù)據(jù)的海洋中乘風(fēng)破浪,探索未知。
大數(shù)據(jù)分析技術(shù)的應(yīng)用,早已超越了單一行業(yè)的界限,它正以前所未有的速度滲透到金融、醫(yī)療、教育、政務(wù)、農(nóng)業(yè)等各個(gè)領(lǐng)域,成為推動行業(yè)變革與升級的關(guān)鍵力量。然而,面對龐雜的技術(shù)棧與多變的應(yīng)用場景,初學(xué)者往往感到無所適從,或是學(xué)了一堆技術(shù)卻不知如何用于解決實(shí)際問題!洞髷(shù)據(jù)分析基礎(chǔ)》正是為了解決這一痛點(diǎn)而著,它摒棄了傳統(tǒng)技術(shù)書籍單純羅列知識點(diǎn)的做法,轉(zhuǎn)而以問題為導(dǎo)向,以實(shí)戰(zhàn)為脈絡(luò),通過一系列精心設(shè)計(jì)的案例,引導(dǎo)讀者從真實(shí)場景出發(fā),深入理解大數(shù)據(jù)分析的精髓。
書中,不僅詳細(xì)介紹了Python編程的基礎(chǔ)知識,包括數(shù)據(jù)友好型語法、 Pandas庫的使用、Matplotlib與Seaborn的可視化技巧等,還深入探討了機(jī)器學(xué)習(xí)、分布式計(jì)算、大模型構(gòu)建等前沿話題。通過電商數(shù)據(jù)分析、社交媒體情感分析、財(cái)務(wù)大數(shù)據(jù)分析、政務(wù)大數(shù)據(jù)分析等真實(shí)案例,展示了如何將理論知識用于解決實(shí)際問題,實(shí)現(xiàn)從數(shù)據(jù)到商業(yè)價(jià)值的轉(zhuǎn)化。這種“從數(shù)據(jù)到行動”的閉環(huán)思維,不僅能夠幫助讀者建立扎實(shí)的理論基礎(chǔ),更能夠培養(yǎng)大家的實(shí)踐能力和創(chuàng)新思維。
作為教育者,我深知一本好書對于學(xué)生成長的重要性!洞髷(shù)據(jù)分析基礎(chǔ)》不僅是一本技術(shù)書籍,更是一本啟發(fā)思維、激發(fā)潛能的寶典。它鼓勵讀者先跑通代碼,再優(yōu)化細(xì)節(jié);善用工具箱思維,掌握核心范式;從“為什么”到“怎么做”,培養(yǎng)批判性思維;加入社區(qū),保持好奇心,持續(xù)精進(jìn)。通過閱讀本書,讀者不僅能夠掌握大數(shù)據(jù)分析的核心技能,更能夠在實(shí)踐中不斷探索、不斷創(chuàng)新,成為推動社會進(jìn)步的重要力量。
最后,我衷心希望《大數(shù)據(jù)分析基礎(chǔ)》能夠成為廣大讀者探索數(shù)據(jù)世界的得力助手,助力大家在算法的海洋中錨定方向,在信息的洪流中捕捉價(jià)值。攜手共進(jìn),在這場“解碼世界”的旅程中,不斷探索、不斷前行,共同開創(chuàng)一個(gè)更加智慧、更加美好的未來。
黃恒學(xué)
2025年5月1 日寫于北京大學(xué)廖凱原樓
前言
在數(shù)據(jù)驅(qū)動的時(shí)代,信息技術(shù)的每一次革新都在重塑人們的認(rèn)知范式。從智能手機(jī)的普及到人工智能的突破,從物聯(lián)網(wǎng)到云計(jì)算的泛在化,數(shù)據(jù)已成為推動社會發(fā)展的新“原油”。需要指出的是,數(shù)據(jù)的價(jià)值并非與生俱來—它必須經(jīng)過挖掘、分析和轉(zhuǎn)化,這正是大數(shù)據(jù)技術(shù)的核心使命。
Python作為一門兼具簡潔性與強(qiáng)大功能的編程語言,憑借其豐富的開源生態(tài)和高效的開發(fā)效率,已成為大數(shù)據(jù)處理與分析領(lǐng)域的“通用語言”。無論是數(shù)據(jù)清洗、機(jī)器學(xué)習(xí)建模,還是實(shí)時(shí)流處理、分布式計(jì)算,都可以使用Python完成。《大數(shù)據(jù)分析基礎(chǔ)》旨在幫助讀者跨越理論與實(shí)踐的鴻溝,掌握使用Python解決實(shí)際數(shù)據(jù)問題的能力。
本書特色
大數(shù)據(jù)技術(shù)的應(yīng)用早已突破科技公司的邊界,融入金融、醫(yī)療、教育、政務(wù)、農(nóng)業(yè)等各個(gè)領(lǐng)域。零售企業(yè)需要通過用戶行為數(shù)據(jù)分析優(yōu)化庫存,城市需要通過交通流量數(shù)據(jù)分析緩解擁堵,醫(yī)院需要通過患者數(shù)據(jù)分析預(yù)測疾病風(fēng)險(xiǎn)……這些場景的共同點(diǎn)在于:數(shù)據(jù)是起點(diǎn),決策才是終點(diǎn)。許多初學(xué)者往往陷入兩種困境:一是被龐雜的技術(shù)棧(如Hadoop 、Spark 、Flink等)所困擾;二是學(xué)了一堆技術(shù),卻不知如何解決實(shí)際問題。
《大數(shù)據(jù)分析基礎(chǔ)》的初衷即在于此—以問題為導(dǎo)向,以實(shí)戰(zhàn)為脈絡(luò)。本書摒棄了單純羅列技術(shù)的寫法,從真實(shí)場景出發(fā),通過實(shí)操練習(xí),讓讀者不僅學(xué)會“如何寫代碼”,而且理解“為什么這樣設(shè)計(jì)”。例如,介紹文本分析時(shí),會從社交媒體評論出發(fā),逐步展示如何用Python提取關(guān)鍵詞、分析情感傾向、定位問題根源,最終形成可落地的改進(jìn)方案。這種“從數(shù)據(jù)到行動”的閉環(huán)思維,正是本書區(qū)別于其他相關(guān)技術(shù)書籍的核心特色。
本書的結(jié)構(gòu)與主要內(nèi)容
全書圍繞基礎(chǔ)、工具、應(yīng)用、拓展四層架構(gòu)展開,共分為三大部分。
(1) 第1部分“筑基篇—Python與數(shù)據(jù)科學(xué)的橋梁”共包含四章內(nèi)容,幫助讀者奠定知識基礎(chǔ)。
第1章從信息技術(shù)的演進(jìn)切入,解析大數(shù)據(jù)的5V(volume 、velocity 、variety 、veracity、value)特征,并探討數(shù)據(jù)驅(qū)動決策的底層邏輯。
第2章和第3章深入介紹Python編程,但與傳統(tǒng)編程語言書籍不同,本書聚焦“數(shù)據(jù)友好型”語法,如列表推導(dǎo)式處理多維數(shù)據(jù)、使用Pandas庫實(shí)現(xiàn)類SQL操作、使用Matplotlib與Seaborn構(gòu)建可視化敘事。
第4章揭開機(jī)器學(xué)習(xí)的神秘面紗,通過scikit-learn庫的實(shí)戰(zhàn),闡釋如何用Python訓(xùn)練一個(gè)預(yù)測模型,并重點(diǎn)討論過擬合陷阱、特征工程等容易被忽視的實(shí)戰(zhàn)要點(diǎn)。
(2) 第2部分“進(jìn)階篇—分布式計(jì)算與生態(tài)工具”共包含兩章內(nèi)容,引領(lǐng)讀者初步認(rèn)識工業(yè)級大數(shù)據(jù)處理領(lǐng)域。
第5章深入解析Hadoop與Spark架構(gòu)設(shè)計(jì),避免陷入配置參數(shù)細(xì)節(jié),通過PySpark實(shí)例演示如何用Python調(diào)用分布式計(jì)算能力。例如,用彈性分布式數(shù)據(jù)集(RDD)處理TB級日志文件,用MLlib庫構(gòu)建分布式推薦系統(tǒng)。
第6章專章剖析國產(chǎn)大模型DeepSeek,包含從預(yù)訓(xùn)練數(shù)據(jù)集的構(gòu)建到垂直領(lǐng)域的微調(diào)策略等大模型構(gòu)建過程,并通過醫(yī)療影像分析、金融風(fēng)控等案例,展現(xiàn)國產(chǎn)AI框架的獨(dú)特優(yōu)勢與技術(shù)突破。
(3) 第3部分“實(shí)戰(zhàn)篇—從數(shù)據(jù)到商業(yè)價(jià)值”包含一章內(nèi)容,是全書的提高篇,介紹了六個(gè)案例,均源自真實(shí)業(yè)務(wù)場景。
電商數(shù)據(jù)分析案例:數(shù)據(jù)科學(xué)中的一個(gè)重要應(yīng)用場景,涉及數(shù)據(jù)清洗、探索性分析、可視化、用戶行為分析、銷售趨勢分析等。
社交媒體情感分析案例:自然語言處理(NLP)中的一個(gè)重要應(yīng)用場景,旨在通過分析社交媒體上的文本數(shù)據(jù)(如推文、評論等)來判斷用戶的情感傾向(正面、負(fù)面或中性)。
財(cái)務(wù)大數(shù)據(jù)分析案例:數(shù)據(jù)科學(xué)在金融領(lǐng)域的重要應(yīng)用,涉及財(cái)務(wù)報(bào)表分析、趨勢預(yù)測、風(fēng)險(xiǎn)評估、組合優(yōu)化等任務(wù)。
政務(wù)大數(shù)據(jù)分析案例:利用大數(shù)據(jù)技術(shù)對政府相關(guān)數(shù)據(jù)進(jìn)行分析,以支持政策制定、資源分配、公共服務(wù)優(yōu)化等決策。
自媒體大數(shù)據(jù)分析案例:利用大數(shù)據(jù)技術(shù)對自媒體平臺(如微博、
李石明,博士,畢業(yè)于中國科學(xué)技術(shù)大學(xué),主要研究方向?yàn)榇髷?shù)據(jù)、電子政務(wù)、企業(yè)管理等學(xué)科的教學(xué)和研究工作;近年來,主持省部級以上課題4項(xiàng),參與課題2項(xiàng),出版《綠色未來:ESG視角下的碳信息披露與企業(yè)價(jià)值重塑》《電子商務(wù)專業(yè)辦學(xué)特色的探索與實(shí)踐》專著2部,《公司戰(zhàn)略與風(fēng)險(xiǎn)管理》《Python編程:從入門到實(shí)踐》等教材4部,公開發(fā)表SCI、CSSCI及北大核心期刊論文12篇。
目錄
第 1 部分 筑基篇——Python 與數(shù)據(jù)科學(xué)的橋梁
第1章 信息技術(shù)與計(jì)算機(jī)基礎(chǔ) / 2
1.1 信息社會與計(jì)算機(jī) / 3
1.1.1 信息與信息處理 / 3
1.1.2 計(jì)算機(jī)的起源與發(fā)展 / 4
1.1.3 計(jì)算機(jī)的分類和應(yīng)用領(lǐng)域 / 9
1.1.4 計(jì)算思維 / 11
1.2 計(jì)算機(jī)基礎(chǔ)知識 / 13
1.2.1 信息編碼 / 13
1.2.2 計(jì)算機(jī)系統(tǒng) / 24
1.2.3 操作系統(tǒng)和文件 / 32
本章小結(jié) / 37
習(xí)題 / 38
第2章 Python編程基礎(chǔ) / 39
2.1 Python概述 / 40
2.1.1 產(chǎn)生背景 / 40
2.1.2 歷史發(fā)展 / 40
2.1.3 版本更迭 / 41
2.1.4 應(yīng)用分析 / 41
2.1.5 發(fā)展趨勢 / 42
2.2 編程環(huán)境 / 42
2.2.1 安裝Python解釋器 / 43
2.2.2 選擇合適的IDE / 43
2.2.3 安裝常用的庫和工具 / 43
2.2.4 配置環(huán)境變量 / 43
2.2.5 測試和驗(yàn)證 / 44
2.3 基礎(chǔ)知識 / 45
2.3.1 標(biāo)識符 / 45
2.3.2 變量 / 46
2.3.3 數(shù)據(jù)類型 / 46
2.3.4 字符串的表示及格式化 / 47
2.3.5 語句input/output / 48
2.4 流程控制 / 50
2.4.1 程序的基本結(jié)構(gòu) / 50
2.4.2 分支結(jié)構(gòu) / 50
2.4.3 循環(huán)結(jié)構(gòu) / 53
2.4.4 綜合案例 / 55
2.5 組合數(shù)據(jù)類型 / 61
2.5.1 列表及其操作 / 61
2.5.2 元組及其操作 / 64
2.5.3 字典及其操作 / 66
2.5.4 集合及其操作 / 68
2.6 函數(shù)和模塊 / 71
2.6.1 函數(shù) / 71
2.6.2 實(shí)操練習(xí):成績管理系統(tǒng) / 77
2.6.3 模塊 / 79
2.6.4 實(shí)操練習(xí):學(xué)生管理系統(tǒng) / 80
2.7 常用的庫 / 82
2.7.1 隨機(jī)數(shù)random庫 / 82
2.7.2 繪圖工具turtle庫 / 83
2.7.3 中文分詞jieba庫 / 85
2.7.4 詞云工具wordcloud庫 / 85
本章小結(jié) / 86
習(xí)題 / 87
第3章 Python操作實(shí)踐 / 88
3.1 文件和目錄操作 / 89
3.1.1 基本概念 / 89
3.1.2 文件的打開與關(guān)閉 / 89
3.1.3 文件的讀寫 / 90
3.1.4 文件和目錄的管理 / 91
3.1.5 實(shí)操練習(xí):文件和目錄管理 / 92
3.2 Word文檔處理 / 93
3.2.1 安裝 python-docx 庫 / 93
3.2.2 創(chuàng)建新文檔 / 93
3.2.3 修改現(xiàn)有文檔 / 94
3.2.4 高級功能與擴(kuò)展功能 / 94
3.2.5 實(shí)操練習(xí):Word文檔處理 / 95
3.3 PDF文件處理 / 99
3.3.1 安裝 PyPDF2 和 pdfplumber / 99
3.3.2 內(nèi)容提取 / 99
3.3.3 合并與拆分 / 99
3.3.4 加密與解密 / 100
3.3.5 實(shí)操練習(xí):自動生成報(bào)告 / 100
3.4 Excel電子表格處理 / 101
3.4.1 安裝依賴庫 / 101
3.4.2 讀取Excel中的數(shù)據(jù) / 101
3.4.3 數(shù)據(jù)清洗與處理 / 101
3.4.4 將數(shù)據(jù)寫入Excel / 101
3.4.5 高級操作 / 101
3.4.6 實(shí)操練習(xí):自動生成銷售數(shù)據(jù)分析報(bào)告 / 102
3.5 PPT演示文稿處理 / 102
3.5.1 安裝 python-pptx 庫 / 102
3.5.2 創(chuàng)建基礎(chǔ)PPT / 103
3.5.3 高級功能 / 104
3.6 NumPy 科學(xué)計(jì)算庫 / 105
3.6.1 Nu