《DeepSeek源碼深度解析》是一本系統(tǒng)講解DeepSeek源碼及其核心實(shí)現(xiàn)原理的技術(shù)指南,內(nèi)容覆蓋了從基礎(chǔ)概念到高級(jí)應(yīng)用的全流
程知識(shí)。全書(shū)共7章,結(jié)構(gòu)層層遞進(jìn)。第1章對(duì)DeepSeek進(jìn)行了全面概述,幫助讀者構(gòu)建對(duì)DeepSeek系統(tǒng)的整體認(rèn)
知。第2章聚焦于環(huán)境搭建、代碼獲取與模型部署接入,為后續(xù)深入研究提供基礎(chǔ)。第3章深入探討了MoE(混合
專(zhuān)家模型)的基本原理、功能模塊與優(yōu)化技術(shù)。第4章詳細(xì)解析了DeepSeek-V3模型的架構(gòu)知識(shí),并通過(guò)測(cè)試驗(yàn)證
展示了系統(tǒng)的實(shí)際效果。第5章圍繞統(tǒng)一多模態(tài)大模型展開(kāi),介紹了Janus系列架構(gòu)、核心技術(shù)及工具模塊。第6章
針對(duì)高分辨率圖像場(chǎng)景,探討了結(jié)合MoE、細(xì)粒度特征提取與視覺(jué)/語(yǔ)言適配器的多模態(tài)模型的知識(shí)。第7章聚焦
DeepSeek-R1推理大模型,展示了DeepSeek在推理性能與自我進(jìn)化方面的前沿探索。
《DeepSeek源碼深度解析》適合人工智能工程師、深度學(xué)習(xí)研究者、AI產(chǎn)品開(kāi)發(fā)人員及高校師生閱讀。無(wú)論您是希望夯實(shí)開(kāi)源模型基礎(chǔ),
還是尋找前沿實(shí)戰(zhàn)案例,《DeepSeek源碼深度解析》都將為您提供全面而深入的參考與指導(dǎo)。
?從零開(kāi)始:基礎(chǔ)理論介紹和智能對(duì)話開(kāi)源框架使用講解,入門(mén)門(mén)檻低,易于初學(xué)者實(shí)戰(zhàn)上手。
??jī)?nèi)容全面:內(nèi)容涉及FAQ問(wèn)答、知識(shí)圖譜問(wèn)答、任務(wù)型問(wèn)答和表格型問(wèn)答等主要智能對(duì)話類(lèi)型,也涵蓋這些智能對(duì)話類(lèi)型企業(yè)級(jí)的綜合應(yīng)用實(shí)例講解。
??jī)?nèi)容新穎:既有深度學(xué)習(xí)前沿算法介紹,也有強(qiáng)化學(xué)習(xí)智能對(duì)話相關(guān)算法及代碼講解。
?經(jīng)驗(yàn)總結(jié):全面歸納和整理作者多年的智能對(duì)話實(shí)踐經(jīng)驗(yàn)。
??jī)?nèi)容實(shí)用:結(jié)合大量源代碼和開(kāi)源框架實(shí)例進(jìn)行講解,能迅速搭建自己的智能對(duì)話系統(tǒng)。
?通俗易懂:理論深入淺出,每章均可單獨(dú)閱讀,可作為床頭書(shū)隨時(shí)查閱。
這個(gè)技術(shù)有什么前途
隨著移動(dòng)互聯(lián)網(wǎng)日趨完善和語(yǔ)音技術(shù)的不斷成熟,用戶獲取信息的方式呈現(xiàn)碎片化、本地化、個(gè)性化、情境化等特點(diǎn)。這類(lèi)需求催生了大量的交互式人工智能應(yīng)用產(chǎn)品。例如,讓人們從重復(fù)枯燥的高度標(biāo)準(zhǔn)化的客戶交流中解救出來(lái)的智能客服系統(tǒng),執(zhí)行疫情流調(diào)的智能語(yǔ)音機(jī)器人,像蘋(píng)果的Siri這樣的智能助理,像微軟的小冰這樣的情感陪伴AI等。智能對(duì)話是這些產(chǎn)品的底層技術(shù),因而基于理解的對(duì)話交互式信息獲取逐漸成為新興的自然語(yǔ)言處理關(guān)鍵技術(shù)。
近年來(lái),智能對(duì)話技術(shù)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。隨著人工智能的發(fā)展,智能對(duì)話技術(shù)也逐漸從基于規(guī)則的受限專(zhuān)家系統(tǒng),朝著結(jié)合機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和知識(shí)圖譜等多項(xiàng)技術(shù)的認(rèn)知型系統(tǒng)演進(jìn)。作為一個(gè)初學(xué)者,它可以作為自然語(yǔ)言處理學(xué)習(xí)的系統(tǒng)方向之一。作為人工智能方向的從業(yè)者,學(xué)習(xí)和掌握智能對(duì)話技術(shù)能夠幫助拓寬業(yè)務(wù)算法的解決思路,也是應(yīng)聘自然語(yǔ)言處理工程師或Python工程師的一個(gè)加分項(xiàng)。
筆者的使用體會(huì)
隨著智能對(duì)話在智能客服和智能音箱的逐漸落地應(yīng)用,人們看到其在產(chǎn)業(yè)界的巨大潛力。它是繼搜索引擎、推薦、翻譯等自然語(yǔ)言處理(NLP)應(yīng)用之后,又一極具前景的NLP應(yīng)用方向。
筆者深感這一領(lǐng)域的日新月異,這個(gè)方向的論文成果層出不窮。但是這些理論性較強(qiáng),實(shí)操性相對(duì)較差。需要初學(xué)者具備較多基礎(chǔ),閱讀難度較大?v觀市場(chǎng)上全面介紹智能對(duì)話的中文書(shū)寥寥無(wú)幾,傾向于僅僅介紹深度學(xué)習(xí)模型。這導(dǎo)致初學(xué)者對(duì)于智能問(wèn)答缺乏一個(gè)系統(tǒng)深入性的認(rèn)識(shí)。
智能對(duì)話是一個(gè)需要較多數(shù)學(xué)基礎(chǔ),機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)理論及自然語(yǔ)言實(shí)踐基礎(chǔ)的方向。它也是一個(gè)實(shí)操性很強(qiáng)的方向,存在一些像AIML和Rasa這樣優(yōu)秀的開(kāi)源框架可供初學(xué)者迅速建立智能對(duì)話系統(tǒng)的感性認(rèn)知。由于它的實(shí)用性,也存在一些優(yōu)秀企業(yè)級(jí)智能對(duì)話架構(gòu)供參考。閱讀智能對(duì)話相關(guān)的優(yōu)秀源碼也是初學(xué)者提升智能對(duì)話系統(tǒng)認(rèn)知和構(gòu)建水平的捷徑。
這本書(shū)的特色
- 從零開(kāi)始:基礎(chǔ)理論介紹和智能對(duì)話開(kāi)源框架使用講解,入門(mén)門(mén)檻低,易于初學(xué)者實(shí)戰(zhàn)上手。
- 內(nèi)容全面:內(nèi)容涉及FAQ問(wèn)答、知識(shí)圖譜問(wèn)答、任務(wù)型問(wèn)答和表格型問(wèn)答等主要智能對(duì)話類(lèi)型,也涵蓋這些智能對(duì)話類(lèi)型企業(yè)級(jí)的綜合應(yīng)用實(shí)例講解。
- 內(nèi)容新穎:既有深度學(xué)習(xí)前沿算法介紹,也有強(qiáng)化學(xué)習(xí)智能對(duì)話相關(guān)算法及代碼講解。
- 經(jīng)驗(yàn)總結(jié):全面歸納和整理作者多年的智能對(duì)話實(shí)踐經(jīng)驗(yàn)。
- 內(nèi)容實(shí)用:結(jié)合大量源代碼和開(kāi)源框架實(shí)例進(jìn)行講解,能迅速搭建自己的智能對(duì)話系統(tǒng)。
- 通俗易懂:理論深入淺出,每章均可單獨(dú)閱讀,可作為床頭書(shū)隨時(shí)查閱。
本書(shū)讀者對(duì)象
- 自然語(yǔ)言處理零基礎(chǔ)入門(mén)人員及進(jìn)階人員。
- 初中級(jí)NLP工程師。
- 初中級(jí)AI算法工程師。
- 開(kāi)設(shè)相關(guān)課程的各類(lèi)院校師生。
- 智能對(duì)話系統(tǒng)相關(guān)培訓(xùn)學(xué)員。
資源下載
本書(shū)所涉及的源代碼已上傳到百度網(wǎng)盤(pán),供讀者下載。請(qǐng)讀者關(guān)注封底博雅讀書(shū)社微信公眾號(hào),找到資源下載欄目,輸入圖書(shū)77頁(yè)的資源下載碼,根據(jù)提示獲取。
溫馨提示:讀者閱讀本書(shū)過(guò)程中遇到問(wèn)題可以通過(guò)郵件與筆者聯(lián)系。筆者常用的電子郵箱是wuke_sjtu@hotmail.com。
薛棟
----------------------------
薛棟,華東理工大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授/碩士生導(dǎo)師,德國(guó)慕尼黑工業(yè)大學(xué)工學(xué)博士,上海市高層次青年人才計(jì)劃、浦江人才計(jì)劃獲得者。先后在荷蘭格羅寧根大學(xué)(RUG)、德國(guó)卡爾斯魯厄理工大學(xué)(KIT)從事教師和研究員工作。長(zhǎng)期從事基于人工智能與大數(shù)據(jù)相關(guān)研究,包括自然語(yǔ)言處理與大語(yǔ)言模型、工業(yè)互聯(lián)網(wǎng)與工業(yè)軟件、復(fù)雜網(wǎng)絡(luò)與多智能體系統(tǒng)等課題。以第一作者或通訊作者在IEEE TAC、IEEE TSP、IEEE TNSE等國(guó)際高級(jí)期刊上發(fā)表SCI論文30余篇,主持和參與完成多項(xiàng)包括國(guó)家自然科學(xué)基金面上項(xiàng)目、上海市人才計(jì)劃項(xiàng)目、企業(yè)科研攻關(guān)項(xiàng)目等在內(nèi)的課題。主講課程包括本科必修課《人工智能數(shù)學(xué)基礎(chǔ)》和研究生課程《自主無(wú)人系統(tǒng)》以及《工業(yè)互聯(lián)網(wǎng)關(guān)鍵技術(shù)》。
黃捷
----------------------------
黃捷:福州大學(xué)電氣工程與自動(dòng)化學(xué)院教授、博士生導(dǎo)師,福建省閩江學(xué)者獎(jiǎng)勵(lì)計(jì)劃特聘教授、福建省高校杰出青年科研人才、福建省引進(jìn)高層次人才、福州大學(xué)旗山學(xué)者、福建省閩江科學(xué)傳播學(xué)者,研究方向涵蓋多智能體系統(tǒng)協(xié)同控制與決策、工業(yè)互聯(lián)網(wǎng)基礎(chǔ)理論與關(guān)鍵技術(shù)等,F(xiàn)擔(dān)任福建省自動(dòng)化學(xué)會(huì)副會(huì)長(zhǎng)、福州大學(xué)5G 工業(yè)互聯(lián)網(wǎng)研究院院長(zhǎng)等職務(wù)。
第1章DeepSeek概述?
1.1 DeepSeek簡(jiǎn)介2
1.1.1 DeepSeek介紹2
1.1.2 DeepSeek的背景與目標(biāo)2
1.1.3 DeepSeek的產(chǎn)品3
1.1.4 DeepSeek的應(yīng)用場(chǎng)景5
1.1.5 DeepSeek的核心功能6
1.2 DeepSeek的架構(gòu)概覽7
1.2.1 DeepSeek的整體架構(gòu)設(shè)計(jì)8
1.2.2 DeepSeek的模塊劃分8
1.2.3 DeepSeek與其他模型的技術(shù)對(duì)比9
第2章環(huán)境搭建、代碼獲取與模型部署接入
2.1 環(huán)境準(zhǔn)備14
2.1.1 硬件環(huán)境要求14
2.1.2 軟件環(huán)境配置15
2.2 源碼獲取與管理16
2.2.1 開(kāi)源項(xiàng)目簡(jiǎn)介16
2.2.2 獲取源碼18
2.2.3 代碼分支管理19
2.2.4 代碼更新與同步20
2.3 DeepSeek模型的本地部署與接入21
2.3.1 安裝Ollama 21
2.3.2 部署DeepSeek模型22
2.3.3 Chatbox部署可視化23
2.3.4 DeepSeek接入整合25
第3章混合專(zhuān)家模型(MoE)初探?
3.1 項(xiàng)目介紹28
3.1.1 基本特點(diǎn)28
3.1.2 開(kāi)源內(nèi)容29
3.2 功能模塊303.3 ZeRO配置30
3.3.1 ZeRO優(yōu)化器介紹30
3.3.2 第2階段優(yōu)化配置31
3.3.3 第3階段優(yōu)化配置32
3.3.4 優(yōu)化總結(jié)34
3.4 模型微調(diào)34
3.4.1 微調(diào)原理34
3.4.2 生成提示文本35
3.4.3 配置模型微調(diào)參數(shù)36
3.4.4 設(shè)置訓(xùn)練數(shù)據(jù)37
3.4.5 配置超參數(shù)37
3.4.6 保存模型38
3.4.7 獲取最新檢查點(diǎn)39
3.4.8 安全保存模型39
3.4.9 分詞處理40
3.4.10 文本預(yù)處理40
3.4.11 數(shù)據(jù)收集器41
3.4.12 訓(xùn)練數(shù)據(jù)的分詞和預(yù)處理42
3.4.13 構(gòu)建和配置模型42
3.4.14 訓(xùn)練模型44
3.4.15 微調(diào)模型47
3.5 調(diào)用模型48
3.5.1 下載模型48
3.5.2 調(diào)用模型50
第4章基于DeepSeekMoE架構(gòu)的DeepSeek-V3
4.1 項(xiàng)目介紹54
4.1.1 核心特點(diǎn)54
4.1.2 訓(xùn)練流程54
4.1.3 與DeepSeekMoE項(xiàng)目的區(qū)別56
4.2 開(kāi)源信息介紹57
4.3 模型權(quán)重58
4.3.1 權(quán)重結(jié)構(gòu)58
4.3.2 加載規(guī)則59
4.3.3 FP8權(quán)重60
4.4 超參數(shù)配置61
4.4.1 小規(guī)模版本(16B)的配置61
4.4.2 中規(guī)模版本(236B)的配置63
4.4.3 大規(guī)模版本(671B)的配置64
4.5 模型架構(gòu)64
4.5.1 DeepSeek-V3模型架構(gòu)介紹65
4.5.2 配置信息66
4.5.3 并行嵌入68
4.5.4 線性變換69
4.5.5 線性層70
4.5.6 RMSNorm(均方根層歸一化)73
4.5.7 RoPE計(jì)算74
4.5.8 多頭注意力層77
4.5.9 多層感知器80
4.5.10 DeepSeek-V3中的MoE架構(gòu)實(shí)現(xiàn)81
4.5.11 Transformer模型86
4.5.12 驗(yàn)證和測(cè)試88
4.6 量化計(jì)算88
4.6.1 輸入張量進(jìn)行量化處理89
4.6.2 塊級(jí)量化處理89
4.6.3 權(quán)重矩陣的反量化90
4.6.4 對(duì)激活值和權(quán)重的量化與反量化91
4.6.5 調(diào)優(yōu)參數(shù)92
4.6.6 FP8矩陣乘法內(nèi)核92
4.6.7 FP8矩陣乘法實(shí)現(xiàn)94
4.7 權(quán)重轉(zhuǎn)換95
4.7.1 權(quán)重格式轉(zhuǎn)換95
4.7.2 權(quán)重精度轉(zhuǎn)換98
4.7.3 不同硬件平臺(tái)的轉(zhuǎn)換101
4.8 測(cè)試模型102
4.8.1 模型加載與文本生成102
4.8.2 測(cè)試功能106
4.9 DeepSeek-V3模型總結(jié)108
第5章統(tǒng)一多模態(tài)大模型?
5.1 項(xiàng)目介紹112
5.2 架構(gòu)原理與核心技術(shù)112
5.2.1 Janus架構(gòu)113
5.2.2 Janus-Pro架構(gòu)114
5.2.3 JanusFlow架構(gòu)116
5.2.4 核心技術(shù)對(duì)比117
5.3 開(kāi)源信息介紹118
5.4 工具模塊119
5.4.1 對(duì)話管理120
5.4.2 數(shù)據(jù)加載129
5.5 構(gòu)建多模態(tài)模型131
5.5.1 向量量化模型131
5.5.2 CLIP視覺(jué)編碼器146
5.5.3 投影器148
5.5.4 Vision Transformer視覺(jué)模型150
5.5.5 圖像處理器167
5.5.6 多模態(tài)因果語(yǔ)言模型171
5.5.7 多模態(tài)處理器177
5.6 JanusFlow模型架構(gòu)185
5.6.1 多模態(tài)模型185
5.6.2 數(shù)據(jù)預(yù)處理189
5.6.3 U-ViT模型190
5.7 模型推理212
5.7.1 多模態(tài)推理測(cè)試212
5.7.2 文生圖推理213
5.7.3 交互式文生圖推理216
5.8 Web交互測(cè)試219
5.8.1 FastAPI測(cè)試219
5.8.2 Gradio交互222
第6章適用于高分辨率圖像的多模態(tài)模型
6.1 項(xiàng)目介紹228
6.1.1 模型架構(gòu)228
6.1.2 技術(shù)創(chuàng)新與亮點(diǎn)230
6.1.3 模型訓(xùn)練231
6.1.4 對(duì)比Janus項(xiàng)目232
6.2 開(kāi)源模型233
6.3 開(kāi)源信息介紹234
6.4 配置文件235
6.5 模型架構(gòu)237
6.5.1 模型配置237
6.5.2 多模態(tài)模型架構(gòu)242
6.5.3 數(shù)據(jù)處理259
6.5.4 DeepSeek模型架構(gòu)276
6.5.5 Vision Transformer(ViT)的視覺(jué)模型328
6.5.6 對(duì)話模板和歷史記錄管理349
6.5.7 DeepSeek-VL2模型總結(jié)356
6.6 模型部署和在線服務(wù)359
6.6.1 設(shè)置部署參數(shù)359
6.6.2 工具函數(shù)362
6.6.3 Gradio工具373
6.6.4 模板覆蓋與擴(kuò)展376
6.6.5 Web前端378
6.6.6 模型推理380
6.7 圖文對(duì)話推理384
6.8 Web測(cè)試387
6.8.1 Web前端實(shí)現(xiàn)387
6.8.2 啟動(dòng)Web測(cè)試402
第7章DeepSeek-R1推理大模型?
7.1 背景介紹406
7.2 項(xiàng)目介紹406
7.2.1 模型演進(jìn)406
7.2.2 訓(xùn)練方案407
7.2.3 蒸餾小型模型408
7.2.4 開(kāi)源信息介紹409
7.2.5 結(jié)論410
7.3 DeepSeek-R1-Zero訓(xùn)練方案411
7.3.1 強(qiáng)化學(xué)習(xí)算法411
7.3.2 獎(jiǎng)勵(lì)建模412
7.3.3 訓(xùn)練模板412
7.3.4 DeepSeek-R1-Zero的性能413
7.3.5 DeepSeek-R1-Zero的自我進(jìn)化過(guò)程413
7.3.6 在DeepSeek-R1-Zero的頓悟時(shí)刻415
7.4 DeepSeek-R1訓(xùn)練方案416
7.4.1 冷啟動(dòng)416
7.4.2 推理導(dǎo)向的強(qiáng)化學(xué)習(xí)417
7.4.3 拒絕采樣和監(jiān)督微調(diào)417
7.4.4 全場(chǎng)景強(qiáng)化學(xué)習(xí)418
7.5 蒸餾處理419
7.5.1 基礎(chǔ)模型的選擇與蒸餾過(guò)程419
7.5.2 模型蒸餾的技術(shù)原理420