本書以通俗易懂、大量圖解的方式剖析了DeepSeek的底層技術(shù)。
全書分為3章和附錄,第1章詳細(xì)分析了推理大模型的范式轉(zhuǎn)變,即從訓(xùn)練時(shí)計(jì)算到測試時(shí)計(jì)算;第2章解讀了DeepSeek-R1的架構(gòu)混合專家(MoE);第3章展示了DeepSeek-R1詳細(xì)的訓(xùn)練過程及核心技術(shù),涵蓋基于GRPO的強(qiáng)化學(xué)習(xí)等;附錄分享了DeepSeek開源周活動。
本書適合大模型從業(yè)人員和對大模型底層技術(shù)感興趣的讀者。書中通過豐富的圖解將復(fù)雜的技術(shù)解釋得簡單、清晰、通透,是學(xué)習(xí)大模型技術(shù)難得一見的參考書。
1.【短小精悍】2小時(shí)搞懂DeepSeek底層技術(shù)
2.【通俗圖解】近120幅全彩插圖通俗解讀,不枯燥
3.【內(nèi)容系統(tǒng)】從推理模型原理到DeepSeek-R1訓(xùn)練
4.【作者資深】大模型領(lǐng)域知名專家Jay & Maarten作品
5.【圖解系列】袋鼠書《圖解大模型》同系列,廣受歡迎
Jay Alammar(杰伊·阿拉馬爾) Cohere總監(jiān)兼工程研究員,知名大模型技術(shù)博客Language Models & Co作者,DeepLearning.AI和Udacity熱門機(jī)器學(xué)習(xí)和自然語言處理課程作者。 Maarten Grootendorst(馬爾滕·格魯滕多斯特) IKNL(荷蘭綜合癌癥中心)高級臨床數(shù)據(jù)科學(xué)家,知名大模型技術(shù)博客博主,BERTopic等開源大模型軟件包作者(下載量超過百萬次),DeepLearning.AI和Udacity課程作者。 Jay & Maarten撰寫的圖解系列文章廣受贊譽(yù),累計(jì)吸引了數(shù)百萬專業(yè)讀者的目光。其中,Jay 的The Illustrated TransformerThe Illustrated DeepSeek-R1、Maarten的A Visual Guide to Reasoning LLMs在全網(wǎng)熱度極高。 Jay & Maarten的第一部作品《圖解大模型:生成式AI原理與實(shí)戰(zhàn)》(Hands-On Large Language Models)是業(yè)內(nèi)廣受贊譽(yù)的經(jīng)典!秷D解DeepSeek技術(shù)》是Jay & Maarten的第二部作品,人民郵電出版社圖靈全球獨(dú)家發(fā)布,是解讀DeepSeek原理與訓(xùn)練的寶貴讀物。 李博杰 智能體初創(chuàng)公司PINE AI聯(lián)合創(chuàng)始人、首席科學(xué)家。曾任華為計(jì)算機(jī)網(wǎng)絡(luò)與協(xié)議實(shí)驗(yàn)室副首席專家,入選華為首批天才少年項(xiàng)目。2019年獲中國科學(xué)技術(shù)大學(xué)與微軟亞洲研究院聯(lián)合培養(yǎng)博士學(xué)位,曾獲ACM中國優(yōu)秀博士學(xué)位論文獎(jiǎng)和微軟學(xué)者獎(jiǎng)學(xué)金。在SIGCOMM、SOSP、NSDI、USENIX ATC和PLDI等頂級會議上發(fā)表多篇論文。 孟佳穎 中國科學(xué)技術(shù)大學(xué)博士,F(xiàn)任北京中關(guān)村實(shí)驗(yàn)室助理研究員,主要從事網(wǎng)絡(luò)協(xié)議棧的漏洞挖掘與風(fēng)險(xiǎn)分析技術(shù)的研究工作。
譯者序
前言
第 1 章 測試時(shí)計(jì)算
1.1 什么是推理大模型 1
1.2 什么是訓(xùn)練時(shí)計(jì)算 3
1.3 什么是測試時(shí)計(jì)算 7
1.3.1 縮放定律 10
1.3.2 測試時(shí)計(jì)算的分類 12
1.4 基于驗(yàn)證器的搜索 16
1.4.1 多數(shù)投票法 17
1.4.2 Best-of-N 采樣 17
1.4.3 基于過程獎(jiǎng)勵(lì)模型的束搜索 20
1.4.4 蒙特卡洛樹搜索 21
1.5 調(diào)整提議分布 24
1.5.1 提示工程 25
1.5.2 STaR 方法 26
1.6 小結(jié) 28
1.7 延伸閱讀 29
第 2 章 架構(gòu)設(shè)計(jì) 31
2.1 稠密層 31
2.2 MoE 層 34
2.2.1 專家機(jī)制 35
2.2.2 路由機(jī)制 40
2.2.3 DeepSeekMoE 44
2.3 小結(jié) 50
第 3 章 DeepSeek-R1 訓(xùn)練方案 51
3.1 回顧:大模型的訓(xùn)練原理 51
3.2 DeepSeek-R1-Zero 的推理能力 55
3.2.1 示例:推理問題的自動驗(yàn)證 57
3.2.2 DeepSeek-R1-Zero 的完整訓(xùn)練過程 62
3.3 DeepSeek-V3 的效率優(yōu)化策略 64
3.3.1 多頭潛在注意力機(jī)制 64
3.3.2 混合精度訓(xùn)練 66
3.3.3 多詞元預(yù)測 70
3.4 構(gòu)建 DeepSeek-R1 72
3.5 通過 DeepSeek-R1 蒸餾推理能力 77
3.6 未成功的嘗試 78
3.7 基于 GRPO 的強(qiáng)化學(xué)習(xí) 78
3.7.1 獎(jiǎng)勵(lì)值與優(yōu)勢值 79
3.7.2 KL 散度懲罰項(xiàng) 83
3.7.3 GRPO 目標(biāo)函數(shù) 85
3.7.4 GRPO 算法 86
3.7.5 GRPO 參考實(shí)現(xiàn) 87
3.8 小結(jié) 87
附錄 DeepSeek 開源周 89