第1章 大模型原理與技術(shù)概要
1.1 圖解大模型結(jié)構(gòu)
1.1.1 大語(yǔ)言模型(LLM)結(jié)構(gòu)全景圖
1.1.2 輸入層:分詞、Token映射與向量生成
1.1.3 輸出層:Logits、概率分布與解碼
1.1.4 多模態(tài)語(yǔ)言模型(MLLM、VLM)
1.2 大模型訓(xùn)練全景圖
1.3 Scaling Law(性能的四大擴(kuò)展規(guī)律)
第2章 SFT(監(jiān)督微調(diào))
2.1 多種微調(diào)技術(shù)圖解
2.1.1 全參數(shù)微調(diào)、部分參數(shù)微調(diào)
2.1.2 LoRA(低秩適配微調(diào))四兩撥千斤
2.1.3 LoRA衍生:QLoRA、AdaLoRA、PiSSA等
2.1.4 基于提示的微調(diào):Prefix-Tuning等
2.1.5 Adapter Tuning
2.1.6 微調(diào)技術(shù)對(duì)比
2.1.7 如何選擇微調(diào)技術(shù)
2.2 SFT原理深入解析
2.2.1 SFT數(shù)據(jù)與ChatML格式化
2.2.2 Logits與Token概率計(jì)算
2.2.3 SFT的Label
2.2.4 SFT的Loss圖解
2.2.5 對(duì)數(shù)概率(LogProbs)與LogSoftmax
2.3 指令收集和處理
2.3.1 收集指令的渠道和方法
2.3.2 清洗指令的四要素
2.3.3 數(shù)據(jù)預(yù)處理及常用工具
2.4 SFT實(shí)踐指南
2.4.1 如何緩解SFT引入的幻覺(jué)?
2.4.2 Token級(jí)Batch Size的換算
2.4.3 Batch Size與學(xué)習(xí)率的Scaling Law
2.4.4 SFT的七個(gè)技巧
第3章 DPO(直接偏好優(yōu)化)
3.1 DPO的核心思想
3.1.1 DPO的提出背景與意義
3.1.2 隱式的獎(jiǎng)勵(lì)模型
3.1.3 Loss和優(yōu)化目標(biāo)
3.2 偏好數(shù)據(jù)集的構(gòu)建
3.2.1 構(gòu)建流程總覽
3.2.2 Prompt的收集
3.2.3 問(wèn)答數(shù)據(jù)對(duì)的清洗
3.2.4 封裝和預(yù)處理
3.3 圖解DPO的實(shí)現(xiàn)與訓(xùn)練
3.3.1 模型的初始化
3.3.2 DPO訓(xùn)練全景圖
3.3.3 DPO核心代碼的提煉和解讀
3.4 DPO實(shí)踐經(jīng)驗(yàn)
3.4.1 參數(shù)如何調(diào)節(jié)
3.4.2 DPO對(duì)模型能力的多維度影響
3.5 DPO進(jìn)階
3.5.1 DPO和RLHF(PPO)的對(duì)比
3.5.2 理解DPO的梯度
第4章 免訓(xùn)練的效果優(yōu)化技術(shù)
4.1 提示工程
4.1.1 Zero-Shot、One-Shot、Few-Shot
4.1.2 Prompt設(shè)計(jì)的原則
4.2 CoT(思維鏈)
4.2.1 CoT原理圖解
4.2.2 ToT、GoT、XoT等衍生方法
4.2.3 CoT的應(yīng)用技巧
4.2.4 CoT在多模態(tài)領(lǐng)域的應(yīng)用
4.3 生成控制和解碼策略
4.3.1 解碼的原理與分類(lèi)
4.3.2 貪婪搜索
4.3.3 Beam Search(波束搜索):圖解、衍生
4.3.4 Top-K、Top-P等采樣方法圖解
4.3.5 其他解碼策略
4.3.6 多種生成控制參數(shù)
4.4 RAG(檢索增強(qiáng)生成)
4.4.1 RAG技術(shù)全景圖
4.4.2 RAG相關(guān)框架
4.5 功能與工具調(diào)用(Function Calling)
4.5.1 功能調(diào)用全景圖
4.5.2 功能調(diào)用的分類(lèi)
第5章 強(qiáng)化學(xué)習(xí)基礎(chǔ)
5.1 強(qiáng)化學(xué)習(xí)核心
5.1.1 強(qiáng)化學(xué)習(xí):定義與區(qū)分
5.1.2 強(qiáng)化學(xué)習(xí)的基礎(chǔ)架構(gòu)、核心概念
5.1.3 馬爾可夫決策過(guò)程(MDP)
5.1.4 探索與利用、ε-貪婪策略
5.1.5 On-policy和Off-policy
5.1.6 在線/離線強(qiáng)化學(xué)習(xí)(Online/Offline RL)
5.1.7 強(qiáng)化學(xué)習(xí)分類(lèi)圖
5.2 價(jià)值函數(shù)、回報(bào)預(yù)估
5.2.1 獎(jiǎng)勵(lì)、回報(bào)、折扣因子(R、G、)
5.2.2 反向計(jì)算回報(bào)
5.2.3 四種價(jià)值函數(shù):Q、V、V*、Q*
5.2.4 獎(jiǎng)勵(lì)、回報(bào)、價(jià)值的區(qū)別
5.2.5 貝爾曼方程強(qiáng)化學(xué)習(xí)的基石
5.2.6 Q和V的轉(zhuǎn)換關(guān)系、轉(zhuǎn)換圖
5.2.7 蒙特卡洛方法(MC)
5.3 時(shí)序差分(TD)
5.3.1 時(shí)序差分方法
5.3.2 TD-Target和TD-Error
5.3.3 TD(λ)、多步TD
5.3.4 蒙特卡洛、TD、DP、窮舉搜索的區(qū)別
5.4 基于價(jià)值的算法
5.4.1 Q-learning算法
5.4.2 DQN
5.4.3 DQN的Loss、訓(xùn)練過(guò)程
5.4.4 DDQN、Dueling DQN等衍生算法
5.5 策略梯度算法
5.5.1 策略梯度(Policy Gradient)
5.5.2 策略梯度定理
5.5.3 REINFORCE和Actor-Critic
5.6 多智能體強(qiáng)化學(xué)習(xí)(MARL)
5.6.1 MARL的原理與架構(gòu)
5.6.2 MARL的建模
5.6.3 MARL的典型算法
5.7 模仿學(xué)習(xí)(IL)
5.7.1 模仿學(xué)習(xí)的定義、分類(lèi)
5.7.2 行為克。˙C)
5.7.3 逆向強(qiáng)化學(xué)習(xí)(IRL)
5.7.4 生成對(duì)抗模仿學(xué)習(xí)(GAIL)
5.8 強(qiáng)化學(xué)習(xí)高級(jí)拓展
5.8.1 基于環(huán)境模型(Model-Based)的方法
5.8.2 分層強(qiáng)化學(xué)習(xí)(HRL)
5.8.3 分布價(jià)值強(qiáng)化學(xué)習(xí)(Distributional RL)
第6章 策略?xún)?yōu)化算法
6.1 Actor-Critic(演員-評(píng)委)架構(gòu)
6.1.1 從策略梯度到Actor-Critic
6.1.2 Actor-Critic架構(gòu)圖解
6.2 優(yōu)勢(shì)函數(shù)與A2C
6.2.1 優(yōu)勢(shì)函數(shù)(Advantage)
6.2.2 A2C、A3C、SAC算法
6.2.3 GAE(廣義優(yōu)勢(shì)估計(jì))算法
6.2.4 和λ的調(diào)節(jié)作用
6.3 PPO及其相關(guān)算法
6.3.1 PPO算法的演進(jìn)
6.3.2 TRPO(置信域策略?xún)?yōu)化)
6.3.3 重要性采樣(Importance Sampling)
6.3.4 PPO-Penalty
6.3.5 PPO-Clip
6.3.6 PPO的Loss的擴(kuò)展
6.3.7 TRPO與PPO的區(qū)別
6.3.8 圖解策略模型的訓(xùn)練
6.3.9 深入解析PPO的本質(zhì)
6.4 GRPO算法
6.4.1 GRPO的原理
6.4.2 GRPO與PPO的區(qū)別
6.5 確定性策略梯度(DPG)
6.5.1 確定性策略vs隨機(jī)性策略
6.5.2 DPG、DDPG、TD3算法
第7章 RLHF與RLAIF
7.1 RLHF(基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí))概要
7.1.1 RLHF的背景、發(fā)展
7.1.2 語(yǔ)言模型的強(qiáng)化學(xué)習(xí)建模
7.1.3 RLHF的訓(xùn)練樣本、總流程
7.2 階段一:圖解獎(jiǎng)勵(lì)模型的設(shè)計(jì)與訓(xùn)練
7.2.1 獎(jiǎng)勵(lì)模型(Reward Model)的結(jié)構(gòu)
7.2.2 獎(jiǎng)勵(lì)模型的輸入與獎(jiǎng)勵(lì)分?jǐn)?shù)
7.2.3 獎(jiǎng)勵(lì)模型的Loss解析
7.2.4 獎(jiǎng)勵(lì)模型訓(xùn)練全景圖
7.2.5 獎(jiǎng)勵(lì)模型的Scaling Law
7.3 階段二:多模型聯(lián)動(dòng)的PPO訓(xùn)練
7.3.1 四種模型的角色圖解
7.3.2 各模型的結(jié)構(gòu)、初始化、實(shí)踐技巧
7.3.3 各模型的輸入、輸出
7.3.4 基于KL散度的策略約束
7.3.5 基于PPO的RLHF核心實(shí)現(xiàn)
7.3.6 全景圖:基于PPO的訓(xùn)練
7.4 RLHF實(shí)踐技巧
7.4.1 獎(jiǎng)勵(lì)欺騙(Reward Hacking)
7.4.2 拒絕采樣(Rejection Sampling)微調(diào)
7.4.3 強(qiáng)化學(xué)習(xí)與RLHF的訓(xùn)練框架
7.4.4 RLHF的超參數(shù)
7.4.5 RLHF的關(guān)鍵監(jiān)控指標(biāo)
7.5 基于AI反饋的強(qiáng)化學(xué)習(xí)
7.5.1 RLAIF的原理圖解
7.5.2 CAI:基于憲法的強(qiáng)化學(xué)習(xí)
7.5.3 RBR:基于規(guī)則的獎(jiǎng)勵(lì)
第8章 邏輯推理能力優(yōu)化
8.1 邏輯推理(Reasoning)相關(guān)技術(shù)概覽
8.1.1 推理時(shí)計(jì)算與搜索
8.1.2 基于CoT的蒸餾
8.1.3 過(guò)程獎(jiǎng)勵(lì)模型與結(jié)果獎(jiǎng)勵(lì)模型(PRM/ORM)
8.1.4 數(shù)據(jù)合成
8.2 推理路徑搜索與優(yōu)化
8.2.1 MCTS(蒙特卡洛樹(shù)搜索)
8.2.2 A*搜索
8.2.3 BoN采樣與蒸餾
8.2.4 其他搜索方法
8.3 強(qiáng)化學(xué)習(xí)訓(xùn)練
8.3.1 強(qiáng)化學(xué)習(xí)的多種應(yīng)用
8.3.2 自博弈(Self-Play)與自我進(jìn)化
8.3.3 強(qiáng)化學(xué)習(xí)的多維創(chuàng)新
第9章 綜合實(shí)踐與性能優(yōu)化
9.1 實(shí)踐全景圖
9.2 訓(xùn)練與部署
9.2.1 數(shù)據(jù)與環(huán)境準(zhǔn)備
9.2.2 超參數(shù)如何設(shè)置
9.2.3 SFT訓(xùn)練
9.2.4 對(duì)齊訓(xùn)練:DPO訓(xùn)練、RLHF訓(xùn)練
9.2.5 推理與部署
9.3 DeepSeek的訓(xùn)練與本地部署
9.3.1 DeepSeek的蒸餾與GRPO訓(xùn)練
9.3.2 DeepSeek的本地部署與使用
9.4 效果評(píng)估
9.4.1 評(píng)估方法分類(lèi)
9.4.2 LLM與VLM的評(píng)測(cè)框架
9.5 大模型性能優(yōu)化技術(shù)圖譜