本書圍繞大模型的生產(chǎn)實施流程,系統(tǒng)介紹大模型的應用實踐方法。第一部分系統(tǒng)地介紹了機器學習的場景分類、深度學習的崛起以及基礎模型。第二部分聚焦于應用挑戰(zhàn),詳細講解問題定義、流程、技術,包括嵌入和標記化、向量數(shù)據(jù)庫、微調(diào)、部署與推理等。另外,展示了LLM相關的編排與集成策略,以及兩個實際索引技術的案例。本書不僅介紹了應用案例,還對前沿技術和未來發(fā)展進行了展望,包括可解釋性、GANs、強化學習和模型自動化。團隊協(xié)作、項目管理和持續(xù)集成等實踐內(nèi)容也得到充分涵蓋。最后,通過一個實踐案例章節(jié),讀者學習如何調(diào)試、部署和運維大模型的LLM應用。這本書將幫助從業(yè)者掌握從基礎概念到實際應用的全過程,使他們能夠構建穩(wěn)健的應用,將機器學習和深度學習引入現(xiàn)實世界。
李瀚,資深AI系統(tǒng)架構師。長期從事AI平臺及AI驅(qū)動的應用系統(tǒng)(推薦、搜索和大模型等)的架構設計與開發(fā)工作,在AI工程領域擁有深刻的認知和豐富的實戰(zhàn)經(jīng)驗,曾設計并開發(fā)了企業(yè)級機器學習平臺和大型模型應用開發(fā)平臺等創(chuàng)新產(chǎn)品,服務多家世界500強企業(yè)AI轉(zhuǎn)型咨詢和項目落地。參與編寫《MLOps工程實踐:工具、技術與企業(yè)級應用》。徐斌,擁有10年以上的網(wǎng)絡安全經(jīng)驗,在硅谷領先的網(wǎng)絡安全公司從事數(shù)據(jù)分析平臺的設計開發(fā)工作。精通網(wǎng)絡安全防護、漏洞分析與滲透測試,尤其擅長結合數(shù)據(jù)分析和AI技術優(yōu)化安全系統(tǒng)的檢測與響應能力,如通過深度學習、機器學習等AI技術分析大量的安全數(shù)據(jù),實時發(fā)現(xiàn)潛在威脅,提升安全防護的效率。
目錄
第1章 AI 2.0時代到來 1
1.1 ChatGPT旋風 2
1.1.1 ChatGPT是什么 2
1.1.2 豐富的應用 3
1.1.3 有喜有憂 4
1.2 認識AI 2.0時代 5
1.2.1 何謂大模型 5
1.2.2 AI 1.0時代與AI 2.0時代特點分析 8
1.2.3 新工業(yè)革命來臨 11
1.3 本章小結 12
第2章 基座大模型準備 13
2.1 大模型的歷史與未來 14
2.1.1 發(fā)展史 14
2.1.2 未來趨勢 15
2.2 基座大模型訓練過程 16
2.2.1 預訓練 17
2.2.2 人類反饋的強化學習 21
2.3 選擇合適的基座大模型 22
2.3.1 主流基座大模型介紹 22
2.3.2 選型標準 25
2.4 本章小結 27
第3章 GPU相關知識 28
3.1 基礎知識 29
3.1.1 顯卡與GPU 29
3.1.2 GPU與CPU 30
3.2 GPU的優(yōu)勢 32
3.2.1 GPU與深度學習 32
3.2.2 CUDA編程 34
3.3 準備合適的GPU 36
3.3.1 選擇合適的GPU(顯卡)供應商 36
3.3.2 英偉達與AMD 37
3.3.3 英偉達GPU各項參數(shù) 39
3.3.4 選型建議 46
3.4 本章小結 47
第4章 應用開發(fā)概覽 48
4.1 關鍵概念 49
4.1.1 提示 49
4.1.2 上下文學習 50
4.2 應用趨勢 56
4.2.1 趨勢變遷 56
4.2.2 產(chǎn)品形態(tài) 59
4.3 技術實現(xiàn) 60
4.3.1 對齊方法 60
4.3.2 優(yōu)劣勢比較 63
4.3.3 應用流程 65
4.4 本章小結 66
第5章 文檔處理 67
5.1 分塊 68
5.1.1 分塊的作用 68
5.1.2 分塊的策略 69
5.1.3 策略選擇 72
5.2 詞元化 73
5.2.1 概念和方法 73
5.2.2 Token采樣策略 76
5.3 嵌入 78
5.4 本章小結 84
第6章 向量數(shù)據(jù)庫 85
6.1 基本概念 86
6.2 相關算法 87
6.2.1 向量相似性算法 87
6.2.2 工程中常用的向量搜索折中算法 88
6.3 核心價值 92
6.4 定位 95
6.5 主流產(chǎn)品 97
6.6 本章小結 98
第7章 微調(diào) 99
7.1 背景與挑戰(zhàn) 100
7.1.1 背景知識 100
7.1.2 技術挑戰(zhàn) 102
7.2 參數(shù)高效微調(diào)技術 104
7.3 工具實踐 113
7.3.1 開源工具包 113
7.3.2 模型微調(diào)服務 118
7.4 本章小結 121
第8章 推理優(yōu)化概論 122
8.1 優(yōu)化目標 123
8.2 理論基礎 124
8.2.1 模型大小的指標 124
8.2.2 模型大小對推理性能的影響 127
8.2.3 大模型相關分析 131
8.3 常見優(yōu)化技術 141
8.3.1 模型壓縮 141
8.3.2 Offloading 147
8.3.3 多GPU并行化 147
8.3.4 高效的模型結構 148
8.3.5 FlashAttention 149
8.3.6 PagedAttention 149
8.3.7 連續(xù)批處理 150
8.4 本章小結 151
第9章 部署推理工具 152
9.1 推理架構概述 153
9.2 Web服務 156
9.2.1 Streamlit與Gradio 158
9.2.2 FastAPI與Flask 160
9.3 推理執(zhí)行引擎 161
9.3.1 服務器端推理 161
9.3.2 端側推理 176
9.4 推理服務 181
9.5 對話類系統(tǒng) 194
9.6 本章小結 196
第10章 提示工程 197
10.1 理論與技術 198
10.1.1 提示的價值 198
10.1.2 應用領域 198
10.1.3 提示工程技術 199
10.2 開發(fā)工具 208
10.2.1 OpenAI Playground 210
10.2.2 Dify 211
10.2.3 PromptPerfect 213
10.3 本章小結 214
第11章 編排與集成 215
11.1 相關理論 216
11.1.1 面臨的問題 216
11.1.2 核心價值 217
11.1.3 功能構成 217
11.2 典型架構模式 218
11.2.1 RAG 218
11.2.2 Agent 222
11.3 常見編排框架 235
11.3.1 LangChain框架 235
11.3.2 LlamaIndex框架 248
11.3.3 Semantic Kernel框架 253
11.4 本章小結 264
第12章 應用示例 265
12.1 整體架構 266
12.2 開發(fā)過程 267
12.2.1 環(huán)境準備 267
12.2.2 實現(xiàn)解析 269
12.2.3 打包部署 276
12.2.4 示例演示 281
12.3 本章小結 284
參考文獻 285