在兩位頂尖數據科學家的引導下,你將系統(tǒng)了解LLM前沿技術的更新進展,學習理論知識,以最負責任的方式將LLM技術融入商業(yè)場景;將構建一個LLM驅動的應用,直觀感受框架的實際運作,掌握數據版本控制、實驗跟蹤、模型監(jiān)控和倫理等知識點。
本書旨在為不同層級的數據領域從業(yè)者提供助力,使用前沿技術與方法論,全方位呈現LLM應用,介紹上佳技術實踐。通過數據優(yōu)先視角,識別整合LLM并驅動業(yè)務成功的機會。
過去,數據科學家與軟件工程師的職責涇渭分明。隨著LLM(大語言模型)時代的到來,一切都變了。ML(機器學習)不再是用于數據分析的主要工具,而成為現代軟件應用的核心功能。通過學習本書,數據科學家不僅能全面了解LLM,還能構建高效的、可再現的、可擴展的LLM應用。
歡迎你踏上現代ML(機器學習)之旅,此次旅程將充滿活力!過去,數據科學多應用于商業(yè)智能工作,而如今,處理數據的方式已經大相徑庭,多使用前沿的多組件系統(tǒng)。
希望本書能讓你愛不釋手。本書沒有羅列方法,也不是一本全面介紹ML的書籍。本書旨在講述現代ML相關的挑戰(zhàn),將重點介紹數據版本控制、實驗跟蹤、生產后模型監(jiān)控和部署,并提供代碼和示例,以便你能立即上手。
第1章講述基礎知識,揭示管理機器學習的工作流程如何從CRISP-DM等傳統(tǒng)的線性框架演變?yōu)長LM(大語言模型)驅動的應用。強調需要利用一個統(tǒng)一的框架來構建基于LLM的應用。
第2章將帶你見證一種端到端的ML方法,探索生命周期、生產級ML系統(tǒng)的原理和LLM應用的核心。
第3章闡述以數據為中心的觀點,強調數據在現代ML中的作用。該章需要你動手練習,將創(chuàng)建embedding(嵌入)并用向量數據庫進行文本相似度搜索。將道德準則和數據版本控制策略結合起來,以確保你采取負責任的一體化方法。
第4章將引導你選擇正確的LLM、利用LangChain并微調LLM性能。
在第5章中,將組件組裝在一起,從原型過渡到應用。該章還演示如何構建儀表盤和API(應用程序編程接口),使你的模型可為最終用戶提供結果。
第6章將完成ML的生命周期,對模型進行監(jiān)控、重訓練管道,并規(guī)劃未來的部署策略,分析如何與利益相關者溝通。
最后,在第7章中,回顧了在整個過程中總結的最佳實踐,探討了LLM的新趨勢,并提供了資源供你進一步學習。
本書不僅是一本指南它是一次冒險,是一次穿越現代ML風景區(qū)的邀約,也是一次為你配備導航工具,讓你汲取知識的機會。所以,朋友們,系好鞋帶,讓我們踏上旅途吧!
下載示例代碼
讀者可掃描封底二維碼,下載配套的示例代碼。
Kristen Kehrer從2010年以來,一直為電子商務公司、醫(yī)療保健公司和公共事業(yè)部門構建和維護具有創(chuàng)新意義的、用于統(tǒng)計數據的ML模型方案。Kristen是Data Moves Me公司的創(chuàng)始人,2018年榮膺領英數據科學與分析領域頂尖影響力人物,擁有9.5萬名數據科學領域的粉絲。Kristen獲得了伍斯特理工學院的應用統(tǒng)計學專業(yè)碩士學位和數學專業(yè)學士學位。
Caleb Kaiser目前擔任Comet的全棧工程師,也是Cortex Labs的創(chuàng)始成員。Caleb還曾在Scribe Media的作者平臺團隊工作,并獲得了芝加哥藝術學院的藝術寫作專業(yè)學士學位。
第1章 現代機器學習簡介 1
1.1 數據科學與商業(yè)智能漸行漸遠 2
1.2 從CRISP-DM過渡到最新的多組件ML系統(tǒng) 3
1.3 LLM提升了ML的能力和復雜度 5
1.4 你能從本書中學到哪些知識 6
第2章 一種端到端的方法 9
2.1 YouTube搜索智能體的組件 11
2.2 生產中使用的ML系統(tǒng)的核心原則 13
2.2.1 可觀察性 14
2.2.2 可再現性 15
2.2.3 互操作性 15
2.2.4 可擴展性 16
2.2.5 可改進性 17
2.2.6 關于工具的注意事項 18
第3章 以數據為中心 19
3.1 基礎模型的出現 19
3.2 現成組件的角色 20
3.3 數據驅動的方法 21
3.4 有關數據倫理的注意事項 22
3.5 構建數據集 23
3.5.1 使用向量數據庫 25
3.5.2 數據版本控制和管理 38
3.5.3 開始使用數據版本控制工具 41
3.6 適度了解數據工程知識 45
第4章 LLM 47
4.1 選擇LLM 47
4.1.1 我需要執(zhí)行哪種類型的推理 49
4.1.2 這項任務是通用的還是專用的 50
4.1.3 數據的隱私級別有多高 50
4.1.4 該模型需要多高的成本 51
4.2 LLM實驗管理 52
4.3 LLM推理 56
4.3.1 提示工程的基本原理 56
4.3.2 上下文學習 58
4.3.3 中間計算 64
4.3.4 RAG 67
4.3.5 智能體技術 71
4.4 用Comet ML優(yōu)化LLM推理 77
4.5 微調LLM 84
4.5.1 微調LLM的時機 84
4.5.2 量化、QLoRA和參數高效微調 85
4.6 本章小結 90
第5章 合成一個完整的應用 91
5.1 用Gradio得到應用的雛形 93
5.2 使用Plotnine創(chuàng)建圖形 94
5.2.1 添加選擇框 102
5.2.2 添加徽標 103
5.2.3 添加選項卡 103
5.2.4 添加標題和副標題 104
5.2.5 更改按鈕的顏色 104
5.2.6 添加下載按鈕 105
5.2.7 將組件合在一起 105
5.3 將模型部署為API 107
5.3.1 用FastAPI實現API 109
5.3.2 實現Uvicorn 111
5.4 監(jiān)控LLM 111
5.4.1 用Docker部署服務 113
5.4.2 部署LLM 115
5.5 小結 119
第6章 完成ML生命周期 121
6.1 部署一個簡單的隨機森林模型 121
6.2 模型監(jiān)控簡介 125
6.3 用Evidently AI監(jiān)控模型 131
6.4 構建模型監(jiān)控系統(tǒng) 134
6.5 有關監(jiān)控的總結 141
第7章 最佳實踐 143
7.1 第一步:理解問題 143
7.2 第二步:選擇和訓練模型 144
7.3 第三步:部署和維護 145
7.4 第四步:協作與溝通 148
7.5 LLM的發(fā)展趨勢 149
7.6 進一步的研究 150