spaCy自然語(yǔ)言處理從入門(mén)到進(jìn)階
定 價(jià):89 元
當(dāng)前圖書(shū)已被 6 所學(xué)校薦購(gòu)過(guò)!
查看明細(xì)
- 作者:王冠
- 出版時(shí)間:2025/1/1
- ISBN:9787121491283
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP391
- 頁(yè)碼:260
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
本書(shū)是一本全面、實(shí)用、易懂的spaCy學(xué)習(xí)指南,專(zhuān)為對(duì)自然語(yǔ)言處理(NLP)感興趣的讀者設(shè)計(jì)。它以中文應(yīng)用為核心,從基礎(chǔ)概念到高級(jí)應(yīng)用,逐步深入講解spaCy這一高效的Python NLP庫(kù)。書(shū)中不僅涵蓋了分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等核心功能,還詳細(xì)介紹了如何利用這些功能來(lái)構(gòu)建強(qiáng)大的NLP應(yīng)用。通過(guò)豐富的案例和示例代碼,本書(shū)能夠幫助讀者快速掌握spaCy的使用方法,并將其應(yīng)用于實(shí)際任務(wù)中,無(wú)論是文本分析、情感分析還是機(jī)器學(xué)習(xí)模型的構(gòu)建。 對(duì)于自然語(yǔ)言處理的初學(xué)者來(lái)說(shuō),本書(shū)提供了一個(gè)結(jié)構(gòu)化的學(xué)習(xí)方法,從最基礎(chǔ)的NLP概念開(kāi)始,逐步引導(dǎo)讀者理解并應(yīng)用spaCy庫(kù)。對(duì)于開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家,書(shū)中的高級(jí)應(yīng)用和最佳實(shí)踐可以幫助他們提升現(xiàn)有技能,解決更復(fù)雜的NLP問(wèn)題。無(wú)論是想系統(tǒng)學(xué)習(xí)NLP還是想針對(duì)性提升特定技能,本書(shū)都是理想的選擇。它不僅適合個(gè)人學(xué)習(xí),也適合作為團(tuán)隊(duì)或教育機(jī)構(gòu)的教學(xué)資源。通過(guò)本書(shū)的學(xué)習(xí),讀者將能夠更加自信地處理各種語(yǔ)言數(shù)據(jù),開(kāi)發(fā)出更加智能和高效的NLP解決方案。
王冠:北京大學(xué)學(xué)士,香港科技大學(xué)碩士,先后于香港應(yīng)用科技研究院、聯(lián)想機(jī)器智能實(shí)驗(yàn)室及瑞士再保險(xiǎn)與慕尼黑再保險(xiǎn)數(shù)據(jù)科學(xué)團(tuán)隊(duì)從事數(shù)據(jù)建模、計(jì)算機(jī)圖像與NLP的研發(fā)工作,發(fā)表過(guò)數(shù)篇相關(guān)國(guó)際期刊論文,并取得相關(guān)專(zhuān)利。當(dāng)前研究方向?yàn)槿斯ぶ悄茉诮鹑陬I(lǐng)域的應(yīng)用?讜匀汗雀栝_(kāi)發(fā)者機(jī)器學(xué)習(xí)技術(shù)專(zhuān)家(Google Developer Expert in Machine Learning),TensorFlow Addons Codeowner,Rasa SuperHero。多年來(lái)一直在世界500強(qiáng)公司帶領(lǐng)團(tuán)隊(duì)構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用和平臺(tái)。在NLP和對(duì)話機(jī)器人領(lǐng)域擁有豐富的理論知識(shí)和實(shí)踐經(jīng)驗(yàn)。
目 錄
第 1 章 spaCy 簡(jiǎn)介 ............................................................................................ 1
1.1 自然語(yǔ)言處理的發(fā)展過(guò)程 ..................................................................... 1
1.2 自然語(yǔ)言處理的基礎(chǔ)任務(wù) ..................................................................... 6
1.3 spaCy 的核心概念 ................................................................................. 7
1.3.1 nlp 對(duì)象 ....................................................................................... 9
1.3.2 Doc 對(duì)象 .................................................................................... 10
1.3.3 Token 對(duì)象 ................................................................................. 12
1.3.4 Span 對(duì)象 ................................................................................... 14
1.4 spaCy 的安裝方法 ............................................................................... 16
1.4.1 使用 pip 安裝 ............................................................................. 16
1.4.2 使用 Conda 安裝 ........................................................................ 16
1.5 spaCy 的基礎(chǔ)操作 ............................................................................... 17
1.5.1 訓(xùn)練模型 ................................................................................... 17
1.5.2 預(yù)測(cè)模型 ................................................................................... 21
第 2 章 抽取語(yǔ)言學(xué)特征 ................................................................................... 24
2.1 基本操作 .............................................................................................. 24
2.1.1 分詞 ........................................................................................... 24
2.1.2 截取詞符 ................................................................................... 26
2.1.3 獲取文本特征 ............................................................................ 28
spaCy 自然語(yǔ)言處理:從入門(mén)到進(jìn)階 VIII
2.1.4 詞性標(biāo)注 ................................................................................... 31
2.1.5 依存關(guān)系解析 ............................................................................ 32
2.1.6 命名實(shí)體識(shí)別 ............................................................................ 33
2.2 用已有模型預(yù)測(cè) .................................................................................. 35
2.2.1 預(yù)測(cè)文字、詞性標(biāo)簽和依存關(guān)系標(biāo)簽 ....................................... 37
2.2.2 預(yù)測(cè)命名實(shí)體識(shí)別的結(jié)果 .......................................................... 38
2.2.3 手動(dòng)創(chuàng)建命名實(shí)體 ..................................................................... 39
2.3 基于規(guī)則的匹配器 .............................................................................. 42
2.3.1 Matcher 與正則表達(dá)式 ............................................................... 44
2.3.2 模板匹配 ................................................................................... 45
2.4 定義匹配規(guī)則 ...................................................................................... 53
2.4.1 運(yùn)算符和量詞 ............................................................................ 53
2.4.2 文本匹配 ................................................................................... 57
2.4.3 詞性匹配 ................................................................................... 59
第 3 章 信息提取 .............................................................................................. 62
3.1 數(shù)據(jù)結(jié)構(gòu)的基本概念 .......................................................................... 62
3.2 詞匯表、字符串庫(kù)和語(yǔ)素 ................................................................... 63
3.2.1 詞匯表和字符串庫(kù) ..................................................................... 65
3.2.2 語(yǔ)素 ........................................................................................... 66
3.2.3 轉(zhuǎn)換 ........................................................................................... 68
3.3 文檔、截取和詞符 .............................................................................. 72
3.3.1 文檔及其創(chuàng)建 ............................................................................ 73
3.3.2 截取及其創(chuàng)建 ............................................................................ 76
3.3.3 詞符及其創(chuàng)建 ............................................................................ 80
3.4 綜合實(shí)踐——比對(duì)相似度 ................................................................... 84
3.4.1 訓(xùn)練詞向量 ................................................................................ 85
3.4.2 處理文本 ................................................................................... 88
3.4.3 計(jì)算相似度 ................................................................................ 89
3.5 綜合實(shí)踐——文本匹配 ....................................................................... 96
3.5.1 基于規(guī)則的方法 ........................................................................ 98
3.5.2 匹配不成功時(shí)的調(diào)試方法 ......................................................... 102
3.5.3 直接精確匹配字符串 ................................................................ 105
第 4 章 流程 ..................................................................................................... 109
4.1 流程組件 ............................................................................................. 109
4.1.1 流程組件的概念 ....................................................................... 109
4.1.2 流程組件的運(yùn)行 ....................................................................... 111
4.1.3 流程組件的屬性 ....................................................................... 112
4.1.4 流程組件的配置 ....................................................................... 113
4.1.5 流程組件的檢查 ....................................................................... 114
4.2 定制化流程組件 ................................................................................. 115
4.2.1 定制化流程組件的應(yīng)用 ............................................................ 116
4.2.2 定制化流程組件的應(yīng)用示例 ..................................................... 117
4.2.3 用定制化流程組件打印文檔的詞符長(zhǎng)度 ................................... 119
4.2.4 定制化流程組件的綜合應(yīng)用示例 .............................................. 121
4.3 定制化屬性 ......................................................................................... 123
4.3.1 添加定制化屬性 ....................................................................... 123
4.3.2 注冊(cè)定制化屬性 ....................................................................... 124
4.3.3 定制化屬性的類(lèi)別 .................................................................... 125
4.3.4 設(shè)置定制化屬性 ....................................................................... 131
4.4 定制化模型組件 ................................................................................. 137
4.5 含有定制化屬性的定制化流程組件 .................................................. 140
4.6 流程的優(yōu)化 ......................................................................................... 142
4.6.1 流模式 ...................................................................................... 142
4.6.2 傳入語(yǔ)境 .................................................................................. 143
4.6.3 僅使用分詞器 ........................................................................... 146
4.6.4 關(guān)閉流程組件 ........................................................................... 146
4.7 處理流 ................................................................................................. 147
4.7.1 從遍歷文本到遍歷處理流 ......................................................... 148
4.7.2 將處理流轉(zhuǎn)化為 Doc 列表 ........................................................ 149
4.7.3 處理流和模板匹配 .................................................................... 151
4.7.4 在語(yǔ)境中處理數(shù)據(jù) .................................................................... 151
4.8 流程的控制 ......................................................................................... 154
4.8.1 nlp.make_doc()方法................................................................... 154
4.8.2 nlp.select_pipes()方法................................................................ 156
第 5 章 更新和訓(xùn)練模型 .................................................................................. 158
5.1 更新模型 ............................................................................................. 159
5.2 訓(xùn)練模型 ............................................................................................. 160
5.3 準(zhǔn)備數(shù)據(jù) ............................................................................................. 163
5.3.1 訓(xùn)練數(shù)據(jù) .................................................................................. 163
5.3.2 測(cè)試數(shù)據(jù) .................................................................................. 172
5.3.3 評(píng)估數(shù)據(jù) .................................................................................. 173
5.4 配置和訓(xùn)練模型 ................................................................................. 173
5.4.1 配置文件 .................................................................................. 174
5.4.2 訓(xùn)練流程 .................................................................................. 180
5.4.3 讀取流程 .................................................................................. 182
5.4.4 打包流程 .................................................................................. 183
5.4.5 使用流程 .................................................................................. 184
5.4.6 檢測(cè)模型 .................................................................................. 185
5.5 模型訓(xùn)練中的問(wèn)題 ............................................................................. 186
5.5.1 災(zāi)難性遺忘問(wèn)題 ....................................................................... 186
5.5.2 模型不能學(xué)會(huì)所有東西 ............................................................ 187
5.6 數(shù)據(jù)標(biāo)注 ............................................................................................. 188
5.7 訓(xùn)練多個(gè)標(biāo)簽 ..................................................................................... 191
5.7.1 實(shí)體的位置參數(shù) ....................................................................... 191
5.7.2 缺失標(biāo)簽的訓(xùn)練數(shù)據(jù) ................................................................ 192
5.7.3 加入標(biāo)簽的訓(xùn)練數(shù)據(jù) ................................................................ 193
第 6 章 實(shí)踐案例——構(gòu)建對(duì)話機(jī)器人 ........................................................... 198
6.1 對(duì)話機(jī)器人 ......................................................................................... 199
6.1.1 對(duì)話機(jī)器人的概念 .................................................................... 199
6.1.2 對(duì)話機(jī)器人的功能 .................................................................... 199
6.1.3 對(duì)話機(jī)器人的工作流程 ............................................................ 200
6.1.4 對(duì)話機(jī)器人的分類(lèi) .................................................................... 201
6.1.5 對(duì)話機(jī)器人的架構(gòu)方案 ............................................................ 202
6.2 對(duì)話機(jī)器人的設(shè)計(jì) ............................................................................. 206
6.2.1 需求設(shè)計(jì) .................................................................................. 207
6.2.2 工程設(shè)計(jì) .................................................................................. 208
6.3 代碼實(shí)現(xiàn) ............................................................................................. 210
6.3.1 自然語(yǔ)言理解模塊 .................................................................... 210
6.3.2 對(duì)話管理模塊 ........................................................................... 224
6.3.3 業(yè)務(wù)動(dòng)作模塊 ........................................................................... 226
6.3.4 自然語(yǔ)言生成模塊 .................................................................... 228
6.3.5 代碼集成 .................................................................................. 229
第 7 章 使用大語(yǔ)言模型 .................................................................................. 233
7.1 大語(yǔ)言模型 ......................................................................................... 233
7.1.1 大語(yǔ)言模型的概念 .................................................................... 233
7.1.2 大語(yǔ)言模型的重要性 ................................................................ 234
7.2 大語(yǔ)言模型的工作原理 ..................................................................... 235
7.2.1 模型的訓(xùn)練 ............................................................................... 235
7.2.2 模型的預(yù)測(cè) ............................................................................... 236
7.3 提示 .................................................................................................... 236
7.3.1 提示的概念 ............................................................................... 236
7.3.2 提示工程 .................................................................................. 237
spaCy 自然語(yǔ)言處理:從入門(mén)到進(jìn)階 XII
7.3.3 提示的實(shí)際應(yīng)用 ....................................................................... 238
7.4 spaCy 和大語(yǔ)言模型 .......................................................................... 239
7.4.1 安裝 spaCy 大語(yǔ)言模型支持包 ................................................. 240
7.4.2 在 spaCy 中配置大語(yǔ)言模型 ..................................................... 240
7.5 實(shí)際應(yīng)用 ............................................................................................. 241
7.5.1 文本分類(lèi) .................................................................................. 241
7.5.2 命名實(shí)體識(shí)別 ........................................................................... 243
7.6 大語(yǔ)言模型的優(yōu)點(diǎn)和缺點(diǎn) .................................................................. 244
7.6.1 大語(yǔ)言模型的優(yōu)點(diǎn) .................................................................... 244
7.6.2 大語(yǔ)言模型的缺點(diǎn) .................................................................... 245
7.7 未來(lái)趨勢(shì) ............................................................................................. 246
7.7.1 當(dāng)前的研究趨勢(shì) ....................................................................... 246
7.7.2 未來(lái)可能出現(xiàn)的影響 ................................................................ 247