本書全面系統(tǒng)地梳理了基于文本理解的智能問答技術(shù),涵蓋從傳統(tǒng)方法到現(xiàn)代深度學(xué)習(xí)技術(shù)的發(fā)展歷程,重點聚焦于文本問答任務(wù)中的關(guān)鍵技術(shù)和前沿問題。
本書涉及智能問答不同領(lǐng)域的多種創(chuàng)新性技術(shù),既有智能問答的背景、技術(shù)挑戰(zhàn)及前沿問題的解讀,又有技術(shù)實現(xiàn)和應(yīng)用的具體指導(dǎo),讀者可以全方位掌握智能問答領(lǐng)域的重要研究問題與技術(shù)。
本書注重理論與實踐結(jié)合,通過清晰的結(jié)構(gòu)和易于理解的語言,力求幫助不同層次和需求的讀者快速掌握該領(lǐng)域的核心內(nèi)容。無論是學(xué)術(shù)研究人員、研究生還是工程師,都可以從本書中獲得學(xué)術(shù)或技術(shù)方面的啟發(fā)。
P R E F A C E
前言
隨著人工智能技術(shù)的飛速發(fā)展,智能問答作為人工智能領(lǐng)域中的一項核心任務(wù),正逐步應(yīng)用到我們?nèi)粘I畹母鱾方面。從智能客服、搜索引擎到智能助手,文本問答系統(tǒng)已經(jīng)在許多行業(yè)中廣泛應(yīng)用。智能問答技術(shù)不僅讓系統(tǒng)能夠準(zhǔn)確理解用戶提出的問題,還能夠從不同模態(tài)的數(shù)據(jù)中提取、生成并呈現(xiàn)出相關(guān)答案,因此成為實現(xiàn)智能交互的關(guān)鍵技術(shù)之一。
近年來,隨著深度學(xué)習(xí)技術(shù)和大規(guī)模預(yù)訓(xùn)練模型(如BERT、GPT、T5等)技術(shù)的成熟和完善,智能問答系統(tǒng)的性能得到了顯著提升。傳統(tǒng)的基于規(guī)則和檢索的方法逐漸被基于深度語義理解的模型替代,使得問答系統(tǒng)能夠更好地應(yīng)對復(fù)雜問題,甚至能夠進(jìn)行推理和生成答案。然而,智能問答是一個多學(xué)科交叉的研究領(lǐng)域,涉及自然語言處理、信息檢索、機器學(xué)習(xí)、計算機視覺、人工智能等方向。隨著領(lǐng)域的不斷擴展,出現(xiàn)了很多新的研究熱點和技術(shù)挑戰(zhàn),都要求研究人員能夠及時跟蹤最新進(jìn)展,并在實際應(yīng)用中加以實踐。本書旨在全面系統(tǒng)地介紹基于文本理解的智能問答技術(shù),內(nèi)容涵蓋從傳統(tǒng)方法到現(xiàn)代深度學(xué)習(xí)技術(shù)的發(fā)展歷程,重點聚焦于文本問答任務(wù)中的關(guān)鍵技術(shù)和前沿問題。之所以編寫這本書,既是源于我們對智能問答技術(shù)的濃厚興趣,也希望為學(xué)術(shù)界、工業(yè)界以及相關(guān)領(lǐng)域的從業(yè)者提供一份可供參考的指南,幫助他們更好地理解和應(yīng)用智能問答領(lǐng)域的核心技術(shù)。
本書的主要內(nèi)容包括智能問答的基本概念、發(fā)展歷程、核心技術(shù)以及前沿研究問題。我們深入介紹了基于文本理解的智能問答技術(shù),展現(xiàn)了多種具有創(chuàng)新性的方法,旨在解決實際應(yīng)用中遇到的各種挑戰(zhàn)。針對大規(guī)模數(shù)據(jù)索引和問答檢索問題,本書提出了基于多域檢索與融合的文本問答方法,并構(gòu)建了一個生物醫(yī)學(xué)問答系統(tǒng),旨在提供精準(zhǔn)的醫(yī)療答復(fù)。針對候選答案排序問題,本書提出了基于偏序關(guān)系排序的方法,通過比較網(wǎng)絡(luò)理解候選答案之間的關(guān)系,設(shè)計了多任務(wù)學(xué)習(xí)框架來提升答案的排序效果。在場景文本視覺問答的文本語義建模方面,本書提出了基于閱讀理解的OCR文本處理方法,并通過語義和位置信息捕捉文本與圖像對象的關(guān)系。此外,為解決OCR文本字符遮擋和缺失問題,本書提出了基于對比學(xué)習(xí)的語義補齊方法,增強了模型對拼寫錯誤的魯棒性。最后,針對文本語義理解方面的難題,本書提出了基于先驗知識的場景文本視覺問答系統(tǒng),結(jié)合提示學(xué)習(xí)優(yōu)化答案預(yù)測。這些創(chuàng)新性的方法不僅為智能問答系統(tǒng)提供了新的技術(shù)思路,也推動了視覺文本跨模態(tài)學(xué)習(xí)領(lǐng)域的發(fā)展,尤其是為解決復(fù)雜語義理解、圖像-文本聯(lián)合建模等方面的挑戰(zhàn)提供了有力的支持。
本書的寫作特點是將理論與實踐有機結(jié)合,既分析了智能問答技術(shù)的基本原理,又關(guān)注其在實際應(yīng)用中的實現(xiàn)。通過清晰的結(jié)構(gòu)和易于理解的語言,力求幫助不同層次的讀者快速掌握該領(lǐng)域的核心內(nèi)容。對于學(xué)術(shù)研究人員和研究生,本書將引導(dǎo)他們深入分析智能問答的背景、技術(shù)挑戰(zhàn)及前沿問題;對于工業(yè)界從業(yè)者和工程師,本書提供了關(guān)于技術(shù)實現(xiàn)和應(yīng)用的具體指導(dǎo);對于希望了解人工智能和智能問答方向的初學(xué)者,本書可以幫助他們了解領(lǐng)域的基本概念和最新發(fā)展。
本書由晉贊霞、覃京燕和殷緒成三位作者合作完成,具體分工如下:晉贊霞撰寫了第2~7章,并參與第1章部分內(nèi)容撰寫;殷緒成撰寫了第1章;覃京燕撰寫了第8章。
我們衷心感謝在本書撰寫過程中給予支持與幫助的各位同人,你們在技術(shù)討論中提出的寶貴建議和無私分享,為本書的完善提供了重要支持。在本書的創(chuàng)作過程中,我們得到了許多專業(yè)性的幫助。感謝出版社編輯團(tuán)隊的悉心指導(dǎo),使本書得以順利付梓。我們也要感謝智能問答領(lǐng)域的眾多研究者,你們的前沿成果為本書內(nèi)容奠定了堅實的理論基礎(chǔ)。希望本書能為讀者提供有價值的參考,并激發(fā)大家在智能問答領(lǐng)域進(jìn)行探索與創(chuàng)新的興趣。
殷緒成,教授、博導(dǎo),模式識別與人工智能專家,國家杰出青年科學(xué)基金項目獲得者、科技創(chuàng)新2030新一代人工智能重大項目首席科學(xué)家,北京科技大學(xué)計算機與通信工程學(xué)院院長、模式識別與人工智能技術(shù)創(chuàng)新實驗室主任,中國圖象圖形學(xué)學(xué)會文檔圖像分析與識別專委會副主任/秘書長、中國自動化學(xué)會模式識別與機器智能專委會委員、中國計算機學(xué)會計算機視覺專委會委員、中國人工智能學(xué)會模式識別專委會委員。主要研究領(lǐng)域包括模式識別、文字識別、計算機視覺、人工智能芯片、工業(yè)智能與工業(yè)軟件技術(shù)及應(yīng)用,在中國計算機學(xué)會推薦國際期刊和會議上發(fā)表論文一百多篇,連續(xù)四屆榮獲國際文檔分析與識別大會技術(shù)競賽共15項冠軍,獲2019年度北京市科技進(jìn)步一等獎(第一完成人)、2018年度教育部科技進(jìn)步二等獎(第一完成人)、2005年度北京市科技進(jìn)步一等獎(主要成員)。
C O N T E N T S
目錄
前言
第1章 智能問答概述1
1.1 引言1
1.2 智能問答簡史4
1.3 智能問答系統(tǒng)的分類6
1.4 本章小結(jié)11
第2章 基于文本理解的智能問答中的關(guān)鍵技術(shù)13
2.1 文本理解的相關(guān)技術(shù)13
2.1.1 機器閱讀理解13
2.1.2 知識問答14
2.1.3 答案選擇16
2.1.4 知識庫的引入18
2.1.5 提示學(xué)習(xí)20
2.2 視覺與語言多模態(tài)學(xué)習(xí)21
2.2.1 注意力機制21
2.2.2 多模態(tài)融合23
2.2.3 圖像-文本跨模態(tài)預(yù)訓(xùn)練24
2.3 視覺問答26
2.3.1 視覺問答方法26
2.3.2 場景文本視覺問答28
2.4 本章小結(jié)30
第3章 基于多域檢索和融合的文本問答方法31
3.1 引言31
3.2 方法概述33
3.3 查詢處理33
3.3.1 查詢精簡34
3.3.2 查詢擴增34
3.4 檢索34
3.4.1 查詢似然模型34
3.4.2 順序依賴模型35
3.4.3 字段順序依賴模型36
3.4.4 隨機性臨近散度模型38
3.5 多模式策略組合38
3.6 實驗驗證39
3.6.1 數(shù)據(jù)集和評價指標(biāo)39
3.6.2 實驗設(shè)置42
3.6.3 不同模型組合對模型性能的影響43
3.6.4 與前沿方法的對比實驗46
3.6.5 與醫(yī)學(xué)問答系統(tǒng)的對比實驗47
3.6.6 實驗結(jié)果分析49
3.7 本章小結(jié)51
第4章 基于偏序關(guān)系排序的文本問答方法52
4.1 引言52
4.2 候選項與候選項模型53
4.3 用于答案選擇的多任務(wù)學(xué)習(xí)57
4.4 實驗驗證59
4.4.1 數(shù)據(jù)集和評價指標(biāo)59
4.4.2 實驗設(shè)置60
4.4.3 WikiQA上的性能比較60
4.4.4 TREC?QA上的性能比較61
4.4.5 Insurance QA上的性能比較63
4.4.6 BioASQ上的性能比較64
4.4.7 變體方法對比實驗66
4.5 本章小結(jié)68
第5章 基于文本閱讀理解的場景文本視覺問答方法69
5.1 引言69
5.2 文本閱讀理解73
5.2.1 圖片處理73
5.2.2 問題理解73
5.2.3 場景文本和目標(biāo)理解74
5.2.4 關(guān)系推理76
5.3 答案預(yù)測77
5.3.1 答案候選項生成77
5.3.2 答案語義匹配78
5.3.3 語義推理79
5.4 實驗驗證80
5.4.1 數(shù)據(jù)集和評價指標(biāo)80
5.4.2 文本和目標(biāo)檢測識別模型82
5.4.3 不同模塊對模型性能的影響83
5.4.4 OCR準(zhǔn)確率對性能的影響86
5.4.5 與前沿方法的對比實驗87
5.4.6 關(guān)鍵模塊對答案預(yù)測的影響90
5.4.7 定性樣例分析91
5.5 本章小結(jié)92
第6章 基于對比學(xué)習(xí)語義補齊的場景文本視覺問答方法94
6.1 引言94
6.2 場景文本對比學(xué)習(xí)98
6.2.1 OCR文本語義表示98
6.2.2 OCR文本增強99
6.2.3 多模態(tài)融合100
6.2.4 OCR文本和單詞對比學(xué)習(xí)100
6.2.5 損失函數(shù)101
6.3 答案預(yù)測101
6.4 實驗驗證103
6.4.1 數(shù)據(jù)集和評價指標(biāo)103
6.4.2 與前沿方法的對比實驗106
6.4.3 不同OCR文本語義表示的對比實驗108
6.4.4 各個模塊對模型性能的影響109
6.4.5 不同來源答案預(yù)測的對比實驗110
6.4.6 ST?VQA數(shù)據(jù)集預(yù)測結(jié)果的對比分析111
6.4.7 TextCaps數(shù)據(jù)集的對比實驗和結(jié)果展示113
6.5 本章小結(jié)115
第7章 基于先驗知識的場景文本視覺問答方法116
7.1 引言116
7.2 先驗知識檢索和驗證117
7.2.1 OCR文本相關(guān)實體查詢118
7.2.2 問題相關(guān)先驗知識檢索119
7.2.3 基于提示學(xué)習(xí)的先驗知識驗證119
7.3 先驗知識融合推理120
7.3.1 場景文本和先驗知識對齊120
7.3.2 多模態(tài)融合推理121
7.4 答案預(yù)測122
7.5 實驗驗證123
7.5.1 與前沿方法的對比實驗124
7.5.2 不同提示模板預(yù)測準(zhǔn)確率的對比127
7.5.3 各個模塊對模型性能的影響129
7.5.4 不同數(shù)據(jù)子集的對比實驗129
7.5.5 KgMr預(yù)測結(jié)果的對比分析130
7.6 本章小結(jié)132
第8章 總結(jié)與展望133
8. 1研究總結(jié)133
8.2 未來展望134
參考文獻(xiàn)135