本書(shū)提供了全面、系統(tǒng)的深度學(xué)習(xí)知識(shí),從基礎(chǔ)理論到前沿應(yīng)用,覆蓋了深度學(xué)習(xí)的各個(gè)重要領(lǐng)域。本書(shū)首先從深度學(xué)習(xí)基礎(chǔ)出發(fā),幫助初學(xué)者對(duì)深度學(xué)習(xí)基礎(chǔ)技術(shù)有初步的理解和認(rèn)識(shí)。隨后,本書(shū)轉(zhuǎn)向計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩大基礎(chǔ)領(lǐng)域,揭示了深度學(xué)習(xí)如何賦能圖像和語(yǔ)言的理解,還介紹了生成式模型與大模型這一當(dāng)下研究熱點(diǎn),引領(lǐng)讀者探索了當(dāng)前深度學(xué)習(xí)的前沿領(lǐng)域,感受技術(shù)創(chuàng)新的魅力。此外,本書(shū)還介紹了深度強(qiáng)化學(xué)習(xí)的相關(guān)知識(shí),幫助讀者掌握從強(qiáng)化學(xué)習(xí)的基本原理到復(fù)雜深度強(qiáng)化學(xué)習(xí)算法的全面理解和實(shí)際操作能力。最后,本書(shū)特別關(guān)注了深度學(xué)習(xí)在自動(dòng)駕駛和AI4S兩大熱門(mén)應(yīng)用領(lǐng)域的實(shí)踐,讓讀者能夠了解并思考深度學(xué)習(xí)如何推動(dòng)社會(huì)進(jìn)步與科學(xué)發(fā)展。 本書(shū)可作為普通高等院校計(jì)算機(jī)、人工智能、電子信息等相關(guān)專(zhuān)業(yè)本科生及研究生深度學(xué)習(xí)課程的教材,也可作為對(duì)深度學(xué)習(xí)感興趣的研究人員和工程技術(shù)人員的參考資料。
1.關(guān)本書(shū)提供了全面、系統(tǒng)的深度學(xué)習(xí)知識(shí),從基礎(chǔ)理論到前沿應(yīng)用,覆蓋了深度學(xué)習(xí)的各個(gè)重要領(lǐng)域。注重強(qiáng)調(diào)深度學(xué)習(xí)在不同領(lǐng)域的應(yīng)用具體分析,幫助企業(yè)和技術(shù)人員理解如何將深度學(xué)習(xí)技術(shù)應(yīng)用于實(shí)際生產(chǎn)和服務(wù)中,解決實(shí)際問(wèn)題,從而加速技術(shù)從理論到實(shí)踐的轉(zhuǎn)化。
2.內(nèi)容涵蓋大模型、自動(dòng)駕駛、AI4S等當(dāng)前科研和技術(shù)發(fā)展的熱點(diǎn),與時(shí)俱進(jìn)。
3.注重理論與實(shí)踐相結(jié)合,提供豐富的實(shí)際案例。
4.資源豐富,提供PPT、教學(xué)大綱、教案、習(xí)題答案、案例指導(dǎo)、微課等,宜教宜學(xué)。
嚴(yán)峻馳 上海交通大學(xué)計(jì)算機(jī)系教授,CCF杰出會(huì)員/杰出講者。國(guó)家優(yōu)青、IET Fellow、科技部2030新一代人工智能重大項(xiàng)目、基金委人工智能重大研究計(jì)劃項(xiàng)目負(fù)責(zé)人,教育部深度學(xué)習(xí)資源建設(shè)首席專(zhuān)家。曾任IBM研究院首席研究員!吨袊(guó)圖象圖形學(xué)報(bào)》編委。主要研究興趣為機(jī)器學(xué)習(xí)及交叉應(yīng)用。發(fā)表第一/通訊作者CCF-A類(lèi)論文超百篇,谷歌引用過(guò)萬(wàn)次,成果先后獲PaperDigest評(píng)選的最具影響力AAAI21、IJCAI23論文榜首,及陜西省自然科學(xué)一等獎(jiǎng)(排三)。長(zhǎng)期任機(jī)器學(xué)習(xí)三大會(huì)議ICML/NeurIPS/ICLR領(lǐng)域主席,模式識(shí)別旗艦期刊PRJ編委。指導(dǎo)學(xué)生獲得挑戰(zhàn)杯特等獎(jiǎng)、CCF優(yōu)博/CV新銳獎(jiǎng)、交大學(xué)術(shù)之星等榮譽(yù)和本科生自然科學(xué)基金。
1 深度學(xué)習(xí)基礎(chǔ) 15
1.1 深度學(xué)習(xí)的分類(lèi) 15
1.1.1 監(jiān)督學(xué)習(xí) 16
1.1.2 無(wú)監(jiān)督學(xué)習(xí) 16
1.1.3 其他分類(lèi) 16
1.2 回歸模型 17
1.2.1 線(xiàn)性回歸 17
1.2.2 邏輯回歸 18
1.3 深度神經(jīng)網(wǎng)絡(luò) 19
1.3.1 感知機(jī) 19
1.3.2 DNN 網(wǎng)絡(luò)結(jié)構(gòu) 20
1.4 激活函數(shù) 21
1.5 卷積神經(jīng)網(wǎng)絡(luò) 23
1.5.1 二維卷積運(yùn)算 23
1.5.2 池化層 25
1.5.3 全連接層 26
1.6 循環(huán)神經(jīng)網(wǎng)絡(luò) 26
1.6.1 原始循環(huán)神經(jīng)網(wǎng)絡(luò) 26
1.6.2 門(mén)控循環(huán)單元 27
1.6.3 長(zhǎng)短期記憶網(wǎng)絡(luò) 28
1.7 自注意力機(jī)制和 Transformer模型 29
1.7.1 自注意力機(jī)制 29
1.7.2 Transformer模型 31
1.8 訓(xùn)練算法 32
1.8.1 梯度下降 33
1.8.2 反向傳播 34
1.8.3 其他優(yōu)化算法 35
1.9 參數(shù)初始化和歸一化 37
1.9.1 全零初始化和隨機(jī)初始化 37
1.9.2 Xavier 初始化 37
1.9.3 He 初始化 39
1.9.4 批量歸一化和層歸一化 39
1.10 神經(jīng)網(wǎng)絡(luò)壓縮與搜索 40
1.10.1 網(wǎng)絡(luò)剪枝 40
1.10.2 參數(shù)量化 41
1.10.3 知識(shí)蒸餾 41
1.10.4 神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索 42
1.11 本章小結(jié) 44
1.12 習(xí)題 44
2 視覺(jué)模型 45
2.1 圖像分類(lèi) 45
2.1.1 LeNet 46
2.1.2 AlexNet 46
2.1.3 VGG 47
2.1.4 GoogLeNet 48
2.1.5 ResNet 49
2.1.6 DenseNet 50
2.1.7 Vision Transformer 51
2.1.8 Swin Transformer 52
2.2 目標(biāo)檢測(cè) 53
2.2.1 R-CNN 53
2.2.2 Fast R-CNN 54
2.2.3 Faster R-CNN 55
2.2.4 YOLO 56
2.2.5 SSD 57
2.2.6 DETR 58
2.3 語(yǔ)義分割 59
2.3.1 FCN 59
2.3.2 U-Net 60
2.3.3 DeepLab 系列 61
2.3.4 SegFormer 62
2.4 自監(jiān)督學(xué)習(xí) 63
2.4.1 任務(wù)定義 63
2.4.2 對(duì)比學(xué)習(xí) 64
2.4.3 圖像掩碼學(xué)習(xí) 66
2.5 針對(duì)視覺(jué)模型的對(duì)抗攻擊 67
2.5.1 攻擊擾動(dòng)類(lèi)型 68
2.5.2 白盒對(duì)抗攻擊 68
2.5.3 黑盒對(duì)抗攻擊 71
2.5.4 物理世界攻擊 72
2.6 視覺(jué)模型的防御方法 73
2.6.1 認(rèn)證防御 74
2.6.2 對(duì)抗性(重新)訓(xùn)練作為防御機(jī)制 75
2.6.3 利用對(duì)抗性示例 75
2.6.4 魯棒優(yōu)化 75
2.6.5 Ensemble 對(duì)抗訓(xùn)練 76
2.6.6 正則化方法 76
2.6.7 可驗(yàn)證防御:隨機(jī)平滑 77
2.7 本章小結(jié) 78
2.8 習(xí)題 78
3 自然語(yǔ)言處理 80
3.1 自然語(yǔ)言處理簡(jiǎn)介 80
3.1.1 自然語(yǔ)言處理概念闡述 80
3.1.2 自然語(yǔ)言結(jié)構(gòu)分析簡(jiǎn)述 82
3.2 基于深度學(xué)習(xí)的自然語(yǔ)言處理 85
3.2.1 基于深度學(xué)習(xí)的文本表征 85
3.2.2 基于深度學(xué)習(xí)的傳統(tǒng)建模范式 89
3.3 預(yù)訓(xùn)練-微調(diào)和上下文學(xué)習(xí)范式 91
3.3.1 預(yù)訓(xùn)練-微調(diào)范式 91
3.3.2 上下文學(xué)習(xí)范式 94
3.4 基于深度學(xué)習(xí)的序列模型架構(gòu) 97
3.4.1 循環(huán)神經(jīng)網(wǎng)絡(luò) 97
3.4.2 外部記憶網(wǎng)絡(luò) 98
3.5 深度自然語(yǔ)言模型的應(yīng)用 99
3.5.1 信息抽取 99
3.5.2 機(jī)器理解問(wèn)答 100
3.5.3 機(jī)器翻譯 102
3.5.4 對(duì)話(huà)系統(tǒng) 103
3.6 自然語(yǔ)言處理現(xiàn)存的開(kāi)放問(wèn)題 105
3.7 本章小結(jié) 109
3.8 習(xí)題 109
4 生成模型及其提示學(xué)習(xí) 110
4.1 變分自編碼器(VAE) 110
4.1.1 自編碼器 111
4.1.2 問(wèn)題定義 111
4.1.3 優(yōu)化目標(biāo) 112
4.1.4 正態(tài)分布實(shí)例 113
4.2 生成對(duì)抗網(wǎng)絡(luò)(GAN) 114
4.2.1 生成器與判別器 114
4.2.2 算法設(shè)計(jì) 115
4.3 擴(kuò)散模型(DM) 116
4.3.1 前向過(guò)程與反向過(guò)程 116
4.3.2 訓(xùn)練與生成 117
4.4 自然語(yǔ)言提示學(xué)習(xí)方法 118
4.4.1 完型填空提示 119
4.4.2 前綴提示 120
4.5 計(jì)算機(jī)視覺(jué)提示學(xué)習(xí)方法 120
4.5.1 串接提示向量 121
4.5.2 學(xué)習(xí)提示網(wǎng)絡(luò)層 121
4.5.3 添加像素級(jí)擾動(dòng) 121
4.5.4 提示鍵值查詢(xún) 121
4.5.5 網(wǎng)絡(luò)結(jié)構(gòu)搜索 121
4.5.6 樣例模版創(chuàng)建 122
4.6 視覺(jué)語(yǔ)言多模態(tài)提示學(xué)習(xí)方法 122
4.6.1 純文本提示學(xué)習(xí) 122
4.6.2 圖文聯(lián)合提示學(xué)習(xí) 123
4.6.3 組合提示學(xué)習(xí) 123
4.6.4 基于分布的提示學(xué)習(xí) 124
4.6.5 基于梯度的提示學(xué)習(xí) 124
4.6.6 圖文對(duì)齊的提示學(xué)習(xí) 124
4.7 本章小結(jié) 124
4.8 習(xí)題 124
5 深度強(qiáng)化學(xué)習(xí) 126
5.1 強(qiáng)化學(xué)習(xí)基礎(chǔ) 126
5.1.1 強(qiáng)化學(xué)習(xí)的基本概念 126
5.1.2 馬爾科夫決策過(guò)程 127
5.2 表格型強(qiáng)化學(xué)習(xí) 128
5.2.1 動(dòng)態(tài)規(guī)劃 129
5.2.2 蒙特卡洛方法 129
5.2.3 時(shí)序差分算法 130
5.3 深度價(jià)值估計(jì) 132
5.3.1 深度 Q 網(wǎng)絡(luò)算法 132
5.3.2 DQN 中的過(guò)估計(jì)問(wèn)題 133
5.3.3 DQN 改進(jìn)算法 133
5.4 策略梯度 134
5.4.1 策略梯度定理 135
5.4.2 信任區(qū)域策略?xún)?yōu)化 136
5.4.3 近端策略?xún)?yōu)化 137
5.4.4 深度確定性策略梯度 138
5.5 本章小結(jié) 140
5.6 習(xí)題 141
6 自動(dòng)駕駛 142
6.1 背景介紹 142
6.1.1 歷史發(fā)展 142
6.1.2 技術(shù)分級(jí) 143
6.2 自動(dòng)駕駛系統(tǒng) 144
6.2.1 整體架構(gòu) 144
6.2.2 硬件系統(tǒng) 144
6.2.3 軟件系統(tǒng) 145
6.3 數(shù)據(jù)集和榜單生態(tài) 146
6.3.1 概述 146
6.3.2 感知類(lèi)數(shù)據(jù)集 146
6.3.3 建圖類(lèi)數(shù)據(jù)集 147
6.3.4 預(yù)測(cè)及規(guī)劃數(shù)據(jù)集 148
6.3.5 數(shù)據(jù)算法閉環(huán)體系 149
6.4 感知算法 150
6.4.1 單目感知技術(shù) 150
6.4.2 俯視圖感知技術(shù) 151
6.4.3 激光雷達(dá)算法 152
6.4.4 傳感器融合算法 153
6.5 端到端自動(dòng)駕駛 154
6.5.1 端到端 vs. 模塊化 155
6.5.2 發(fā)展歷程 155
6.5.3 主流工作 156
6.5.4 現(xiàn)狀與挑戰(zhàn) 159
6.5.5 未來(lái)發(fā)展趨勢(shì) 159
6.6 本章小結(jié) 160
6.7 習(xí)題 160
7 人工智能驅(qū)動(dòng)的科學(xué)研究 161
7.1 AI 與科學(xué)研究范式的變遷 161
7.1.1 模型驅(qū)動(dòng):AI 加速計(jì)算求解 162
7.1.2 數(shù)據(jù)驅(qū)動(dòng):AI 處理科學(xué)大數(shù)據(jù) 165
7.1.3 模型與數(shù)據(jù)的融合:AI4S 的系統(tǒng)工程 165
7.2 AI4S 的科學(xué)數(shù)據(jù)表征 166
7.2.1 圖的基礎(chǔ)知識(shí) 166
7.2.2 圖的表示學(xué)習(xí) 168
7.2.3 譜域圖神經(jīng)網(wǎng)絡(luò) 170
7.2.4 空域圖神經(jīng)網(wǎng)絡(luò) 172
7.2.5 圖生成 174
7.3 AI4S 實(shí)戰(zhàn)案例:顯微鏡下的 AI——AI 賦能材料表征 176
7.3.1 材料科學(xué)背景知識(shí) 177
7.3.2 問(wèn)題描述:二維材料缺陷檢測(cè) 178
7.3.3 主要挑戰(zhàn):標(biāo)注數(shù)據(jù)的困難 179
7.3.4 解決方案 180
7.3.5 效果展示與工具使用 182
7.4 AI4S “四梁N 柱”的發(fā)展框架 182
7.4.1 基本原理與數(shù)據(jù)驅(qū)動(dòng)的算法模型和軟件系統(tǒng) 184
7.4.2 高效率、高精度的實(shí)驗(yàn)表征系統(tǒng) 186
7.4.3 替代文獻(xiàn)的數(shù)據(jù)庫(kù)與知識(shí)庫(kù)系統(tǒng) 188
7.4.4 高度整合的算力平臺(tái)系統(tǒng) 189
7.5 本章小結(jié) 191
7.6 習(xí)題 191
8 參考文獻(xiàn) 192