Transformer模型基礎(chǔ)篇
第1章Transformer綜述
1.1Transformer是什么
1.1.1Transformer模型的工作原理
1.1.2Transformer模型的編碼器與解碼器簡(jiǎn)介
1.1.3Transformer模型編碼器層
1.1.4Transformer模型解碼器層
1.1.5Transformer模型殘差連接與數(shù)據(jù)歸一化
1.2Transformer模型框架
1.2.1Transformer模型的詞嵌入
1.2.2Transformer模型的位置編碼
1.2.3Transformer模型的編碼器與解碼器
1.2.4Transformer模型的最終輸出
1.2.5Transformer模型的注意力機(jī)制
1.2.6Transformer模型的多頭注意力機(jī)制
1.2.7Transformer模型的前饋神經(jīng)網(wǎng)絡(luò)
1.3本章總結(jié)
第2章Transformer模型的輸入與輸出
2.1Transformer模型的詞嵌入
2.1.1Transformer 模型詞嵌入的概念
2.1.2Transformer模型詞嵌入的代碼實(shí)現(xiàn)
2.2Transformer 模型的位置編碼
2.2.1Transformer 模型位置編碼的計(jì)算過(guò)程
2.2.2Transformer模型位置編碼的正余弦函數(shù)
2.2.3Transformer 模型位置編碼的代碼實(shí)現(xiàn)
2.3Transformer模型解碼器的輸入
2.4Transformer模型中的掩碼矩陣
2.4.1Transformer模型的Pad Mask
2.4.2Transformer模型的 Sequence Mask
2.4.3Transformer 模型Sequence Mask & Pad Mask的代碼實(shí)現(xiàn)
2.5Transformer模型的輸出
2.5.1Transformer 模型的線性層
2.5.2Transformer模型輸出數(shù)據(jù)的Softmax 操作
2.5.3Transformer模型輸出數(shù)據(jù)的Softmax代碼實(shí)現(xiàn)
2.6本章總結(jié)
第3章Transformer模型的注意力機(jī)制
3.1Transformer模型注意力機(jī)制的概念
3.1.1Transformer模型的自注意力機(jī)制
3.1.2Transformer模型注意力機(jī)制中兩個(gè)矩陣乘法的含義
3.1.3Transformer模型的Softmax操作
3.1.4Transformer模型的注意力矩陣
3.2Transformer模型Q、K、V三矩陣
3.2.1Transformer模型Q、K、V三矩陣的來(lái)歷
3.2.2Transformer模型Q、K、V矩陣注意力機(jī)制的運(yùn)算
3.3Transformer模型注意力機(jī)制中的縮放點(diǎn)積
3.3.1Transformer模型注意力機(jī)制的問(wèn)題
3.3.2Transformer模型注意力機(jī)制的縮放點(diǎn)積
3.4Transformer模型注意力機(jī)制的代碼實(shí)現(xiàn)過(guò)程
3.5Transformer模型多頭注意力機(jī)制
3.5.1Transformer模型多頭注意力機(jī)制的計(jì)算公式
3.5.2Transformer模型Qi、Ki、Vi的來(lái)歷
3.5.3Transformer模型多頭注意力機(jī)制的計(jì)算
3.6Transformer 模型多頭注意力機(jī)制的代碼實(shí)現(xiàn)
3.6.1Transformer模型多頭注意力機(jī)制的代碼
3.6.2Transformer模型多頭注意力矩陣可視化
3.7本章總結(jié)
第4章Transformer模型的殘差連接,歸一化與前饋神經(jīng)網(wǎng)絡(luò)
4.1Transformer模型批歸一化與層歸一化
4.1.1Transformer模型批歸一化
4.1.2Transformer 模型層歸一化
4.1.3Transformer模型的層歸一化操作
4.1.4Transformer模型層歸一化的代碼實(shí)現(xiàn)
4.2殘差神經(jīng)網(wǎng)絡(luò)
4.2.1ResNet殘差神經(jīng)網(wǎng)絡(luò)
4.2.2Transformer模型的殘差連接
4.3Transformer模型前饋神經(jīng)網(wǎng)絡(luò)
4.3.1Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的計(jì)算公式
4.3.2激活函數(shù)
4.3.3Transformer模型ReLU激活函數(shù)
4.3.4Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的代碼實(shí)現(xiàn)
4.4本章總結(jié)
第5章Transformer模型搭建
5.1Transformer模型編碼器
5.1.1Transformer模型編碼器組成
5.1.2Transformer模型編碼器層的代碼實(shí)現(xiàn)
5.1.3搭建Transformer模型編碼器
5.2Transformer模型解碼器
5.2.1Transformer模型解碼器組成
5.2.2Transformer模型解碼器層的代碼實(shí)現(xiàn)
5.2.3搭建Transformer模型解碼器
5.3搭建Transformer模型
5.3.1Transformer模型組成
5.3.2Transformer模型的代碼實(shí)現(xiàn)
5.4Transformer模型訓(xùn)練過(guò)程
5.5Transformer模型預(yù)測(cè)過(guò)程
5.6Transformer模型Force Teach
5.7Transformer 模型與RNN模型
5.7.1RNN循環(huán)神經(jīng)網(wǎng)絡(luò)
5.7.2Transformer模型與RNN模型對(duì)比
5.8本章總結(jié)
Transformer模型NLP領(lǐng)域篇
第6章Transformer 編碼器模型: BERT模型
6.1BERT模型結(jié)構(gòu)
6.1.1BERT模型簡(jiǎn)介
6.1.2BERT模型構(gòu)架
6.2BERT模型的輸入部分
6.2.1BERT模型的Token Embedding
6.2.2BERT模型的位置編碼
6.2.3BERT模型的序列嵌入
6.2.4BERT模型的輸入
6.3BERT模型Transformer編碼器框架
6.4BERT模型的輸出
6.4.1BERT模型的MLM預(yù)訓(xùn)練任務(wù)
6.4.2BERT模型的NSP預(yù)訓(xùn)練任務(wù)
6.5BERT模型的微調(diào)任務(wù)
6.6BERT模型的代碼實(shí)現(xiàn)
6.6.1BERT模型的特征嵌入
6.6.2BERT模型的自注意力機(jī)制
6.6.3BERT模型的多頭注意力機(jī)制
6.6.4BERT模型的前饋神經(jīng)網(wǎng)絡(luò)
6.6.5BERT模型的編碼器層
6.6.6BERT模型搭建
6.7本章總結(jié)
第7章Transformer 解碼器模型: GPT系列模型
7.1GPT模型結(jié)構(gòu)
7.1.1GPT模型簡(jiǎn)介
7.1.2GPT模型構(gòu)架
7.2GPT模型的輸入部分
7.2.1GPT模型的Token Embedding
7.2.2GPT模型的位置編碼
7.3GPT模型的整體框架
7.4GPT模型的無(wú)監(jiān)督預(yù)訓(xùn)練
7.5GPT模型的微調(diào)任務(wù)
7.5.1GPT模型微調(diào)
7.5.2GPT模型監(jiān)督有標(biāo)簽輸入
7.6GPT2模型
7.6.1GPT2模型簡(jiǎn)介
7.6.2GPT2模型的Zeroshot
7.7GPT3模型
7.7.1GPT3模型框架
7.7.2GPT3模型下游任務(wù)微調(diào)
7.7.3GPT3模型預(yù)訓(xùn)練數(shù)據(jù)集
7.8本章總結(jié)
Transformer模型計(jì)算機(jī)視覺(jué)篇
第8章計(jì)算機(jī)視覺(jué)之卷積神經(jīng)網(wǎng)絡(luò)
8.1卷積神經(jīng)網(wǎng)絡(luò)的概念
8.1.1卷積神經(jīng)網(wǎng)絡(luò)的填充、步長(zhǎng)和通道數(shù)
8.1.2卷積神經(jīng)網(wǎng)絡(luò)的卷積核
8.1.3卷積神經(jīng)網(wǎng)絡(luò)卷積層
8.1.4卷積神經(jīng)網(wǎng)絡(luò)池化層
8.1.5卷積神經(jīng)網(wǎng)絡(luò)全連接層
8.1.6卷積神經(jīng)網(wǎng)絡(luò)全局平均池化
8.1.7卷積神經(jīng)網(wǎng)絡(luò)的感受野
8.1.8卷積神經(jīng)網(wǎng)絡(luò)的下采樣
8.1.9神經(jīng)網(wǎng)絡(luò)中的DropOut
8.2卷積神經(jīng)網(wǎng)絡(luò)
8.2.1卷積神經(jīng)網(wǎng)絡(luò)模型搭建
8.2.2卷積神經(jīng)網(wǎng)絡(luò)LeNet5模型搭建
8.2.3卷積神經(jīng)網(wǎng)絡(luò)LeNet5模型的代碼實(shí)現(xiàn)
8.3卷積神經(jīng)網(wǎng)絡(luò)LeNet5手寫數(shù)字識(shí)別
8.3.1MNIST數(shù)據(jù)集
8.3.2LeNet5手寫數(shù)字模型訓(xùn)練
8.3.3LeNet5手寫數(shù)字模型預(yù)測(cè)
8.4本章總結(jié)
第9章Transformer視覺(jué)模型: Vision Transformer模型
9.1Vision Transformer模型
9.1.1Vision Transformer模型簡(jiǎn)介
9.1.2Vision Transformer模型的數(shù)據(jù)流
9.2Vision Transformer模型的Patch Embedding與位置編碼
9.2.1Vision Transformer模型的Patch Embedding
9.2.2Vision Transformer模型Patch Embedding的代碼實(shí)現(xiàn)
9.2.3Vision Transformer模型的位置編碼
9.2.4Vision Transformer模型位置編碼的代碼實(shí)現(xiàn)
9.3Vision Transformer模型編碼器層
9.3.1Vision Transformer與標(biāo)準(zhǔn)Transformer編碼器層的區(qū)別
9.3.2Vision Transformer模型多頭注意力機(jī)制的代碼實(shí)現(xiàn)
9.3.3Vision Transformer模型前饋神經(jīng)網(wǎng)絡(luò)的代碼實(shí)現(xiàn)
9.3.4搭建Vision Transformer模型編碼器
9.4Vision Transformer輸出層的代碼實(shí)現(xiàn)
9.5搭建Vision Transformer模型
9.6本章總結(jié)
第10章Transformer視覺(jué)模型: Swin Transformer模型
10.1Swin Transformer模型
10.1.1Swin Transformer模型簡(jiǎn)介
10.1.2Swin Transformer模型的數(shù)據(jù)流
10.1.3Swin Transformer窗口注意力機(jī)制的框架模型
10.2Swin Transformer模型窗口分割
10.2.1Swin Transformer模型的Patch Embedding
10.2.2Swin Transformer模型Patch Embedding的代碼實(shí)現(xiàn)
10.2.3Swin Transformer模型窗口分割與窗口復(fù)原的代碼實(shí)現(xiàn)
10.3Swin Transformer模型Patch Merging
10.3.1Swin Transformer模型的Patch Merging操作
10.3.2Swin Transformer模型Patch Merging的代碼實(shí)現(xiàn)
10.4Swin Transformer模型的位置編碼
10.4.1Swin Transformer模型位置編碼的來(lái)源
10.4.2Swin Transformer模型位置編碼的代碼實(shí)現(xiàn)
10.5Swin Transformer模型移動(dòng)窗口與掩碼矩陣
10.5.1Swin Transformer模型的移動(dòng)窗口
10.5.2Swin Transformer模型的掩碼矩陣
10.5.3Swin Transformer模型移動(dòng)窗口的代碼實(shí)現(xiàn)
10.5.4Swin Transformer模型掩碼矩陣的代碼實(shí)現(xiàn)
10.6Swin Transformer模型窗口注意力與移動(dòng)窗口注意力
10.6.1Swin Transformer模型窗口注意力機(jī)制代碼
10.6.2Swin Transformer模型移動(dòng)窗口注意力機(jī)制代碼
10.7Swin Transformer模型計(jì)算復(fù)雜度
10.8本章總結(jié)
Transformer模型進(jìn)階篇
第11章CNN Transformer視覺(jué)模型: DETR模型
11.1DETR模型
11.1.1DETR模型框架
11.1.2DETR模型的Transformer框架
11.2DETR模型的代碼實(shí)現(xiàn)
11.2.1DETR模型搭建
11.2.2基于DETR預(yù)訓(xùn)練模型的對(duì)象檢測(cè)
11.3本章總結(jié)
第12章Transformer多模態(tài)模型
12.1多模態(tài)模型簡(jiǎn)介
12.2Transformer多模態(tài)模型: VILT模型
12.2.1VILT模型簡(jiǎn)介
12.2.2VILT模型的代碼實(shí)現(xiàn)
12.3Transformer多模態(tài)模型: CLIP模型
12.3.1CLIP模型簡(jiǎn)介
12.3.2CLIP模型的代碼實(shí)現(xiàn)
12.4本章總結(jié)
第13章優(yōu)化Transformer模型注意力機(jī)制
13.1稀疏注意力機(jī)制
13.1.1稀疏注意力機(jī)制簡(jiǎn)介
13.1.2稀疏注意力機(jī)制的代碼實(shí)現(xiàn)
13.2Flash Attention
13.2.1標(biāo)準(zhǔn)注意力機(jī)制計(jì)算過(guò)程
13.2.2Flash Attention注意力機(jī)制的計(jì)算過(guò)程
13.2.3Flash Attention注意力機(jī)制的代碼實(shí)現(xiàn)
13.3MoE混合專家模型
13.3.1混合專家模型簡(jiǎn)介
13.3.2混合專家模型的代碼實(shí)現(xiàn)
13.4RetNet模型
13.4.1RetNet模型的多尺度保留機(jī)制
13.4.2RetNet模型的遞歸表示
13.4.3RetNet模型的代碼實(shí)現(xiàn)
13.5本章總結(jié)
Transformer模型實(shí)戰(zhàn)篇
第14章Transformer模型環(huán)境搭建
14.1本地Python環(huán)境搭建
14.1.1Python環(huán)境安裝
14.1.2Python安裝第三方庫(kù)
14.2Python云端環(huán)境搭建
14.2.1百度飛槳AI Studio云端環(huán)境搭建
14.2.2Google Colab云端環(huán)境搭建
14.3本章總結(jié)
第15章Transformer模型自然語(yǔ)言處理領(lǐng)域?qū)嵗?/p>
15.1基于Transformer模型的機(jī)器翻譯實(shí)例
15.1.1基于Transformer模型的機(jī)器翻譯模型訓(xùn)練
15.1.2基于Transformer模型的機(jī)器翻譯模型推理過(guò)程
15.2基于Transformer模型的BERT模型應(yīng)用實(shí)例
15.2.1Hugging Face Transformers庫(kù)
15.2.2基于Transformers庫(kù)的BERT應(yīng)用實(shí)例
15.2.3訓(xùn)練一個(gè)基于BERT模型的文本多分類任務(wù)模型
15.3本章總結(jié)
第16章Transformer模型計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)嵗?/p>
16.1Vision Transformer模型預(yù)訓(xùn)練
16.1.1Vision Transformer模型預(yù)訓(xùn)練數(shù)據(jù)集
16.1.2Vision Transformer模型預(yù)訓(xùn)練權(quán)重
16.1.3訓(xùn)練Vision Transformer模型
16.1.4使用Vision Transformer預(yù)訓(xùn)練模型進(jìn)行對(duì)象分類
16.2Swin Transformer模型實(shí)例
16.2.1Swin Transformer預(yù)訓(xùn)練模型
16.2.2訓(xùn)練 Swin Transformer模型
16.2.3使用Swin Transformer預(yù)訓(xùn)練模型進(jìn)行對(duì)象分類
16.3使用DETR預(yù)訓(xùn)練模型進(jìn)行對(duì)象檢測(cè)
16.4本章總結(jié)
第17章Transformer模型音頻領(lǐng)域?qū)嵗?/p>
17.1語(yǔ)音識(shí)別模型
17.1.1Whisper語(yǔ)音識(shí)別模型簡(jiǎn)介
17.1.2Whisper語(yǔ)音識(shí)別模型的代碼實(shí)現(xiàn)
17.2語(yǔ)音合成模型
17.2.1ChatTTS語(yǔ)音合成模型簡(jiǎn)介
17.2.2ChatTTS語(yǔ)音合成模型的代碼實(shí)現(xiàn)
17.3本章總結(jié)
參考文獻(xiàn)
致謝