本書講述了深度學習架構(gòu)與實踐,共分為兩個部分,第1部分(即第1~6章)為基礎理論,主要對深度學習的理論知識進行了詳細的講解;第2部分(即第7~12章)為應用實踐,以具體的實際案例為場景,通過理論和實踐相結(jié)合的講解方式使讀者能夠?qū)ι疃葘W習技術(shù)有更好的理解。本書可以為讀者提供一條輕松、快速入門深度學習的路徑,有側(cè)重地闡明深度學習的經(jīng)典知識和核心要點,從架構(gòu)和實踐兩個方面,讓讀者對深度學習的系統(tǒng)架構(gòu)和若干領域的應用實踐有清晰和深入的掌握。
本書適合計算機軟件相關(guān)專業(yè)的高年級本科生或研究生,以及所有想要學習深度學習或從事計算機視覺算法開發(fā)的讀者閱讀。
目錄
前言
緒論1
第1章 深度學習的架構(gòu)8
1.1如何區(qū)分人工智能、機器學習、深度學習8
1.1.1人工智能:從概念提出到走向繁榮8
1.1.2機器學習:一種實現(xiàn)人工智能的方法9
1.1.3深度學習:一種實現(xiàn)機器學習的技術(shù)9
1.1.4人工智能、機器學習和深度學習的關(guān)系9
1.2深度學習的發(fā)展歷史及研究現(xiàn)狀10
1.2.1深度學習的發(fā)展歷史10
1.2.2深度學習的研究現(xiàn)狀11
1.3深度學習的基本內(nèi)容及理論基礎13
1.3.1深度學習的基本內(nèi)容13
1.3.2深度學習的理論基礎15
1.4深度學習的發(fā)展趨勢與未來15
1.4.1深度學習的發(fā)展趨勢15
1.4.2深度學習的未來16
第2章 深度學習相關(guān)數(shù)學基礎17
2.1線性代數(shù)17
2.1.1標量、向量、矩陣和張量17
2.1.2矩陣和向量相乘18
2.1.3單位矩陣和逆矩陣19
2.1.4線性相關(guān)和生成子空間19
2.1.5范數(shù)21
2.1.6特殊類型的矩陣和向量22
2.1.7特征分解23
2.1.8奇異值分解24
2.1.9Moore-Penrose偽逆25
2.1.10跡運算25
2.1.11行列式26
2.1.12主成分分析26
2.2概率論與信息論29
2.2.1隨機試驗、頻率與概率、隨機變量29
2.2.2隨機變量的分布情況30
2.2.3二維隨機變量31
2.2.4期望、方差、協(xié)方差、相關(guān)系數(shù)33
2.2.5常用的概率分布34
2.2.6常用函數(shù)的有用性質(zhì)37
2.2.7連續(xù)型變量的技術(shù)細節(jié)39
2.2.8信息論40
2.2.9結(jié)構(gòu)化概率模型41
2.3擬合、梯度下降與傳播43
2.3.1過擬合和欠擬合43
2.3.2隨機梯度下降44
2.3.3正向傳播與反向傳播47
第3章 神經(jīng)網(wǎng)絡的架構(gòu)48
3.1神經(jīng)網(wǎng)絡與神經(jīng)元48
3.2深度神經(jīng)網(wǎng)絡的概念與結(jié)構(gòu)49
3.2.1深度神經(jīng)網(wǎng)絡的概念49
3.2.2深度神經(jīng)網(wǎng)絡的結(jié)構(gòu)49
3.3深度神經(jīng)網(wǎng)絡的分類50
3.3.1前饋深度網(wǎng)絡50
3.3.2反饋深度網(wǎng)絡51
3.3.3雙向深度網(wǎng)絡51
3.4自動編碼器與玻爾茲曼機51
3.4.1自動編碼器51
3.4.2玻爾茲曼機52
第4章 卷積神經(jīng)網(wǎng)絡53
4.1卷積神經(jīng)網(wǎng)絡的概念53
4.2卷積神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)54
4.2.1卷積層55
4.2.2池化層56
4.2.3全連接層56
4.3非線性層與激活函數(shù)57
4.3.1Sigmoid激活函數(shù)57
4.3.2Tanh函數(shù)59
4.3.3Relu函數(shù)60
4.4感受野與權(quán)值共享61
4.4.1局部感受野61
4.4.2權(quán)值共享61
4.5卷積神經(jīng)網(wǎng)絡與反卷積神經(jīng)網(wǎng)絡62
4.5.1卷積神經(jīng)網(wǎng)絡及其特點62
4.5.2反卷積神經(jīng)網(wǎng)絡及其特點63
4.6卷積神經(jīng)網(wǎng)絡的訓練63
第5章 循環(huán)神經(jīng)網(wǎng)絡64
5.1RNN的概念64
5.2RNN的結(jié)構(gòu)64
5.3RNN的訓練65
5.3.1反向傳播算法的原理65
5.3.2反向傳播算法的步驟65
5.4RNN的實現(xiàn)71
5.4.1梯度爆炸與梯度消失71
5.4.2基于RNN的語言模型例子71
5.4.3語言模型訓練過程73
5.5RNN的發(fā)展74
5.5.1雙向循環(huán)神經(jīng)網(wǎng)絡74
5.5.2長短時記憶結(jié)構(gòu)75
第6章 生成對抗網(wǎng)絡776.1GAN的概念77
6.1.1對抗思想與GAN77
6.1.2最大似然估計及最優(yōu)化問題79
6.1.3GAN的訓練過程81
6.2GAN的原理82
6.2.1生成器82
6.2.2判別器83
6.3GAN的應用84
6.4GAN的發(fā)展85
6.4.1GAN的優(yōu)缺點85
6.4.2GAN的未來發(fā)展方向86
第7章 Python相關(guān)基礎877.1Python程序結(jié)構(gòu)87
7.1.1循環(huán)結(jié)構(gòu)87
7.1.2分支結(jié)構(gòu)89
7.2NumPy操作90
7.2.1NumPy的主要特點91
7.2.2ndarray91
7.2.3NumPy-數(shù)據(jù)類型94
7.2.4NumPy-數(shù)組屬性94
7.2.5NumPy-數(shù)組創(chuàng)建例程96
7.2.6NumPy-切片和索引98
7.2.7NumPy-字符串函數(shù)99
7.2.8NumPy-算數(shù)函數(shù)100
7.2.9NumPy-算數(shù)運算100
7.2.10NumPy-統(tǒng)計函數(shù)101
7.2.11NumPy-排序、搜索和計數(shù)函數(shù)102
7.2.12NumPy-字節(jié)交換103
7.2.13NumPy-副本和視圖103
7.2.14NumPy-矩陣庫104
7.2.15NumPy-線性代數(shù)105
7.3函數(shù)105
7.3.1Python中函數(shù)的應用105
7.3.2Python函數(shù)的定義107
7.3.3Python函數(shù)的調(diào)用108
7.3.4為函數(shù)提供說明文檔109
7.4第三方資源110
第8章 TensorFlow、Theano、Caffe的框架與安裝113
8.1TensorFlow的框架與安裝113
8.1.1TensorFlow的簡介113
8.1.2TensorFlow的架構(gòu)113
8.1.3TensorFlow的特點114
8.1.4TensorFlow的安裝114
8.2Theano的框架與安裝118
8.2.1Theano的簡介118
8.2.2Theano的安裝119
8.3Caffe的架構(gòu)與安裝121
8.3.1Caffe的簡介121
8.3.2Caffe的安裝122
第9章 TensorFlow、Theano、Caffe的原理及應用124
9.1TensorFlow的原理及應用124
9.1.1TensorFlow的工作原理124
9.1.2TensorFlow的簡單應用126
9.1.3TensorFlow的復雜應用129
9.2Theano的基本語法及應用145
9.2.1Theano的基本語法145
9.2.2Theano在Windows下的常用實例149
9.2.3用Theano來編寫一個簡單的神經(jīng)網(wǎng)絡154
9.3Caffe的結(jié)構(gòu)、寫法及應用157
9.3.1Caffe的結(jié)構(gòu)157
9.3.2Caffe的寫法157
9.3.3Caffe的訓練與測試167
第10章 手寫數(shù)字識別實例177
10.1字符識別的意義177
10.2字符識別的設計與實現(xiàn)177
10.2.1實驗簡介177
10.2.2實驗環(huán)境搭建178
10.3單層神經(jīng)網(wǎng)絡搭建178
10.3.1網(wǎng)絡搭建過程178
10.3.2梯度下降180
10.4多層神經(jīng)網(wǎng)絡搭建183
10.4.1Sigmoid激活函數(shù)184
10.4.2Relu激活函數(shù)184
10.4.3衰減學習率187
10.4.4添加dropout解決過擬合現(xiàn)象188
10.5卷積神經(jīng)網(wǎng)絡190
第11章 自動生成圖像描述實例195
11.1自動生成圖像描述的目標195
11.2自動生成圖像描述的設計198
11.3語言生成模型201
11.4自動生成圖像描述的實現(xiàn)203
11.5實驗結(jié)果及分析221
第12章 唇語識別實例225
12.1唇語識別技術(shù)的目標225
12.2特征提取225
12.2.1CNN的唇部視覺特征提取225
12.2.2RNN的時序特征提取226
12.2.3特征分類算法SVM、KNN、Softmax228
12.3唇語識別模型網(wǎng)絡架構(gòu)230
12.3.1抽取視頻幀算法與視頻唇部區(qū)域定位230
12.3.2圖像特征提取網(wǎng)絡架構(gòu)233
12.3.3基于注意力機制的時間特征提取架構(gòu)234
12.3.4唇語識別模型與整體識別流程235
12.4實驗結(jié)果及分析239
12.4.1數(shù)據(jù)集與預處理239
12.4.2實驗結(jié)果239
12.4.3可視化分析242
參考文獻246