動(dòng)手學(xué)計(jì)算機(jī)視覺
定 價(jià):89.8 元
叢書名:新一代人工智能實(shí)戰(zhàn)型人才培養(yǎng)系列教程
- 作者:沈?yàn)?司翀杰 楊辰 俞勇
- 出版時(shí)間:2025/2/1
- ISBN:9787115635754
- 出 版 社:人民郵電出版社
- 中圖法分類:TP302.7
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書著眼于計(jì)算機(jī)視覺教學(xué)實(shí)踐,系統(tǒng)地介紹了計(jì)算機(jī)視覺的基本內(nèi)容及其代碼實(shí)現(xiàn)。
本書包含4個(gè)部分:第一部分為計(jì)算機(jī)視覺導(dǎo)論,帶領(lǐng)讀者初步了解計(jì)算機(jī)視覺。第二部分為計(jì)算機(jī)視覺中的圖像處理基礎(chǔ),介紹了圖像濾波、特征檢測(cè)、圖像拼接、圖像分割等經(jīng)典的圖像處理算法;第三部分為計(jì)算機(jī)視覺中的視覺識(shí)別方法,主要講解基于深度學(xué)習(xí)的視覺識(shí)別方法,包括基于深度學(xué)習(xí)的圖像分類、語義分割、目標(biāo)檢測(cè)、動(dòng)作識(shí)別等;第四部分為計(jì)算機(jī)視覺中的場(chǎng)景重建,主要討論照相機(jī)標(biāo)定、運(yùn)動(dòng)場(chǎng)和光流、平行雙目視覺以及三維重建。本書將計(jì)算機(jī)視覺算法原理與實(shí)踐相結(jié)合,以大量示例和代碼帶領(lǐng)讀者走進(jìn)計(jì)算機(jī)視覺的世界,讓讀者對(duì)計(jì)算機(jī)視覺的研究?jī)?nèi)容、基本原理有基本認(rèn)識(shí)。
本書適合對(duì)計(jì)算機(jī)視覺感興趣的專業(yè)技術(shù)人員和研究人員閱讀,同時(shí)適合作為人工智能相關(guān)專業(yè)計(jì)算機(jī)視覺課程的教材。
·名家作品:上海交通大學(xué)ACM班創(chuàng)始人俞勇教授、上海交通大學(xué)教授沈?yàn)樽髌罚?br>
·加州大學(xué)、中科院、復(fù)旦大學(xué)等多所院校學(xué)科帶頭人推薦。
·理論系統(tǒng)、扎實(shí),源自上海交通大學(xué)人工智能(卓越人才試點(diǎn)班)計(jì)算機(jī)視覺課程講義。
·配套資源豐富:在線代碼運(yùn)行環(huán)境+在線視頻課程+習(xí)題+配套課件,真正實(shí)現(xiàn)“動(dòng)手學(xué)”計(jì)算機(jī)視覺。
沈?yàn),上海交通大學(xué)教授,博士生導(dǎo)師,上海交通大學(xué)人工智能(卓越人才試點(diǎn)班)計(jì)算機(jī)視覺課程授課教師。國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金獲得者,多次擔(dān)任計(jì)算機(jī)視覺相關(guān)領(lǐng)域頂級(jí)國(guó)際會(huì)議(如CVPR、ICCV、NeurIPS)的領(lǐng)域主席。研究領(lǐng)域包括計(jì)算機(jī)視覺、模式識(shí)別與深度學(xué)習(xí),以及這些技術(shù)在醫(yī)學(xué)輔助診斷等場(chǎng)景中的應(yīng)用。
司翀杰,上海交通大學(xué)人工智能研究院博士生,研究方向?yàn)榇竽P偷母咝в?xùn)練,并在AAAI、
KDD、ECCV和TKDE等頂級(jí)會(huì)議或期刊上發(fā)表過多篇高水平論文。
俞勇,享受國(guó)務(wù)院特殊津貼專家,首批“國(guó)家高層次人才特殊支持計(jì)劃”教學(xué)名師,上海交通大學(xué)特聘教授,上海交通大學(xué)ACM班創(chuàng)始人,APEX數(shù)據(jù)與知識(shí)管理實(shí)驗(yàn)室主任。曾獲得“全國(guó)模范教師”“全國(guó)師德標(biāo)兵”“CCF杰出教育獎(jiǎng)”“上海市五一勞動(dòng)獎(jiǎng)?wù)隆焙汀吧虾=煌ù髮W(xué)校長(zhǎng)獎(jiǎng)”等榮譽(yù)。2018年創(chuàng)辦了伯禹人工智能學(xué)院,在上海交通大學(xué)ACM班人工智能專業(yè)課程體系的基礎(chǔ)上,對(duì)人工智能課程體系進(jìn)行創(chuàng)新,致力于培養(yǎng)卓越的人工智能算法工程師和研究員。
楊辰,上海交通大學(xué)人工智能研究院博士生,獲得MICCAI 2023青年科學(xué)家獎(jiǎng),研究方向?yàn)閺?fù)雜場(chǎng)景下的三維與四維重建,并在TOG、CVPR、ICCV和TMI等頂級(jí)會(huì)議或期刊上發(fā)表過多篇高水平論文。
第 一部分 計(jì)算機(jī)視覺導(dǎo)論
第 1章 初探計(jì)算機(jī)視覺 2
1.1 什么是計(jì)算機(jī)視覺 2
1.2 為什么需要計(jì)算機(jī)視覺 3
1.3 計(jì)算機(jī)視覺的難點(diǎn)與挑戰(zhàn) 3
1.4 計(jì)算機(jī)視覺的歷史與發(fā)展 5
1.5 計(jì)算機(jī)視覺中變量的數(shù)學(xué)符號(hào)約定 6
1.6 小結(jié) 7
第二部分 圖像處理
第 2章 卷積 10
2.1 簡(jiǎn)介 10
2.2 一維卷積 11
2.2.1 沖激信號(hào) 14
2.2.2 方波信號(hào) 15
2.3 二維卷積 16
2.3.1 沖激信號(hào) 18
2.3.2 方波信號(hào) 20
2.4 小結(jié) 21
第3章 圖像濾波 22
3.1 簡(jiǎn)介 22
3.2 圖像噪聲 22
3.2.1 椒鹽噪聲 22
3.2.2 高斯噪聲 24
3.3 均值濾波 24
3.4 高斯濾波 27
3.5 雙邊濾波 30
3.6 中值濾波 32
3.7 圖像銳化 34
3.8 小結(jié) 35
第4章 模板匹配 37
4.1 簡(jiǎn)介 37
4.2 模板匹配的實(shí)現(xiàn) 37
4.2.1 匹配步驟 38
4.2.2 相似度度量 38
4.3 多目標(biāo)模板匹配 42
4.4 小結(jié) 45
第5章 邊緣檢測(cè) 46
5.1 簡(jiǎn)介 46
5.2 邊緣檢測(cè)的數(shù)學(xué)模型 46
5.3 邊緣檢測(cè)算法 48
5.3.1 Sobel邊緣檢測(cè)算法 48
5.3.2 Canny邊緣檢測(cè)算法 51
5.4 小結(jié) 62
5.5 參考文獻(xiàn) 62
第6章 角點(diǎn)檢測(cè) 63
6.1 簡(jiǎn)介 63
6.2 Harris角點(diǎn)檢測(cè)算法 64
6.2.1 計(jì)算像素值變化量 64
6.2.2 計(jì)算角點(diǎn)響應(yīng)函數(shù) 66
6.3 代碼實(shí)現(xiàn) 67
6.4 圖像變換對(duì)角點(diǎn)檢測(cè)的影響 70
6.5 小結(jié) 71
第7章 SIFT特征檢測(cè) 72
7.1 塊狀區(qū)域檢測(cè)與尺度空間 72
7.2 SIFT算法 76
7.2.1 局部極值點(diǎn)檢測(cè) 76
7.2.2 特征點(diǎn)定位與篩選 77
7.2.3 特征點(diǎn)方向計(jì)算 79
7.2.4 特征點(diǎn)描述 80
7.3 代碼實(shí)現(xiàn) 81
7.4 小結(jié) 94
7.5 參考文獻(xiàn) 94
第8章 圖像拼接 95
8.1 簡(jiǎn)介 95
8.2 圖像變換 96
8.3 圖像拼接算法 97
8.3.1 計(jì)算變換矩陣 98
8.3.2 利用RANSAC算法去除誤匹配 99
8.3.3 圖像變換與縫合 101
8.4 代碼實(shí)現(xiàn) 101
8.5 小結(jié) 106
8.6 拓展閱讀 107
第9章 圖像分割 108
9.1 簡(jiǎn)介 108
9.2 圖像分割算法 109
9.2.1 基于k均值聚類的圖像分割算法 109
9.2.2 基于圖切割的圖像分割算法 113
9.3 小結(jié) 117
9.4 參考文獻(xiàn) 118
第三部分 視覺識(shí)別
第 10章 圖像分類 120
10.1 簡(jiǎn)介 120
10.2 數(shù)據(jù)集和度量 122
10.3 基于視覺詞袋模型的圖像分類算法 122
10.4 基于深度卷積網(wǎng)絡(luò)的圖像分類算法 128
10.5 小結(jié) 138
10.6 參考文獻(xiàn) 138
第 11章 語義分割 140
11.1 簡(jiǎn)介 140
11.2 數(shù)據(jù)集和度量 141
11.3 全卷積網(wǎng)絡(luò) 141
11.3.1 上采樣 143
11.3.2 跳躍連接 145
11.4 FCN代碼實(shí)現(xiàn) 149
11.5 小結(jié) 156
11.6 參考文獻(xiàn) 156
第 12章 目標(biāo)檢測(cè) 157
12.1 簡(jiǎn)介 157
12.2 數(shù)據(jù)集和度量 158
12.3 目標(biāo)檢測(cè)模型 159
12.3.1 R-CNN 160
12.3.2 Fast R-CNN 162
12.3.3 Faster R-CNN 166
12.4 RPN代碼整體框架 168
12.4.1 訓(xùn)練模塊 173
12.4.2 head模塊 179
12.4.3 anchor_generator模塊 180
12.4.4 box_coder模塊 184
12.4.5 filter_proposal模塊 188
12.5 代碼運(yùn)行示例 191
12.6 小結(jié) 194
12.7 參考文獻(xiàn) 194
第 13章 實(shí)例分割 195
13.1 簡(jiǎn)介 195
13.2 數(shù)據(jù)集和度量 196
13.3 Mask R-CNN 196
13.3.1 特征金字塔網(wǎng)絡(luò) 197
13.3.2 感興趣區(qū)域?qū)R 200
13.4 代碼運(yùn)行示例 205
13.5 小結(jié) 208
13.6 參考文獻(xiàn) 209
第 14章 人體姿態(tài)估計(jì) 210
14.1 簡(jiǎn)介 210
14.2 數(shù)據(jù)集和度量 211
14.2.1 數(shù)據(jù)集 211
14.2.2 評(píng)測(cè)指標(biāo) 211
14.3 人體姿態(tài)估計(jì)模型——DeepPose 212
14.3.1 基于深度神經(jīng)網(wǎng)絡(luò)的人體姿態(tài)估計(jì) 212
14.3.2 級(jí)聯(lián)回歸 213
14.4 DeepPose代碼實(shí)現(xiàn) 215
14.5 小結(jié) 217
14.6 參考文獻(xiàn) 218
第 15章 動(dòng)作識(shí)別 219
15.1 簡(jiǎn)介 219
15.2 數(shù)據(jù)集和度量 220
15.2.1 數(shù)據(jù)集 220
15.2.2 評(píng)測(cè)指標(biāo) 220
15.3 動(dòng)作識(shí)別模型——C3D 220
15.3.1 三維卷積 221
15.3.2 C3D模型 223
15.4 C3D代碼實(shí)現(xiàn) 224
15.5 小結(jié) 225
15.6 參考文獻(xiàn) 226
第四部分 場(chǎng)景重建
第 16章 照相機(jī)標(biāo)定 228
16.1 簡(jiǎn)介 228
16.2 照相機(jī)成像原理 228
16.2.1 照相機(jī)模型 229
16.2.2 坐標(biāo)系的定義 229
16.2.3 照相機(jī)外參 229
16.2.4 照相機(jī)內(nèi)參 230
16.2.5 投影矩陣 232
16.2.6 畸變 233
16.3 照相機(jī)標(biāo)定的實(shí)現(xiàn) 235
16.3.1 標(biāo)定板 235
16.3.2 標(biāo)定流程 236
16.3.3 代碼實(shí)現(xiàn) 238
16.4 小結(jié) 247
第 17章 運(yùn)動(dòng)場(chǎng)和光流 248
17.1 簡(jiǎn)介 248
17.2 運(yùn)動(dòng)場(chǎng) 249
17.3 光流 250
17.3.1 特征點(diǎn)法 250
17.3.2 直接法 250
17.3.3 Lucas-Kanade光流法 251
17.3.4 Lucas-Kanade光流法的改進(jìn) 252
17.4 代碼實(shí)現(xiàn) 253
17.5 小結(jié) 261
17.6 參考文獻(xiàn) 261
第 18章 平行雙目視覺 262
18.1 簡(jiǎn)介 262
18.2 平行雙目照相機(jī) 262
18.2.1 概念定義 262
18.2.2 視差 263
18.2.3 雙目特征匹配 264
18.2.4 全局優(yōu)化 265
18.3 代碼實(shí)現(xiàn) 266
18.4 小結(jié) 270
18.5 參考文獻(xiàn) 271
第 19章 三維重建 272
19.1 簡(jiǎn)介 272
19.2 對(duì)極幾何 273
19.2.1 數(shù)學(xué)定義 273
19.2.2 本質(zhì)矩陣 275
19.2.3 利用八點(diǎn)法求解基礎(chǔ)矩陣 277
19.2.4 通過本質(zhì)矩陣求解照相機(jī)位姿 278
19.3 三角測(cè)量 278
19.4 代碼實(shí)現(xiàn) 280
19.5 小結(jié) 290
總結(jié)與展望 291
中英文術(shù)語對(duì)照表 293