本書是一本系統(tǒng)介紹三維感知算法及其在自動駕駛中應用的實用指南。全書從基礎理論出發(fā),結合前沿算法與實戰(zhàn)案例,深入講解了三維感知的核心技術,涵蓋傳感器原理、數(shù)學基礎、深度學習模型、多模態(tài)融合以及端到端算法等,旨在幫助讀者全面掌握三維環(huán)境感知的關鍵技術,并具備實際工程落地的能力。
本書內(nèi)容循序漸進,從基礎的立體幾何、深度學習知識,到復雜的三維場景理解,構建系統(tǒng)化的知識體系,呈現(xiàn)清晰學習路徑;兼具前沿性,詳細解讀基于圖像、LiDAR 和多傳感器融合的最新算法;同時,書中提供了大量代碼示例和項目案例,幫助讀者在實踐中應用所學知識,解決實際問題。
本書適合自動駕駛領域的研究人員、工程師以及對三維感知算法感興趣的學生和愛好者閱讀學習。
第1章 概述 001
1.1 三維感知簡介 002
1.2 本書主要內(nèi)容概覽 002
第2章 傳感器 005
2.1 相機 006
2.1.1 相機的成像原理 006
2.1.2 相機的內(nèi)參和外參 007
2.1.3 圖像 008
2.2 激光雷達 010
2.2.1 激光雷達的測距原理 010
2.2.2 激光雷達的硬件參數(shù) 011
2.2.3 激光雷達點云 014
2.3 毫米波雷達 016
2.3.1 毫米波雷達的測距原理 016
2.3.2 毫米波雷達的硬件參數(shù) 017
2.3.3 毫米波雷達點云 018
2.4 不同傳感器的互補作用 020
第3章 三維感知任務 022
3.1 靜態(tài)感知 023
3.1.1 語義分割 023
3.1.2 實例分割 027
3.1.3 全景分割 030
3.2 動態(tài)感知 032
3.2.1 物體檢測 032
3.2.2 物體跟蹤 035
3.2.3 軌跡預測 038
3.3 通用障礙物感知 040
3.3.1 占用網(wǎng)格語義分割 041
3.3.2 占用網(wǎng)格場景流 042
第4章 感知算法基礎 045
4.1 立體幾何 046
4.2 深度學習 059
4.2.1 卷積神經(jīng)網(wǎng)絡 060
4.2.2 Transformer 079
第5章 單傳感器感知 090
5.1 純視覺感知算法 091
5.1.1 前視圖感知 091
5.1.2 鳥瞰圖感知 106
5.2 激光雷達感知算法 128
5.2.1 基于點的方法 129
5.2.2 基于體素的方法 151
5.2.3 基于二維投影的方法 162
5.2.4 基于多視圖融合的方法 170
第6章 多傳感器融合感知 194
6.1 激光雷達和相機融合 195
6.1.1 BEVFusion 196
6.1.2 DeepInteraction 201
6.2 毫米波雷達和相機融合 212
6.2.1 CenterFusion 213
6.2.2 Simple-BEV 217
第7章 端到端自動駕駛算法 226
7.1 端到端自動駕駛算法的發(fā)展歷程 228
7.1.1 NVIDIA PilotNet 的里程碑 228
7.1.2 強化學習的應用 230
7.1.3 端到端方法的多樣化 230
7.2 端到端自動駕駛算法研究進展 232
7.2.1 UniAD 232
7.2.2 FusionAD 244
7.3 端到端自動駕駛算法的挑戰(zhàn)與應對 250
參考文獻 251