電腦視覺十講
查紅彬 著,查紅彬 等 編
- 出版商: 機械工業
- 出版日期: 2025-02-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- 頁數: 517
- 裝訂: 平裝
- ISBN: 711175686X
- ISBN-13: 9787111756866
-
相關分類:
Computer Vision
下單後立即進貨 (約4週~6週)
商品描述
電腦視覺是人工智能的重要分支,其研究是電腦系統智慧化的第一步,也是實現人工智能的橋樑。
本書面向電腦視覺,聚焦前沿演算法理論,分別講述了影像分類、偵測、生成、視訊處理等電腦視覺領域的研究重點,
也對電腦視覺的基本概念和電腦視覺研究的預備知識進行了簡要介紹,幫助讀者在建立完整的電腦視覺知識框架的同時,
打下較為堅實的基礎,為進一步在電腦視覺和相關領域提出新設想、開發新演算法、解決新問題創造良好的條件。
本書可作為人工智能專業和電腦類相關專業的低年級研究生學習電腦視覺的參考書,
也可作為從事電腦視覺技術研究工作的科研人員的自學用書。
目錄大綱
叢書序
「十講」序
推薦序
前言
第 1 講 底層視覺
1.1 底層視覺概述 /2
1.1.1 底層視覺定義 /2
1.1.2 傳統底層視覺方法 /2
1.2 基於數學模型的底層視覺方法 /4
1.2.1 全變分模型 /4
1.2.2 稀疏和低秩模型 /7
1.2.3 小結 /13
1.3 基於深度學習的底層視覺方法 /13
1.3.1 影像去噪聲 /14
1.3.2 影像超分辨率 /17
1.3.3 基於 VGG 模型的影像超分辨率方法 /17
1.3.4 影像去模糊 /21
1.4 底層視覺的挑戰與展望 /26
參考文獻 /26
第 2 講 影像品質評價
2.1 全參考/部分參考型影像品質評估 /34
2.1.1 全參考型影像品質評估 /34
2.1.2 部分參考型影像品質評估 /37
2.2 無參考型影像品質評估 /38
2.2.1 基於統計學的無參考型影像品質評估 /39
2.2.2 基於深度學習的無參考型影像品質評估 /40
2.3 影像美學品質評估 /45
2.3.1 大眾化圖像美學評估 /48
2.3.2 個人化影像美學評估 /63
2.4 總結與展望 /70
參考文獻 /70
第 3 講 影像分割
3.1 影像分割概述 /80
3.1.1 早期影像分割 /80
3.1.2 語意分割 /80
3.1.3 實例分割與全景分割 /81
3.1.4 其他分割問題 /81
3.2 影像語意分割 /82
3.2.1 背景與問題 /82
3.2.2 基於傳統特徵的影像語意分割 /82
3.2.3 基於深度特徵的影像語意分割 /82
3.3 影像實例分割 /88
3.3.1 問題定義 /88
3.3.2 兩階段實例分割 /89
3.3.3 一階段實例分割 /91
3.3.4 基於 Transformer 的實例分割 /93
3.4 影像全景分割 /95
3.4.1 問題定義 /95
3.4.2 子任務分離的全景分割 /96
3.4.3 子任務統一的全景分割 /98
3.5 弱監督影像分割 /99
3.5.1 基於超像素的方法 /100
3.5.2 基於分類網絡的方法 /101
3.6 跨域影像分割 /103
3.6.1 基於風格遷移的輸入級影像對齊 /103
3.6.2 基於域不變特徵發掘的中間級特徵對齊 /104
3.6.3 基於標籤分佈發掘的輸出級預測結果對齊 /105
3.7 醫療影像分割 /106
3.7.1 全監督醫療影像分割 /108
3.7.2 弱監督醫療影像分割 /112
參考文獻 /114
第 4 講 目標偵測
4.1 目標偵測概述 /128
4.1.1 目標偵測的概念 /128
4.1.2 目標偵測的研究意義 /128
4.1.3 目標偵測的發展路線 /130
4.1.4 小結 /134
4.2 非深度學習目標偵測方法 /134
4.2.1 影像匹配方法 /134
4.2.2 機器學習方法 /137
4.2.3 小結 /139
4.3 深度學習目標偵測方法 /139
4.3.1 深度學習簡介 /139
4.3.2 深度學習模型 /140
4.3.3 基於深度學習的方法架構 /143
4.4 評價指標和資料集 /148
4.4.1 資料集 /148
4.4.2 評價指標 /150
4.5 討論與展望 /151
4.5.1 目標偵測面臨的挑戰 /151
4.5.2 目標偵測的發展趨勢 /152
參考文獻 /154
第 5 講 目標跟蹤
5.1 引言 /162
5.2 目標追蹤概述 /162
5.2.1 目標追蹤的基本概念 /162
5.2.2 目標追蹤的分類方式 /163
5.2.3 目標追蹤的研究意義 /164
5.2.4 小結 /165
5.3 單目標追蹤 /165
5.3.1 傳統方法 /165
5.3.2 深度學習方法 /167
5.3.3 資料集與評估指標 /182
5.3.4 小結 /184
5.4 多目標追蹤 /185
5.4.1 多目標關聯技術 /186
5.4.2 一體化多目標追蹤技術 /191
5.4.3 資料集與評估指標 /194
5.4.4 小結 /196
5.5 其他追蹤問題 /196
5.5.1 視訊目標偵測與多目標追蹤 /196
5.5.2 視訊實例分割中的追蹤問題 /196
5.5.3 半監督視訊物件分割 /198
5.5.4 小結 /199
5.6 應用 /199
5.6.1 目標追蹤與安防監控 /199
5.6.2 目標追蹤與智慧機器人 /200
5.6.3 目標追蹤與自動駕駛 /201
5.6.4 無人機精準追蹤 /202
5.6.5 追蹤輔助視訊標註 /204
5.7 總結與展望 /204
5.7.1 目標追蹤面臨的挑戰 /204
5.7.2 目標追蹤的發展趨勢 /207
5.7.3 小結 /208
參考文獻 /208
第 6 講 行人重識別
6.1 行人重識別的定義與常用方法 /228
6.1.1 背景與問題 /228
6.1.2 常用方法 /229
6.2 行人重識別中的小樣本問題 /232
6.2.1 弱監督建模 /232
6.2.2 無監督建模 /234
6.2.3 遷移學習建模 /240
6.3 行人重識別中的開放性建模問題 /242
6.3.1 遮擋問題 /242
6.3.2 跨模態問題 /250
6.3.3 換裝題 /263
6.3.4 其他問題 /267
參考文獻 /270
第 7 講 視訊行為識別
7.1 引言 /284
7.2 視訊行為辨識資料集 /285
7.2.1 通用行為識別資料集 /286
7.2.2 骨架行為辨識資料集 /287
7.2.3 群體行為辨識資料集 /288
7.2.4 時域行為定位資料集 /288
7.2.5 時空行為定位資料集 /289
7.2.6 音視頻行為定位資料集 /290
7.3 視訊行為分類 /291
7.3.1 基於手工特徵的視訊行為分類方法概述 /291
7.3.2 基於深度學習的視訊行為分類方法概述 /295
7.3.3 常用方法 /296
7.4 行為定位 /302
7.4.1 時域行為定位 /302
7.4.2 時空行為定位 /311
7.5 骨架行為辨識 /316
7.5.1 早期骨架行為辨識方法 /317
7.5.2 基於深度學習的骨架行為辨識 /317
7.5.3 總結與展望 /325
7.6 多模態行為辨識 /326
7.6.1 基於文字的影片定位 /326
7.6.2 音視頻行為識別 /330
7.7 互動及組群行為辨識 /337
7.7.1 交互行為辨識 /337
7.7.2 組群行為辨識 /343
7.7.3 群體行為辨識的未來研究趨勢 /349
參考文獻 /350
第 8 講 視覺與語言
8.1 視覺與語言的定義 /376
8.1.1 背景與意義 /376
8.1.2 典型任務與方法 /379
8.2 視覺語言的典型框架 /383
8.2.1 傳統方法 /383
8.2.2 預訓練方法 /385
8.2.3 其他方面 /386
8.3 視覺語言的語意關聯與建模 /388
8.3.1 註意力機制建模 /390
8.3.2 圖結構建模 /391
8.3.3 生成式建模 /392
8.3.4 其他建模 /393
8.4 視覺語言的預訓練技術 /396
8.4.1 單模態主幹網絡 /397
8.4.2 視覺與語言架構 /399
8.4.3 預訓練任務與下游任務 /401
8.4.4 預訓練資料集 /405
8.5 視覺語言發展趨勢與展望 /407
參考文獻 /409
第 9 講 影像的三維重建
9.1 背景介紹 /426
9.2 傳統三維重建方法回顧 /427
9.2.1 經典多視點幾何三維重建 /427
9.2.2 經典光度立體三維重建 /428
9.2.3 常見資料擷取設備 /429
9.3 深度學習對基於不同形狀表達的三維重建 /431
9.3.1 基於體素的顯式三維表達 /431
9.3.2 基於多邊形網格的明確三維表達 /437
9.3.3 基於隱式輻射場的三維表達 /443
9.4 三維重建與三維生成 /450
9.4.1 基於擴散生成大模型分數蒸餾的三維生成 /451
9.4.2 基於預訓練三維重建模型與擴散生成模型的三維生成 /452
參考文獻 /454
第 10 講 SLAM
10.1 基礎知識 /464
10.1.1 相機模型 /464
10.1.2 多視圖幾何原理 /467
10.2 SLAM 的分類 /472
10.2.1 基於濾波的 SLAM /472
10.2.2 基於最佳化的 SLAM /474
10.2.3 以深度學習為基礎的 SLAM /476
10.3 視覺 SLAM /478
10.3.1 初始化 /479
10.3.2 前臺即時追蹤 /480
10.3.3 後端最佳化 /482
10.3.4 重定位 /483
10.3.5 迴路閉合 /485
10.4 視覺慣性 SLAM /486
10.4.1 IMU 模型 /487
10.4.2 前端模組 /489
10.4.3 後端模組 /491
10.5 融合深度資訊的 SLAM /492
10.5.1 RGBD SLAM /493
10.5.2 雷射視覺慣性 SLAM /502
10.6 SLAM 發展趨勢與展望 /508
參考文獻 /509