數字音視頻技術及Python實現

賈海蓉

相關主題

商品描述

本書系統地闡述數字音視頻技術的原理、標準、技術和應用,同時給出部分內容對應的Python實現程序。全書共10章,第1~3章介紹基本理論,包括數字音視頻技術概述、人類發音及聽覺基礎、人類視覺及感知基礎;第4~6章介紹音視頻標準,包括經典語音與音頻編碼標準、新一代語音與音頻編碼標準、視頻編碼原理與標準;第7、8章介紹基於深度學習的技術,包括深度學習驅動的視覺技術、多模態音視頻處理技術及應用;第9、10章介紹系統實踐,包括AR/VR沈浸式交互系統、數字音視頻技術開發實踐與工具。本書內容全面,重點突出,原理闡述深入淺出,註重理論與實際應用的結合,可讀性強。本書可以作為高等院校電子信息工程、通信工程、自動化、計算機技術與應用等專業高年級本科生相關課程的教材,也可供從事音視頻信號處理研究的研究生和科研人員參考。

作者簡介

賈海蓉,太原理工大學教授,碩士生導師,CCF專業會員,計算機工程、計算機工程與應用等期刊審稿人,主要從事語音信號處理與人工智能研究,擔任並參與國家級"數字音視頻技術”課程建設。

目錄大綱

第1章 數字音視頻技術概述 1
1.1 音視頻技術的發展歷程 1
1.2 數字音視頻關鍵技術 2
1.2.1 數字音視頻系統的處理流程 2
1.2.2 數字音視頻關鍵技術 3
1.3 數字音視頻技術的應用 9
1.4 技術挑戰和發展趨勢 11
習題1 13
第2章 人類發音及聽覺基礎 14
2.1 人類語音發音模型與特征 14
2.1.1 人類語音發音模型 14
2.1.2 語音信號的預處理 15
2.1.3 語音信號的特征 23
2.2 人類的聽覺模型及特性分析 45
2.2.1 人類的聽覺模型 45
2.2.2 聲音的特性參數 46
2.2.3 人耳聽覺特性分析 49
習題2 52
第3章 人類視覺及感知基礎 53
3.1 視覺模型與特性 53
3.1.1 人眼構造 53
3.1.2 可見光譜 54
3.1.3 亮度與顏色視覺 55
3.1.4 視覺特性 56
3.2 立體視覺 58
3.3 彩色模型 60
3.3.1 三基色原理與相加混色 60
3.3.2 彩度學模型 61
3.3.3 工業彩色模型 63
3.3.4 HSI模型 64
習題3 67
第4章 經典語音與音頻編碼標準 68
4.1 語音與音頻編碼分類 68
4.2 波形編碼—ADPCM 70
4.3 參數編碼—線性預測編碼 71
4.3.1 線性預測分析原理 71
4.3.2 線性預測分析原理和語音信號模型的關系 72
4.3.3 LPC-10編碼 73
4.4 混合編碼 74
4.4.1 自適應預測編碼(APC) 74
4.4.2 CELP編碼 79
4.5 感知音頻編碼原理 81
4.5.1 MPEG-1音頻編碼 81
4.5.2 MPEG-2音頻編碼 94
4.5.3 MPEG-4音頻編碼 98
習題4 100
第5章 新一代語音與音頻編碼標準 101
5.1 Opus編碼 101
5.1.1 Opus編碼原理 101
5.1.2 核心編碼原理 102
5.2 EVS編碼 105
5.2.1 EVS的編碼模式與工作原理 105
5.2.2 EVS編碼器的信號處理流程 105
5.3 AVS3-P10編碼 109
5.3.1 實時通信語音編解碼框架 109
5.3.2 AVS3-P10核心技術 110
5.3.3 典型應用場景與未來挑戰 114
5.4 端到端神經網絡編碼 114
5.4.1 神經網絡基礎模型 115
5.4.2 Lyra架構解析 117
5.4.3 SoundStream架構解析 120
習題5 127
第6章 視頻編碼原理與標準 128
6.1 預測編碼 128
6.1.1 幀內預測編碼 128
6.1.2 幀間預測編碼 131
6.1.3 運動估計 133
6.2 變換編碼 137
6.2.1 整數DCT變換 138
6.2.2 現代視頻編碼標準中的變換技術 140
6.3 熵編碼 140
6.3.1 CAVLC 141
6.3.2 CABAC 141
6.4 主流視頻編碼標準技術對比與核心差異 142
6.4.1 H.266/VVC 142
6.4.2 AV1 148
6.4.3 LCEVC 150
6.4.4 AVS3 151
6.4.5 主流視頻編碼對比 154
習題6 154
第7章 深度學習驅動的視覺技術 156
7.1 深度學習視覺基礎 156
7.1.1 卷積神經網絡架構與視頻時序建模 156
7.1.2 視頻數據預處理 157
7.1.3 經典模型 158
7.2 高級視覺任務 161
7.2.1 視頻目標檢測 161
7.2.2 視頻語義分割 168
7.2.3 動作識別 171
7.2.4 視頻生成 174
7.3 3D視覺 176
習題7 176
第8章 多模態音視頻處理技術及應用 178
8.1 多模態技術應用概述 178
8.1.1 多模態感知 178
8.1.2 常見模態及其特征表示方式 179
8.1.3 多模態信息融合 180
8.2 音視頻模態在語音增強中的應用 180
8.2.1 基於視覺線索的語音增強 181
8.2.2 基於卷積和門控註意力機制的兩階段視聽語音增強算法 181
8.3 音視頻模態在情緒識別中的應用 186
8.3.1 情緒識別中的多模態信號及識別模型 187
8.3.2 教育評估、心理健康監測與智能客服 188
8.3.3 基於教師引導的多模態融合對話情感識別網絡 189
8.4 音視頻模態在工業檢測與安全生產中的應用 195
8.4.1 設備故障預警 195
8.4.2 礦山系統安全監控 196
8.4.3 基於音視頻模態的輸送帶撕裂檢測算法 197
習題8 198
第9章 AR/VR沈浸式交互系統 199
9.1 公共數據庫 199
9.1.1 全景視頻 199
9.1.2 點雲數據 200
9.2 空間感知與定位 204
9.2.1 全景投影轉換 204
9.2.2 視覺定位 206
9.2.3 多傳感器融合 209
9.3 沈浸式媒體壓縮與傳輸 215
9.3.1 全景視頻編碼 215
9.3.2 空間音頻壓縮 219
9.3.3 點雲壓縮 220
9.4 沈浸式顯示與音頻呈現 223
9.4.1 近眼顯示技術 223
9.4.2 光場顯示技術 224
9.4.3 沈浸式音頻 225
9.5 沈浸式交互系統應用 225
9.5.1 工業AR巡檢系統 226
9.5.2 VR全景視頻傳輸系統 227
習題9 229
第10章 數字音視頻技術開發實踐與工具 230
10.1 多媒體處理工具FFmpeg 230
10.1.1 FFmpeg下載安裝 230
10.1.2 FFmpeg轉碼實戰(命令行) 232
10.1.3 FFmpeg流媒體推拉實戰(命令行) 233
10.1.4 FFmpeg轉碼實戰(Python) 235
10.1.5 FFmpeg流媒體推拉實戰(Python) 236
10.2 AI端部署 237
10.2.1 數字識別模型搭建 237
10.2.2 Fibo AI Stack模型轉化 239
10.2.3 數字識別模型部署 242
10.3 開源框架—OpenCV和GStreamer 244
10.3.1 OpenCV安裝 244
10.3.2 OpenCV模塊介紹 244
10.3.3 OpenCV視頻簡單操作 245
10.3.4 OpenCV人臉識別案例 247
10.3.5 GStreamer的相關組件 253
10.3.6 GStreamer管道設計簡單案例 254
10.3.7 OpenCV+GStreamer實現人臉識別 256
習題10 262
參考文獻 263