終端智能語音處理技術與應用
納躍躍 王子騰 付強 王亮 馬麗艷
- 出版商: 電子工業
- 出版日期: 2025-04-01
- 售價: $654
- 貴賓價: 9.5 折 $621
- 語言: 簡體中文
- 頁數: 361
- ISBN: 7121498065
- ISBN-13: 9787121498060
-
相關分類:
語音辨識 Speech-recognition
立即出貨
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
87折
$360芯片的較量 (日美半導體風雲) -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
79折
$425Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
87折
$360芯片的較量 (日美半導體風雲) -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現)
相關主題
商品描述
語音是最有效的人機交互方式之一。人工智能與傳統語音技術相結合使其在家居、可穿戴、機器人、車載等智能終端設備上得到了普及。終端設備具有低資源、實時性、應用場景覆雜多變等特點,對算法提出了更嚴格的要求。 本書介紹了面向端側設備的若幹智能語音處理技術,書中主要採用了傳統信號處理與深度學習相結合的方法論,並且介紹了在實際工程應用中的若幹心得,適合於理工科高年級本科生、研究生,以及語音領域的工程師閱讀。
作者簡介
納躍躍,2005年、2008年及2014年先後於北京交通大學計算機科學與技術專業獲得學士、碩士及博士學位。2014年在中國科學院聲學研究所語言聲學與內容理解重點實驗室完成博士後研究。現任職於吉利汽車研究院,專註於數字信號處理、機器學習及智能終端語音交互等領域的研究與開發工作。
目錄大綱
1 終端智能語音處理概述
1.1 引言
1.2 問題和挑戰
1.3 發展歷史概要
1.4 本書的組織結構
1.5 本書的適用人群
1.6 常用表示和符號對照
1.6.1 默認符號
1.6.2 對離散時間序列的表示
1.6.3 關於索引序號從0還是1開始的說明
1.7 關於中英文混寫的說明
1.8 免責聲明
1.9 本章小結
理論篇
2 子帶濾波
2.1 離散傅裏葉變換與短時傅裏葉變換
2.1.1 離散傅裏葉變換
2.1.2 短時傅裏葉變換
2.1.3 輸出延時
2.1.4 頻譜泄漏
2.1.5 時域捲積與頻域點積的近似關系
2.2 多相濾波器組
2.2.1 對頻譜泄漏的數學解釋
2.2.2 扇形損失
2.2.3 重採樣
2.2.4 多相濾波器組
2.3 濾波器設計基礎
2.4 本章小結
3 固定波束形成
3.1 多通道語音增強的基本原理
3.1.1 物理解釋
3.1.2 幾何解釋
3.2 遠場模型
3.3 波束形成及陣列性能評價
3.3.1 beampattern
3.3.2 directivity index
3.3.3 white noise gain
3.3.4 effective rank
3.4 波束形成算法的求解形式
3.4.1 superdirective beamforming
3.4.2 差分波束形成
3.5 本章小結
4 自適應波束形成
4.1 遞推求平均
4.2 典型自適應波束形成算法
4.2.1 MVDR算法
4.2.2 PMWF算法
4.3 共軛對稱矩陣求逆
4.3.1 1×1和2×2矩陣求逆
4.3.2 Cholesky分解
4.3.3 矩陣求逆引理
4.3.4 IQRD方法
4.3.5 誤差與穩定性
4.4 本章小結
5 盲源分離
5.1 信號模型
5.1.1 瞬時模型
5.1.2 捲積模型
5.2 獨立成分分析
5.2.1 獨立性假設與中心極限定理
5.2.2 ICA的目標函數
5.2.3 AuxICA算法
5.2.4 2×2廣義特徵分解問題
5.2.5 排列歧義性與尺度歧義性
5.3 獨立向量分析
5.3.1 IVA的目標函數
5.3.2 AuxIVA算法
5.3.3 兩級架構
5.4 盲源分離與波束形成的聯系和區別
5.5 本章小結
6 回聲消除與去混響
6.1 信號模型
6.1.1 回聲消除信號模型
6.1.2 去混響信號模型
6.2 LMS與NLMS算法
6.3 RLS算法
6.3.1 最小二乘法
6.3.2 RLS算法
6.4 一種基於盲源分離的回聲消除方法
6.4.1 問題背景
6.4.2 算法推導
6.4.3 對比實驗
6.5 本章小結
7 數據模擬
7.1 信號模型和系統框架
7.2 傳函的模擬與測量
7.2.1 鏡像法傳函模擬
7.2.2 傳函測量
7.2.3 分塊捲積
7.3 非線性回聲模擬
7.4 散射噪聲模擬
7.5 信噪比和音量
7.6 本章小結
8 深度語音增強
8.1 信號模型
8.2 時頻掩蔽
8.3 損失函數
8.4 深度回聲殘餘抑制
8.4.1 數據準備
8.4.2 輸入特徵
8.4.3 模型結構
8.5 多通道語音增強模型
8.5.1 基於掩蔽的波束形成算法
8.5.2 深度神經網絡空域濾波算法
8.6 歌曲成分分離
8.7 本章小結
9 語音活動性檢測
9.1 HMMVAD
9.1.1 HMM基礎
9.1.2 前向算法與後向算法
9.1.3 Viterbi算法
9.1.4 Baum-Welch算法
9.1.5 下溢問題
9.1.6 在線HMMVAD
9.2 NNVAD
9.2.1 一種NNVAD模型
9.2.2 一種NN和HMM結合的VAD
9.3 VAD性能評價
9.4 本章小結
10 關鍵詞檢測
10.1 特徵提取
10.2 聲學模型
10.2.1 建模單元
10.2.2 聲學模型
10.2.3 關於聲學模型工作原理的討論
10.3 解碼器
10.3.1 閾值與動態閾值
10.3.2 關於ROC曲線與閾值選擇的討論
10.4 虛警問題
10.4.1 對虛警現象的直觀解釋
10.4.2 減少虛警的方法
10.4.3 對比實驗
10.5 多通道關鍵詞檢測與通道選擇
10.5.1 問題背景
10.5.2 模型與訓練方法
10.5.3 實驗與分析
10.6 本章小結
11 聯合優化方法
11.1 盲源分離統一框架
11.1.1 信號模型
11.1.2 問題拆解
11.1.3 對比實驗
11.2 語音增強與關鍵詞檢測聯合優化
11.2.1 系統框架
11.2.2 語音增強模塊
11.2.3 關鍵詞檢測模塊
11.2.4 實驗現象
11.3 本章小結
12 模型量化
12.1 模型量化方法
12.1.1 訓練後量化
12.1.2 訓練時量化
12.1.3 無數據量化
12.2 關鍵詞檢測模型的無數據量化方法
12.2.1 時序數據生成器
