人與機器聽覺:聽見聲音的意義 Human and Machine Hearing: Extracting Meaning from Sound
Richard F. Lyon 朱維彬//高瑩瑩
- 出版商: 機械工業
- 出版日期: 2021-08-01
- 售價: $1,014
- 貴賓價: 9.5 折 $963
- 語言: 簡體中文
- 頁數: 415
- 裝訂: 平裝
- ISBN: 7111684532
- ISBN-13: 9787111684534
-
相關分類:
人工智慧、Machine Learning
- 此書翻譯自: Human and Machine Hearing: Extracting Meaning from Sound (Hardcover)
立即出貨 (庫存=1)
買這商品的人也買了...
-
$454無線傳感器網絡原理 (Principles of wireless sensor networks)
-
$237圖像工程 (上冊):圖像處理, 4/e
-
$267圖像工程 (下冊) : 圖像理解, 4/e
-
$680$578 -
$301特徵工程入門與實踐 (Feature Engineering Made Easy)
-
$505機器學習:算法視角(Machine Learning: An Algorithmic Perspective 2/e)
-
$1,074$1,020 -
$780$616 -
$580$493 -
$580$493 -
$267圖像工程 (中冊):圖像分析, 4/e
-
$588$559 -
$594$564 -
$474$450 -
$811統計學習要素:機器學習中的數據挖掘、推斷與預測, 2/e (The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2/e)
-
$354$336 -
$7603D 電腦視覺:原理、算法及應用
-
$534$507 -
$890$587 -
$607視覺:對人類如何表示和處理視覺信息的計算研究
-
$534$507 -
$359$341 -
$654$621 -
$252$239 -
$620$558
相關主題
商品描述
《人與機器聽覺:聽見聲音的意義》由谷歌首席科學家Lyon撰寫,
是一部關於聽覺研究的系統性學術著作。
《人與機器聽覺:聽見聲音的意義》中提出利用CARFAC模型模擬耳蝸對聲音信號的分析,
利用帶有精細時序結構的SAI表徵聽覺神經模式,明確反對將耳蝸視作傅里葉頻率分析器的做法。
《人與機器聽覺:聽見聲音的意義》內容系統且全面,涵蓋人類聽覺原理、機器聽覺理論、
精密聽覺模型建模和機器聽覺應用實例,還包括對聽覺研究史上的標誌性人物及事例的介紹。
《人與機器聽覺:聽見聲音的意義》對數學原理的闡釋脈絡清晰,
並配有算法源碼,適合相關領域的技術人員和研究人員參考,
也適合作為高等院校相關研究生課程的教材。
《人與機器聽覺:聽見聲音的意義》構建了一套完整的聽覺理論框架,
具有鮮明的學術觀點和創作特色:
創造性地提出利用CARFAC模型模擬耳蝸對聲音信號的分析,
利用帶有精細時序結構的SAI表徵聽覺神經模式,
強調將聽覺模型引入機器聽覺應用,反對將耳蝸視作傅里葉頻率分析器的做法。
將聽覺系統劃分為四層,在底層聽覺過程模擬的基礎上探索高層信息處理機制並驗證模型的有效性,
為遠近場模型等問題的解決以及CASA等技術的落地提供理論支撐,同時拓展了研究思路。
全面涵蓋人類聽覺原理、機器聽覺理論、精密聽覺模型建模方法以及利用機器學習方法構建的應用實例,
不僅對研究現狀進行了系統梳理,而且穿插著對聽覺研究史上標誌性人物和事例的介紹。
對聽覺問題的闡釋直擊本質,
對相關數學表述及推導過程的講解尤為清晰明了,無須複雜的專業知識也能逐步理解。
此外,所有聽覺處理算法均配有可免費下載的源代碼,便於讀者實踐。
作者簡介
Richard F. Lyon
谷歌公司首席科學家,IEEE Fellow,ACM Fellow。
他目前主要負責谷歌機器聽覺方向的研發工作,其團隊開發了用於谷歌街景的相機系統。
他的研究興趣包括用於聲音分析及可視化的耳蝸模型和聽覺相關譜圖,
以及這些模型的模擬電路及VLSI數字實現。
在加入谷歌之前,他曾在施樂公司、斯倫貝謝公司和蘋果公司從事相關研發工作。
此外,他還擁有包括光電鼠標在內的58項美國發明專利授權。
朱維彬
博士,北京交通大學信息科學研究所副教授,主要從事言語信息處理理論及應用研究,
涉及語義的言語表現及計算、言語情感分析及建模。
曾在IBM中國研究中心任研究員,從事語音聲學模型、韻律建模和言語數據庫的研究。
高瑩瑩
博士,畢業於北京交通大學信息科學研究所,研究方向為言語情感生成建模。
現就職於中國移動研究院人工智能與智慧運營中心,主要從事語音識別、端到端一體化建模的研究。
目錄大綱
譯者序
序言
前言
關於作者
第一部分 聲音分析與表徵概述
第1章 引言
1.1 DavidMarr論視覺與聽覺
1.2 自上而下與自下而上分析
1.3 神經模擬方法
1.4 聽覺圖像
1.5 耳朵是頻率分析器嗎
1.6 第三音
1.7 聲音理解與意義提取
1.8 機器視覺與機器學習技術的利用
1.9 本書的內容安排
第2章 聽覺理論
2.1 一種“新”的聽覺理論
2.2 更新的聽覺理論
2.3 主動與非線性聽覺理論
2.4 聽覺三元理論
2.5 聽覺圖像理論
第3章 對數及冪律聽覺
3.1 對數與冪律
3.2 對數頻率
3.3 對數功率
3.4 Bode圖
3.5 感知映射
3.6 恆Q值分析
3.7 對數應用注意事項
第4章 人類聽覺概述
4.1 人機對比
4.2 聽覺生理學
4.3 聽覺中的關鍵問題
4.4 響度
4.5 臨界頻帶、掩蔽與抑制
4.6 音高感知
4.7 音色
4.8 協和與不協和
4.9 語音感知
4.10 雙耳聽覺
4.11 聽覺流
4.12 非線性
4.13 後續建議
第5章 聲學方法與聽覺修正
5.1 聲音、語音與音樂建模
5.2 短時譜分析
5.3 譜的平滑與變換
5.4 源一濾波器模型與同態信號處理
5.5 擺脫對數
5.6 聽覺頻率尺度
5.7 mel頻率倒譜
5.8 線性預測編碼
5.9 PLP與RASTA
5.10 自動語音識別中的聽覺技術
5.11 必要的改進
第二部分 聽覺的系統理論
第6章 線性系統引言
6.1 平滑:恰當的起點
6.2 線性時不變系統
6.3 濾波器與頻率
6.4 微分方程與齊次解
6.5 衝激響應
6.6 因果性與穩定性
6.7 卷積
6.8 本徵函數與傳遞函數
6.9 頻率響應
6.10 變換與運算方法
6.11 有理函數及其零極點
6.12 傳遞函數增益與相位的圖解計算
6.13 卷積定理
6.14 級聯、並聯與反饋結構中濾波器的互聯
6.15 總結及後續安排
第7章 離散時間與數字系統
7.1 計算機模擬系統
7.2 離散時間線性移不變系統
7.3 衝激響應與卷積
7.4 離散時間系統中的頻率
7.5 Z變換及其逆變換
7.6 單位超前算子與單位延遲算子
7.7 濾波器與傳遞函數
7.8 採樣與混疊
7.9 自連續時間系統的映射
7.10 濾波器設計
7.11 數字濾波器
7.12 多輸入輸出
7.13 傅里葉分析與頻譜圖
7.14 觀點及拓展閱讀
第8章 諧振器
……
第三部分 聽覺外周
第四部分 聽神經系統
第五部分 機器學習及應用
中英文術語對照表
參考文獻