深度學習(精裝版)
[美]伊恩·古德費洛(Ian Goodfellow) [加]約書亞·本吉奧(Yoshua Bengio) [加]亞倫·庫維爾(Aaron Courville)
- 出版商: 人民郵電
- 出版日期: 2021-04-01
- 定價: $1,788
- 售價: 8.5 折 $1,520
- 語言: 簡體中文
- 頁數: 500
- 裝訂: 精裝
- ISBN: 711555286X
- ISBN-13: 9787115552860
-
相關分類:
DeepLearning
-
其他版本:
深度學習
立即出貨 (庫存=1)
買這商品的人也買了...
-
$750$638
相關主題
商品描述
本書由全球知名的3位專家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰寫,是深度學習領域奠基性的經典教材。全書的內容包括3個部分:第1部分介紹基本的數學工具和機器學習的概念,它們是深度學習的預備知識;第2部分系統深入地講解現今已成熟的深度學習方法和技術;第3部分討論某些具有前瞻性的方向和想法,它們被公認為是深度學習未來的研究重點。
《深度學習》適合各類讀者閱讀,包括相關專業的大學生或研究生,以及不具有機器學習或統計背景、但是想要快速補充深度學習知識,以便在實際產品或平臺中應用的軟件工程師。
作者簡介
作者簡介
Ian Goodfellow,谷歌公司(Google)研究科學家,2014年蒙特利爾大學機器學習博士。
他的研究興趣涵蓋大多數深度學習主題,特別是生成模型以及機器學習的安全和隱私。
他在研究對抗樣本方面是一位有影響力的早期研究者,他發明了生成式對抗網絡,在深度學習領域貢獻卓越。
Yoshua Bengio,2018年圖靈獎得主,蒙特利爾大學計算機科學與運籌學系(DIRO)教授,蒙特利爾學習算法研究所(MILA)負責人,CIFAR項目的共同負責人,加拿大統計學習算法研究主席。
Yoshua Bengio的主要研究目標是了解產生智力的學習原則。
他還教授“機器學習”研究生課程(IFT6266),並培養了一大批研究生和博士後。
Aaron Courville,蒙特利爾大學計算機科學與運籌學系的助理教授,也是LISA實驗室的成員。
目前他的研究興趣集中在發展深度學習模型和方法,特別是開發概率模型和新穎的推斷方法。
Aaron Courville主要專注於計算機視覺應用,在其他領域,如自然語言處理、音頻信號處理、語音理解和其他AI相關任務方面也有所研究。
中文版審校者簡介
張志華,北京大學數學科學學院統計學教授,北京大學大數據研究中心和北京大數據研究院數據科學教授,主要從事機器學習和應用統計學的教學與研究工作。
譯者簡介
趙申劍,上海交通大學計算機系碩士研究生,研究方向為數值優化和自然語言處理。
黎彧君,上海交通大學計算機系博士研究生,研究方向為數值優化和強化學習。
符天凡,上海交通大學計算機系碩士研究生,研究方向為貝葉斯推斷。
李凱,上海交通大學計算機系博士研究生,研究方向為博弈論和強化學習。
目錄大綱
第1章引言1
1.1本書面向的讀者7
1.2深度學習的歷史趨勢8
1.2.1神經網絡的眾多名稱和命運變遷8
1.2.2與日俱增的數據量12
1.2 .3與日俱增的模型規模13
1.2.4與日俱增的精度、複雜度和對現實世界的衝擊15
第1部分應用數學與機器學習基礎
第2章線性代數19
2.1標量、向量、矩陣和張量19
2.2矩陣和向量相乘21
2.3單位矩陣和逆矩陣22
2.4線性相關和生成子空間23
2.5範數24
2.6特殊類型的矩陣和向量25
2.7特徵分解26
2.8奇異值分解28
2.9 Moore-Penrose偽逆28
2.10跡運算29
2.11行列式30
2.12實例:主成分分析30
第3章概率與信息論34
3.1為什麼要使用概率34
3.2隨機變量35
3.3概率分佈36
3.3.1離散型變量和概率質量函數36
3.3.2連續型變量和概率密度函數36
3.4邊緣概率37
3.5條件概率37
3.6條件概率的鍊式法則38
3. 7獨立性和條件獨立性38
3.8期望、方差和協方差38
3.9常用概率分佈39
3.9.1 Bernoulli分佈40
3.9.2 Multinoulli分佈40
3.9.3高斯分佈40
3 .9.4指數分佈和Laplace分佈41
3.9.5 Dirac分佈和經驗分佈42
3.9.6分佈的混合42
3.10常用函數的有用性質43
3.11貝葉斯規則45
3.12連續型變量的技術細節45
3.13信息論47
3.14結構化概率模型49
第4章數值計算52
4.1上溢和下溢52
4.2病態條件53
4.3基於梯度的優化方法53
4.4約束優化60
4.5實例:線性*小二乘61
第5章機器學習基礎63
5.1學習算法63
5.1.1任務T 63
5.1.2性能度量P 66
5.1.3經驗E 66
5 .1.4示例:線性回歸68
5.2容量、過擬合和欠擬合70
5.2.1沒有免費午餐定理73
5.2.2正則化74
5.3超參數和驗證集76
5 .4估計、偏差和方差77
5.4.1點估計77
5.4.2偏差78
5.4.3方差和標準差80
5.4.4權衡偏差和方差以*小化均方誤差81
5.4.5一致性82
5.5 *大似然估計82
5.5.1條件對數似然和均方誤差84
5.5.2 *大似然的性質84
5.6貝葉斯統計85
5.7監督學習算法88
5.7.1概率監督學習88
5.7.2支持向量機88
5.7.3其他簡單的監督學習算法90
5.8無監督學習算法91
5.8.1主成分分析92
5.8.2 k-均值聚類94
5.9隨機梯度下降94
5.10構建機器學習算法96
5.11促使深度學習發展的挑戰96
5.11.1維數災難97
5.11.2局部不變性和平滑正則化97
5.11.3流形學習99
第2部分深度網絡:現代實踐
第6章深度前饋網絡105
6.1實例:學習XOR 107
6.2基於梯度的學習110
6.2.1代價函數111
6.2.2輸出單元113
6.3隱藏單元119
6.3.1整流線性單元及其擴展120
6.3.2 logistic sigmoid與雙曲正切函數121
6.3.3其他隱藏單元122
6.4架構設計123
6.4.1 *近似性質和深度123
6.4.2其他架構上的考慮125
6.5反向傳播和其他的微分算法126
6.5.1計算圖127
6.5.2微積分中的鍊式法則127
6.5.3遞歸地使用鍊式法則來實現反向傳播128
6.5.4全連接MLP中的反向傳播計算131
6.5.5符號到符號的導數131
6.5.6一般化的反向傳播133
6.5.7實例:用於MLP訓練的反向傳播135
6.5.8複雜化137
6.5.9深度學習界以外的微分137
6.5.10高階微分138
6.6歷史小記139
第7章深度學習中的正則化141
7.1參數範數懲罰142
7.1.1 L2參數正則化142
7. 1.2 L1正則化144
7.2作為約束的範數懲罰146
7.3正則化和欠約束問題147
7.4數據集增強148
7.5噪聲魯棒性149
7.6半監督學習150
7 .7多任務學習150
7.8提前終止151
7.9參數綁定和參數共享156
7.10稀疏表示157
7.11 Bagging和其他集成方法158
7.12 Dropout 159
7.13對抗訓練165
7.14切面距離、正切傳播和流形正切分類器167
第8章深度模型中的優化169
8.1學習和純優化有什麼不同169
8.1.1經驗風險*小化169
8.1.2代理損失函數和提前終止170
8.1.3批量算法和小批量算法170
8.2神經網絡優化中的挑戰173
8.2.1病態173
8.2.2局部極小值174
8.2.3高原、鞍點和其他平坦區域175
8.2.4懸崖和梯度*炸177
8.2.5長期依賴177
8 .2.6非*梯度178
8.2.7局部和全局結構間的弱對應178
8.2.8優化的理論限制179
8.3基本算法180
8.3.1隨機梯度下降180
8.3 .2動量181
8.3.3 Nesterov動量183
8.4參數初始化策略184
8.5自適應學習率算法187
8.5.1 AdaGrad 187
8.5.2 RMSProp 188
8.5.3 Adam 189
8.5.4選擇正確的優化算法190
8.6二階近似方法190
8 .6.1牛頓法190
8.6.2共軛梯度191
8.6.3 BFGS 193
8.7優化策略和元算法194
8.7.1批標準化194
8.7.2坐標下降196
8. 7.3 Polyak平均197
8.7.4監督預訓練197
8.7.5設計有助於優化的模型199
8.7.6延拓法和課程學習199
第9章卷積網絡201
9.1卷積運算201
9.2動機203
9.3池化207
9.4卷積與池化作為一種無限強的先驗210
9.5基本卷積函數的變體211
9.6結構化輸出218
9.7數據類型219
9.8 *的捲積算法220
9.9隨機或無監督的特徵220
9.10卷積網絡的神經科學基礎221
9.11卷積網絡與深度學習的歷史226
第10章序列建模:循環和遞歸網絡227
10.1展開計算圖228
10.2循環神經網絡230
10.2.1導師驅動過程和輸出循環網絡232
10.2.2計算循環神經網絡的梯度233
10.2.3作為有向圖模型的循環網絡235
10. 2.4基於上下文的RNN序列建模237
10.3雙向RNN 239
10.4基於編碼{解碼的序列到序列架構240
10.5深度循環網絡242
10.6遞歸神經網絡243
10.7長期依賴的挑戰244
10.8迴聲狀態網絡245
10.9滲漏單元和其他多時間尺度的策略247
10.9.1時間維度的跳躍連接247
10.9.2滲漏單元和一系列不同時間尺度247
10 .9.3刪除連接248
10.10長短期記憶和其他門控RNN 248
10.10.1 LSTM 248
10.10.2其他門控RNN 250
10.11優化長期依賴251
10.11.1截斷梯度251
10.11.2引導信息流的正則化252
10.12外顯記憶253
第11章實踐方法論256
11.1性能度量256
11.2默認的基準模型258
11.3決定是否收集更多數據259
11.4選擇超參數259
11.4.1手動調整超參數259
11.4.2自動超參數優化算法262
11.4.3網格搜索262
11.4.4隨機搜索263
11.4.5基於模型的超參數優化264
11.5調試策略264
11.6示例:多位數字識別267
第12章應用269
12.1大規模深度學習269
12.1.1快速的CPU實現269
12.1.2 GPU實現269
12.1.3大規模的分佈式實現271
12.1.4模型壓縮271
12. 1.5動態結構272
12.1.6深度網絡的專用硬件實現273
12.2計算機視覺274
12.2.1預處理275
12.2.2數據集增強277
12.3語音識別278
12.4自然語言處理279
12. 4.1 n-gram 280
12.4.2神經語言模型281
12.4.3高維輸出282
12.4.4結合n-gram和神經語言模型286
12.4.5神經機器翻譯287
12. 4.6歷史展望289
12.5其他應用290
12.5.1推薦系統290
12.5.2知識表示、推理和回答292
第3部分深度學習研究
第13章線性因子模型297
13.1概率PCA和因子分析297
13.2獨立成分分析298
13.3慢特徵分析300
13.4稀疏編碼301
13.5 PCA的流形解釋304
第14章自編碼器306
14.1欠完備自編碼器306
14.2正則自編碼器307
14.2.1稀疏自編碼器307
14.2.2去噪自編碼器309
14.2.3懲罰導數作為正則309
14.3表示能力、層的大小和深度310
14.4隨機編碼器和解碼器310
14.5去噪自編碼器詳解311
14.5.1得分估計312
14.5.2歷史展望314
14.6使用自編碼器學習流形314
14. 7收縮自編碼器317
14.8預測稀疏分解319
14.9自編碼器的應用319
第15章表示學習321
15.1貪心逐層無監督預訓練322
15.2遷移學習和領域自適應326
15 .3半監督解釋因果關係329
15.4分佈式表示332
15.5得益於深度的指數增益336
15.6提供發現潛在原因的線索337
第16章深度學習中的結構化概率模型339
16. 1非結構化建模的挑戰339
16.2使用圖描述模型結構342
16.2.1有向模型342
16.2.2無向模型344
16.2.3配分函數345
16.2.4基於能量的模型346
16.2.5分離和d-分離347
16.2 .6在有向模型和無向模型中轉換350
16.2.7因子圖352
16.3從圖模型中採樣353
16.4結構化建模的優勢353
16.5學習依賴關係354
16.6推斷和近似推斷354
16.7結構化概率模型的深度學習方法355
第17章蒙特卡羅方法359
17.1採樣和蒙特卡羅方法359
17.1.1為什麼需要採樣359
17.1.2蒙特卡羅採樣的基礎359
17.2重要採樣360
17.3馬爾可夫鏈蒙特卡羅方法362
17.4 Gibbs採樣365
17.5不同的峰值之間的混合挑戰365
17.5.1不同峰值之間通過回火來混合367
17.5.2深度也許會有助於混合368
第18章直面配分函數369
18.1對數似然梯度369
18.2隨機*大似然和對比散度370
18.3偽似然375
18.4得分匹配和比率匹配376
18.5去噪得分匹配378
18.6噪聲對比估計378
18.7估計配分函數380
18.7.1退火重要採樣382
18.7.2橋式採樣384
第19章近似推斷385
19.1把推斷視作優化問題385
19.2期望*大化386
19.3 *大後驗推斷和稀疏編碼387
19.4變分推斷和變分學習389
19.4.1離散型潛變量390
19.4.2變分法394
19.4.3連續型潛變量396
19.4.4學習和推斷之間的相互作用397
19.5學成近似推斷397
19.5.1醒眠算法398
19.5.2學成推斷的其他形式398
第20章深度生成模型399
20.1玻爾茲曼機399
20.2受限玻爾茲曼機400
20.2.1條件分佈401
20.2.2訓練受限玻爾茲曼機402
20.3深度信念網絡402
20.4深度玻爾茲曼機404
20.4.1有趣的性質406
20. 4.2 DBM均勻場推斷406
20.4.3 DBM的參數學習408
20.4.4逐層預訓練408
20.4.5聯合訓練深度玻爾茲曼機410
20.5實值數據上的玻爾茲曼機413
20.5.1 Gaussian-Bernoulli RBM 413
20.5.2條件協方差的無向模型414
20.6卷積玻爾茲曼機417
20.7用於結構化或序列輸出的玻爾茲曼機418
20.8其他玻爾茲曼機419
20.9通過隨機操作的反向傳播419
20.10有向生成網絡422
20.10.1 sigmoid信念網絡422
20.10.2可微生成器網絡423
20.10.3變分自編碼器425
20.10.4生成式對抗網絡426
20.10.5生成矩匹配網絡429
20.10.6卷積生成網絡430
20.10.7自回歸網絡430
20.10.8線性自回歸網絡430
20.10.9神經自回歸網絡431
20.10.10 NADE 432
20.11從自編碼器採樣433
20.11.1與任意去噪自編碼器相關的馬爾可夫鏈.434
20.11.2夾合與條件採樣434
20.11.3回退訓練過程435
20.12生成隨機網絡435
20.13其他生成方案436
20.14評估生成模型437
20.15結論438
參考文獻439
索引486