深度學習的數學工程:模型背後的數學原理
[法]貝努瓦·利凱(Benoit Liquet)[澳]薩拉特·莫卡(Sarat Moka) [澳]尤尼·納紮拉西(Yoni Nazarathy)
- 出版商: 人民郵電
- 出版日期: 2026-05-01
- 定價: $899
- 售價: $898
- 語言: 簡體中文
- 頁數: 311
- ISBN: 7115683379
- ISBN-13: 9787115683373
-
相關分類:
DeepLearning
- 此書翻譯自: Mathematical Engineering of Deep Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書為讀者提供了一個全面而系統的深度學習數學框架,旨在幫助讀者深入理解深度學習的數學本質,並掌握其基礎及前沿技術。
本書共8章。第1章介紹深度學習的定義、應用、核心要素及數學符號等內容,奠定深度學習的數學與技術基礎;第2章詳解機器學習原理,包括數據處理、監督與無監督學習、線性模型、疊代優化、泛化、正則化技術等;第3章從統計學和深度學習視角解析 logistic 回歸模型,概述softmax與淺層自編碼器;第4章講解梯度下降、ADAM等優化算法及自動微分,並概述一階與二階方法;第5章探討前饋深度神經網絡的表達力、激活函數、反向傳播算法及訓練關鍵技術等內容;第6章解析卷積神經網絡的數學原理、架構,介紹經典模型及計算機視覺任務等內容;第7章聚焦序列模型、註意力機制及 Transformer 的結構與應用;第8章涵蓋生成模型、強化學習與圖神經網絡,展示深度學習的多樣化應用方向。
本書適合機器學習和深度學習等領域的專業人員參考閱讀, 也適合對深度學習數學框架感興趣的初學者和研究者閱讀。
作者簡介
貝努瓦·利凱(Benoit Liquet):麥考瑞大學數學與物理科學學院教授。研究方向為高維數據、大數據、組學數據、模型選擇、降維與半參數模型、多狀態模型、生存模型和多重檢驗。
薩拉特·莫卡(Sarat Moka):悉尼新南威爾士大學數學與統計學院講師,兼任麥考瑞大學數學與物理科學學院榮譽研究員。研究方向為計算統計學、應用概率、機器學習和深度學習。
尤尼·納紮拉西(Yoni Nazarathy):昆士蘭大學數學與物理學院副教授。研究方向為機器學習、應用概率、統計學、運籌學、仿真、科學計算、控制論、排隊論、調度和數學教育。
目錄大綱
第 1 章 引言 1
11 深度學習時代 1
111 深度學習初探 2
112 超越分類 4
113 深度學習的應用領域 5
114 深度學習涉及的角色 6
12 任務和架構概覽 6
121 前饋全連接神經網絡 7
122 自編碼器 7
123 卷積神經網絡 9
124 循環神經網絡、長短期記憶網絡和門控循環單元 9
125 Transformer 和註意力機制 9
126 擴散模型和其他變分自編碼器 10
127 生成對抗網絡 10
128 深度強化學習 10
129 圖神經網絡 11
13 深度學習的核心要素 11
131 神經網絡與人造大腦 11
132 算力 13
133 大規模數據集 13
134 互聯網、軟件實踐和開源 14
14 數據 15
15 作為數學工程學科的深度學習 18
151 本書使用的數學 19
152 通過高等數學發展和研究深度學習 19
16 符號和數學背景知識 20
註釋與參考文獻 21
第 2 章 機器學習原理 23
21 機器學習的關鍵活動 23
211 數據的劃分 25
212 數據預處理 26
213 學習≈優化 27
22 監督學習 27
221 回歸和特征工程 27
222 二分類 29
223 監督學習的方法和算法 33
23 本書的核心:線性模型 34
231 線性模型的學習 34
232 其他損失函數 36
233 類別型輸入特征 37
234 多分類 38
24 基於疊代優化的學習 41
241 線性模型的學習率分析 42
242 損失景觀和輸入的標準化 43
25 泛化、正則化和驗證 45
251 未見數據上的性能 46
252 模型選擇、欠擬合和過擬合 47
253 偏差和方差分解 49
254 添加正則化項 50
255 超參數校準和交叉驗證 51
26 無監督學習概覽 53
261 k 均值聚類 53
262 基於 k 均值算法的圖像分割 55
263 無監督學習中的矩陣 56
264 主成分分析 57
265 PCA 的推導 58
266 通過 SVD 的 PCA 59
267 SVD 用於壓縮 60
註釋與參考文獻 61
第 3 章 簡單神經網絡 64
31 統計中的 logistic 回歸模型 64
311 模型 65
312 logistic 分布簡介 65
313 極大似然估計 66
314 二元交叉熵損失 67
315 預測概率和參數可解釋性 68
316 基於 logistic 回歸模型的分類器是線性分類器 69
32 logistic回歸模型是一個淺層神經網絡 71
321 logistic 回歸模型是一個人工神經元 71
322 logistic 回歸模型的訓練 72
323 交叉熵損失的一些優點 73
33 多分類問題與 softmax 74
331 模型 74
332 softmax 函數和作為淺層神經網絡的多項式回歸模型 76
333 似然和交叉熵 77
334 導數和學習 79
335 多項式回歸模型的分類產生凸多面體決策區域 80
34 超越線性決策邊界 82
341 sigmoid 響應函數的增強 82
342 多項式特征工程的一般設置 83
343 一般分類邊界 84
35 淺層自編碼器 86
351 自編碼器原理 86
352 單層自編碼器 87
353 PCA 是一種自編碼器 89
354 自編碼器作為非線性 PCA 的一種形式 91
355 應用和架構 92
註釋與參考文獻 95
第 4 章 優化算法 96
41 優化問題的形式化表述 96
411 一般設置 96
412 局部極小點和全局最小點 97
413 凸性和鞍點 98
414 深度學習中的目標函數 99
415 某些淺層神經網絡的凸性 99
416 下降方向方法的一般方法 101
42 深度學習背景下的優化 102
421 基本梯度下降法面臨的挑戰 103
422 隨機梯度下降 104
423 小批量和輪次 106
424 最小化損失是最優性能的替代指標 107
43 ADAM 算法 109
431 自適應優化和指數平滑 110
432 動量 110
433 每個分量的自適應學習率 111
434 指數平滑的偏差校正 113
435 完整 ADAM 算法 114
44 自動微分 115
441 數值微分和符號微分 115
442 可微編程概述 116
443 計算圖和前向模式自動微分 118
444 反向模式自動微分 121
45 一階方法的其他技術 123
451 Nesterov 動量和 Nadam 算法 123
452 AdaDelta 124
453 其他範數和 AdaMax 125
454 線搜索 126
455 非精確線搜索 129
46 二階方法的概念 130
461 單變量情況 131
462 多變量情況和黑塞矩陣 134
463 擬牛頓法 135
464 BFGS 和 L-BFGS 更新規則 138
註釋與參考文獻 139
第 5 章 前饋深度神經網絡 142
51 通用全連接架構 142
511 基於函數組合的模型 144
512 仿射變換與激活函數 144
513 前向傳播 145
514 具體維度示例 145
515 模型的標量視圖 146
516 跨多個樣本的向量化 146
517 模型訓練概述 147
52 神經網絡的表達力 148
521 簡單函數逼近 148
522 通用逼近定理 149
523 隱層的優勢 150
524 通過簡單模型實現特定的函數 150
525 神經網絡特征的聚焦性 152
526 深度增加帶來的表達力提升 153
53 激活函數的選擇 154
531 標量激活函數及其導數 154
532 非標量激活函數及其導數 156
54 反向傳播算法 157
541 一般遞歸模型的反向傳播 157
542 一個展開的示例 159
543 用 代替 ζ的反向傳播算法 160
544 全連接網絡的反向傳播 161
545 整個小批量的反向傳播 163
546 梯度消失和梯度爆炸 163
55 權重初始化 164
551 Xavier 初始化的推導 165
552 梯度消失或梯度爆炸值的進一步洞察 165
56 批量歸一化 166
561 每單元歸一化的思想 166
562 生產環境中的批量歸一化 167
563 批量歸一化參數的反向傳播 168
57 用 dropout 和正則化緩解過擬合 169
571 dropout 169
572 將 dropout 視為集成的近似 171
573 添加正則化項和權重衰減 172
註釋與參考文獻 173
第 6 章 卷積神經網絡 175
61 CNN 概述 175
611 濾波 176
612 VGG19 網絡 177
62 卷積運算 178
621 線性時不變系統中的卷積 178
622 概率中的卷積 179
623 多項式乘法和卷積矩陣 180
624 多維推廣 181
625 再談邊緣檢測 183
63 構建卷積層 184
631 卷積層的動機 184
632 填充、步長和擴張 187
633 多通道輸入 190
634 多通道輸出 192
64 構建 CNN 193
641 卷積層 193
642 池化層 194
643 全連接層 195
644 VGG19 再探討 196
645 1×1 卷積和全卷積網絡 197
646 dropout、批量歸一化和組歸一化 198
647 理解內部層和派生特征 199
65 Inception、ResNet 和其他標誌性架構 201
651 簡要歷史回顧 201
652 Inception 和網絡中的網絡 202
653 殘差連接 203
654 EfficientNet 模型 204
66 超越分類 205
661 CNN 與關鍵計算機視覺任務 205
662 目標定位 207
663 人臉識別、孿生網絡和三元組損失 208
註釋與參考文獻 210
第 7 章 序列模型 212
71 序列數據的模型和活動概述 212
711 序列數據的形式 213
712 涉及序列數據的任務 213
713 詞嵌入 216
72 基本循環神經網絡 217
721 一個簡單的具體示例 220
722 用隨時間反向傳播訓練 RNN 221
723 計算中的挑戰 224
724 訓練的其他方面 225
73 RNN 的擴展和改進 226
731 堆疊門和反轉門 226
732 長短期記憶模型 227
733 門控循環單元模型 230
74 編碼器-解碼器和註意力機制 231
741 用於機器翻譯的編碼器-解碼器架構 231
742 註意力機制 233
743 基於註意力機制的編碼器-解碼器 234
744 註意力權重的示例 235
745 打分函數的變體 236
746 訓練編碼器-解碼器模型 237
75 Transformer 237
751 自註意力 238
752 多頭自註意力 240
753 位置嵌入 241
754 Transformer 塊 242
755 編碼器-解碼器框架 245
756 在生產和訓練中使用編碼器-解碼器 247
註釋與參考文獻 249
第 8 章 特定架構與範式 251
81 生成式建模原理 251
811 變分自編碼器 253
812 變分自編碼器的編碼器-解碼器架構 255
813 與極大似然和 ELBO 的關系 256
814 損失函數的細節 257
815 重參數化技巧 258
82 擴散模型 259
821 層次變分自編碼器 260
822 擴散模型假設 262
823 損失函數 263
824 重參數化技巧和損失簡化 264
83 GAN 266
831 GAN 生成式建模方法 267
832 訓練 GAN 268
833 最小化 JS 散度 269
834 目標函數的變體 270
835 超越 GAN 數據生成 275
84 強化學習 277
841 馬爾可夫決策過程 278
842 貝爾曼方程、價值函數和 Q函數 281
843 貝爾曼方程的求解 282
844 Q 學習 283
845 深度強化學習 284
85 圖神經網絡 285
851 GNN 的應用 285
852 圖結構 286
853 輸入數據和任務的結構 289
854 GNN 模型的一般結構 290
855 消息傳遞方案 292
856 模型變體 293
註釋與參考文獻 296
附錄 A 多元微積分初步 299
附錄 B 交叉熵及其他對數期望 308
後記 311

