深度學習:基礎與概念
[英]克裡斯托弗 · M. 畢曉普(Christopher M. Bishop) [英]休·畢曉普(Hugh Bishop)
- 出版商: 人民郵電
- 出版日期: 2025-05-01
- 售價: $1,128
- 語言: 簡體中文
- 頁數: 561
- ISBN: 711566370X
- ISBN-13: 9787115663702
-
相關分類:
DeepLearning
- 此書翻譯自: Deep Learning: Foundations and Concepts (Hardcover)
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書全面且深入地呈現了深度學習領域的知識體系,系統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與技術。全書共 20 章。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域(如醫療診斷、圖像合成等)產生的深遠影響;繼而深入探討支撐深度學習的數學原理,包括概率、標準分佈等;在網絡模型方面,從單層網絡逐步深入到多層網絡、深度神經網絡,詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用,同時涵蓋捲積網絡、Transformer 等前沿架構及其在電腦視覺、自然語言處理等領域的獨特作用。本書還對正則化、採樣、潛變量、生成對抗網絡、自編碼器、擴散模型等關鍵技術展開深入分析,闡釋其原理、算法流程及實際應用場景。對於機器學習領域的新手,本書是全面且系統的入門教材,可引領其踏入深度學
習的知識殿堂;對於機器學習領域從業者,本書是深化專業知識、緊跟技術前沿的有力工具;對於相關專業學生,本書是學習深度學習課程、開展學術研究的優質參考資料。無論是理論學習、實踐應用還是學術研究,本書都是讀者在深度學習領域探索與前行的重要指引。
作者簡介
克裡斯托弗·M. 畢曉普(Christopher M. Bishop)
微軟公司技術研究員、微軟研究 院 科 學 智 能 中 心(Microsoft Research AI4Science)負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》(Pattern Recognition and Machine Learning)。
休·畢曉普(Hugh Bishop)
Wayve 公司(倫敦一家基於端到端深度學習的自動駕駛公司)應用科學家,負責設計和訓練深度神經網絡。擁有劍橋大學工程系機器學習和機器智能專業碩士
學位、杜倫大學電腦科學工程學碩士學位。
目錄大綱
第 1 章 深度學習革命 1
1 1 深度學習的影響 2
1 1 1 醫療診斷 2
1 1 2 蛋白質結構預測 3
1 1 3 圖像合成 4
1 1 4 大語言模型 5
1 2 一個教學示例 6
1 2 1 合成數據 7
1 2 2 線性模型 7
1 2 3 誤差函數 8
1 2 4 模型復雜度 8
1 2 5 正則化 11
1 2 6 模型選擇 12
1 3 機器學習簡史 14
1 3 1 單層網絡 15
1 3 2 反向傳播 16
1 3 3 深度網絡 17
第 2 章 概 率 21
2 1 概率法則 23
2 1 1 醫學篩查示例 23
2 1 2 加和法則和乘積法則 24
2 1 3 貝葉斯定理 26
2 1 4 再看醫學篩查示例 27
2 1 5 先驗概率和後驗概率 28
2 1 6 獨立變量 28
2 2 概率密度 28
2 2 1 分佈的示例 30
2 2 2 期望和協方差 31
2 3 高斯分佈 32
2 3 1 均值和方差 32
2 3 2 似然函數 33
2 3 3 最大似然的偏差 35
2 3 4 線性回歸 36
2 4 密度變換 37
多元分佈 39
2 5 信息論 40
2 5 1 熵 40
2 5 2 物理學視角 42
2 5 3 微分熵 43
2 5 4 最大熵 44
2 5 5 Kullback-Leibler 散度 45
2 5 6 條件熵 47
2 5 7 互信息 47
2 6 貝葉斯概率 47
2 6 1 模型參數 48
2 6 2 正則化 49
2 6 3 貝葉斯機器學習 50
習題 50
第 3 章 標準分佈 55
3 1 離散變量 56
3 1 1 伯努利分佈 56
3 1 2 二項分佈 57
3 1 3 多項分佈 58
3 2 多元高斯分佈 59
3 2 1 高斯幾何 60
3 2 2 矩 62
3 2 3 局限性 64
3 2 4 條件分佈 64
3 2 5 邊緣分佈 67
3 2 6 貝葉斯定理 70
3 2 7 最大似然 72
3 2 8 序貫估計 73
3 2 9 高斯混合 74
3 3 周期變量 76
馮·米塞斯分佈 76
3 4 指數族分佈 80
充分統計量 84
3 5 非參數化方法 85
3 5 1 直方圖 85
3 5 2 核密度 86
3 5 3 最近鄰 88
習題 90
第 4 章 單層網絡:回歸 97
4 1 線性回歸 97
4 1 1 基函數 98
4 1 2 似然函數 100
4 1 3 最大似然 101
4 1 4 最小二乘的幾何表示 102
4 1 5 序貫學習 102
4 1 6 正則化最小二乘法 103
4 1 7 多重輸出 104
4 2 決策理論 105
4 3 偏差 - 方差權衡 108
習題 112
第 5 章 單層網絡:分類 115
5 1 判別函數 116
5 1 1 二分類 116
5 1 2 多分類 117
5 1 3 1-of-K 編碼方案 119
5 1 4 最小二乘分類 119
5 2 決策理論 121
5 2 1 誤分類率 122
5 2 2 預期損失 124
5 2 3 拒絕選項 125
5 2 4 推理和決策 125
5 2 5 分類器精度 128
5 2 6 ROC 曲線 129
5 3 生成分類器 131
5 3 1 連續輸入 132
5 3 2 最大似然解 134
5 3 3 離散特徵 136
5 3 4 指數族分佈 136
5 4 判別分類器 137
5 4 1 激活函數 137
5 4 2 固定基函數 138
5 4 3 邏輯斯諦回歸 139
5 4 4 多類邏輯斯諦回歸 140
5 4 5 probit 回歸 141
5 4 6 規範連接函數 143
習題 144
第 6 章 深度神經網絡 149
6 1 固定基函數的局限性 150
6 1 1 維度詛咒 150
6 1 2 高維空間 152
6 1 3 數據流形 153
6 1 4 數據依賴的基函數 155
6 2 多層網絡 156
6 2 1 參數矩陣 157
6 2 2 通用近似 158
6 2 3 隱藏單元激活函數 159
6 2 4 權重空間的對稱性 161
6 3 深度網絡 162
6 3 1 層次化表示 162
6 3 2 分佈式表示 163
6 3 3 表示學習 163
6 3 4 遷移學習 164
6 3 5 對比學習 165
6 3 6 通用網絡結構 168
6 3 7 張量 168
6 4 誤差函數 169
6 4 1 回歸 169
6 4 2 二分類 170
6 4 3 多分類 171
6 5 混合密度網絡 172
6 5 1 機器人運動學示例 172
6 5 2 條件混合分佈 173
6 5 3 梯度優化 175
6 5 4 預測分佈 176
習題 177
第 7 章 梯度下降 181
7 1 錯誤平面 182
局部二次近似 183
7 2 梯度下降優化 184
7 2 1 梯度信息的使用 185
7 2 2 批量梯度下降 185
7 2 3 隨機梯度下降 186
7 2 4 小批量方法 187
7 2 5 參數初始化 188
7 3 收斂 189
7 3 1 動量 190
7 3 2 學習率調度 192
7 3 3 AdaGrad、RMSProp 與 Adam 算法 193
7 4 正則化 195
7 4 1 數據歸一化 195
7 4 2 批量歸一化 196
7 4 3 層歸一化 197
習題 198
第 8 章 反向傳播 201
8 1 梯度計算 202
8 1 1 單層網絡 202
8 1 2 一般前饋網絡 202
8 1 3 簡單示例 205
8 1 4 數值微分法 206
8 1 5 雅可比矩陣 207
8 1 6 黑塞矩陣 209
8 2 自動微分法 211
8 2 1 前向模式自動微分 213
8 2 2 逆模式自動微分 215
習題 217
第 9 章 正則化 219
9 1 歸納偏置 220
9 1 1 逆問題 220
9 1 2 無免費午餐定理 221
9 1 3 對稱性和不變性 222
9 1 4 等變性 224
9 2 權重衰減 225
9 2 1 一致性正則化項 226
9 2 2 廣義權重衰減 228
9 3 學習曲線 230
9 3 1 早停法 230
9 3 2 雙重下降 231
9 4 參數共享 234
軟權重共享 234
9 5 殘差連接 236
9 6 模型平均 239
dropout 241
習題 243
第 10 章 捲積網絡 247
10 1 電腦視覺 248
圖像數據 248
10 2 捲積濾波器 249
10 2 1 特徵檢測器 250
10 2 2 平移等變性 251
10 2 3 填充 252
10 2 4 跨步捲積 253
10 2 5 多維捲積 253
10 2 6 池化 255
10 2 7 多層捲積 256
10 2 8 網絡架構示例 257
10 3 可視化訓練好的 CNN 259
10 3 1 視覺皮層 259
10 3 2 可視化訓練好的濾波器 260
10 3 3 顯著性圖 262
10 3 4 對抗攻擊 263
10 3 5 合成圖像 264
10 4 目標檢測 265
10 4 1 邊界框 265
10 4 2 交並比 266
10 4 3 滑動窗口 267
10 4 4 跨尺度檢測 268
10 4 5 非最大抑制 269
10 4 6 快速區域捲積神經網絡 270
10 5 圖像分割 270
10 5 1 捲積分割 270
10 5 2 上採樣 271
10 5 3 全捲積網絡 272
10 5 4 U-Net 架構 273
10 6 風格遷移 274
習題 275
第 11 章 結構化分佈 279
11 1 概率圖模型 280
11 1 1 有向圖 280
11 1 2 分解 280
11 1 3 離散變量 282
11 1 4 高斯變量 284
11 1 5 二元分類器 286
11 1 6 參數和觀測值 287
11 1 7 貝葉斯定理 288
11 2 條件獨立性 289
11 2 1 3 個示例圖 289
11 2 2 相消解釋 292
11 2 3 d 分離 293
11 2 4 樸素貝葉斯 294
11 2 5 生成式模型 296
11 2 6 馬爾可夫毯 297
11 2 7 作為過濾器的圖 298
11 3 序列模型 299
潛變量 301
習題 302
第 12 章 Transformer 305
12 1 註意力 306
12 1 1 Transformer 處理 308
12 1 2 註意力系數 308
12 1 3 自註意力 309
12 1 4 網絡參數 310
12 1 5 縮放自註意力 312
12 1 6 多頭註意力 313
12 1 7 Transformer 層 315
12 1 8 計算復雜性 316
12 1 9 位置編碼 317
12 2 自然語言 319
12 2 1 詞嵌入 320
12 2 2 分詞 321
12 2 3 詞袋模型 322
12 2 4 自回歸模型 323
12 2 5 遞歸神經網絡 324
12 2 6 通過時間的反向傳播 325
12 3 Transformer 語言模型 326
12 3 1 解碼器型 Transformer 326
12 3 2 抽樣策略 329
12 3 3 編碼器型 Transformer 330
12 3 4 序列到序列 Transformer 332
12 3 5 大語言模型 333
12 4 多模態 Transformer 336
12 4 1 視覺 Transformer 336
12 4 2 圖像生成 Transformer 337
12 4 3 音頻數據 339
12 4 4 文本語音轉換 340
12 4 5 視覺和語言 Transformer 342
習題 343
第 13 章 圖神經網絡 347
13 1 基於圖的機器學習 348
13 1 1 圖的屬性 349
13 1 2 鄰接矩陣 349
13 1 3 排列等變性 350
13 2 神經信息傳遞 351
13 2 1 捲積濾波器 352
13 2 2 圖捲積網絡 353
13 2 3 聚合算子 354
13 2 4 更新算子 356
13 2 5 節點分類 357
13 2 6 邊分類 358
13 2 7 圖分類 358
13 3 通用圖網絡 359
13 3 1 圖註意力網絡 359
13 3 2 邊嵌入 360
13 3 3 圖嵌入 360
13 3 4 過度平滑 361
13 3 5 正則化 362
13 3 6 幾何深度學習 362
習題 363
第 14 章 採 樣 365
14 1 基本採樣 366
14 1 1 期望 366
14 1 2 標準分佈 367
14 1 3 拒絕採樣 369
14 1 4 適應性拒絕採樣 370
14 1 5 重要性採樣 371
14 1 6 採樣 - 重要性 - 重採樣 373
14 2 馬爾可夫鏈蒙特卡洛採樣 374
14 2 1 Metropolis 算法 375
14 2 2 馬爾可夫鏈 376
14 2 3 Metropolis-Hastings 算法 378
14 2 4 吉布斯採樣 380
14 2 5 祖先採樣 382
14 3 郎之萬採樣 383
14 3 1 基於能量的模型 384
14 3 2 最大化似然 385
14 3 3 朗之萬動力學 386
習題 388
第 15 章 離散潛變量 391
15 1 K 均值聚類 392
圖像分割 395
15 2 高斯混合分佈 397
15 2 1 似然函數 399
15 2 2 最大似然 400
15 3 EM 算法 404
15 3 1 高斯混合模型 406
15 3 2 EM 算法與K 均值算法的關系 408
15 3 3 混合伯努利分佈 409
15 4 證據下界 412
15 4 1 EM 算法回顧 413
15 4 2 獨立同分佈數據 415
15 4 3 參數先驗 415
15 4 4 廣義 EM 算法 416
15 4 5 順序 EM 算法 416
習題 417
第 16 章 連續潛變量 421
16 1 主成分分析 422
16 1 1 最大方差表述 423
16 1 2 最小誤差表述 424
16 1 3 數據壓縮 427
16 1 4 數據白化 428
16 1 5 高維數據 429
16 2 概率潛變量 430
16 2 1 生成式模型 431
16 2 2 似然函數 432
16 2 3 最大似然法 433
16 2 4 因子分析 436
16 2 5 獨立成分分析 437
16 2 6 卡爾曼濾波器 439
16 3 證據下界 439
16 3 1 EM 算法 441
16 3 2 PCA 的 EM 算法 442
16 3 3 因子分析的 EM 算法 444
16 4 非線性潛變量模型 444
16 4 1 非線性流形 445
16 4 2 似然函數 447
16 4 3 離散數據 448
16 4 4 構建生成式模型的 4 種方法 448
習題 449
第 17 章 生成對抗網絡 453
17 1 對抗訓練 454
17 1 1 損失函數 455
17 1 2 實戰中的 GAN 訓練 456
17 2 圖像的生成對抗網絡 458
CycleGAN 459
習題 462
第 18 章 標準化流 465
18 1 耦合流 467
18 2 自回歸流 470
18 3 連續流 472
18 3 1 神經 ODE 472
18 3 2 神經 ODE 的反向傳播 473
18 3 3 神經 ODE 流 474
習題 476
第 19 章 自編碼器 479
19 1 確定性的自編碼器 480
19 1 1 線性自編碼器 480
19 1 2 深度自編碼器 481
19 1 3 稀疏自編碼器 482
19 1 4 去噪自編碼器 482
19 1 5 掩蔽自編碼器 483
19 2 變分自編碼器 484
19 2 1 攤銷推理 487
19 2 2 重參數化技巧 488
習題 491
第 20 章 擴散模型 493
20 1 前向編碼器 494
20 1 1 擴散核 495
20 1 2 條件分佈 496
20 2 反向解碼器 497
20 2 1 訓練解碼器 499
20 2 2 證據下界 499
20 2 3 重寫 ELBO 501
20 2 4 預測噪聲 502
20 2 5 生成新的樣本 504
20 3 得分匹配 505
20 3 1 得分損失函數 506
20 3 2 修改得分損失 506
20 3 3 噪聲方差 508
20 3 4 隨機微分方程 508
20 4 有引導的擴散 509
20 4 1 有分類器的引導 510
20 4 2 無分類器的引導 510
習題 513
附 錄 517
附錄 A 線性代數 517
A 1 矩陣恆等式 517
A 2 跡和行列式 518
A 3 矩陣導數 519
A 4 特徵向量 521
附錄 B 變分法 524
附錄 C 拉格朗日乘子 526
參考資料 529
索 引 549