深度學習:基礎與概念

[英]克裡斯托弗 · M. 畢曉普(Christopher M. Bishop) [英]休·畢曉普(Hugh Bishop)

  • 深度學習:基礎與概念-preview-1
  • 深度學習:基礎與概念-preview-2
深度學習:基礎與概念-preview-1

相關主題

商品描述

本書全面且深入地呈現了深度學習領域的知識體系,系統梳理了該領域的核心知識,闡述了深度學習的關鍵概念、基礎理論及核心思想,剖析了當代深度學習架構與技術。全書共 20 章。本書首先介紹深度學習的發展歷程、基本概念及其在諸多領域(如醫療診斷、圖像合成等)產生的深遠影響;繼而深入探討支撐深度學習的數學原理,包括概率、標準分佈等;在網絡模型方面,從單層網絡逐步深入到多層網絡、深度神經網絡,詳細講解其結構、功能、優化方法及其在分類、回歸等任務中的應用,同時涵蓋捲積網絡、Transformer 等前沿架構及其在電腦視覺、自然語言處理等領域的獨特作用。本書還對正則化、採樣、潛變量、生成對抗網絡、自編碼器、擴散模型等關鍵技術展開深入分析,闡釋其原理、算法流程及實際應用場景。對於機器學習領域的新手,本書是全面且系統的入門教材,可引領其踏入深度學

習的知識殿堂;對於機器學習領域從業者,本書是深化專業知識、緊跟技術前沿的有力工具;對於相關專業學生,本書是學習深度學習課程、開展學術研究的優質參考資料。無論是理論學習、實踐應用還是學術研究,本書都是讀者在深度學習領域探索與前行的重要指引。

作者簡介

克裡斯托弗·M. 畢曉普(Christopher M. Bishop)

微軟公司技術研究員、微軟研究 院 科 學 智 能 中 心(Microsoft Research AI4Science)負責人。劍橋達爾文學院院士、英國皇家工程院院士、愛丁堡皇家學會院士和倫敦皇家學會院士。曾出版經典著作《模式識別與機器學習》(Pattern Recognition and Machine Learning)。

休·畢曉普(Hugh Bishop)

Wayve 公司(倫敦一家基於端到端深度學習的自動駕駛公司)應用科學家,負責設計和訓練深度神經網絡。擁有劍橋大學工程系機器學習和機器智能專業碩士

學位、杜倫大學電腦科學工程學碩士學位。

目錄大綱

第 1 章 深度學習革命 1

1 1 深度學習的影響 2

1 1 1 醫療診斷 2

1 1 2 蛋白質結構預測 3

1 1 3 圖像合成 4

1 1 4 大語言模型 5

1 2 一個教學示例 6

1 2 1 合成數據 7

1 2 2 線性模型 7

1 2 3 誤差函數 8

1 2 4 模型復雜度 8

1 2 5 正則化 11

1 2 6 模型選擇 12

1 3 機器學習簡史 14

1 3 1 單層網絡 15

1 3 2 反向傳播 16

1 3 3 深度網絡 17

第 2 章 概 率 21

2 1 概率法則 23

2 1 1 醫學篩查示例 23

2 1 2 加和法則和乘積法則 24

2 1 3 貝葉斯定理 26

2 1 4 再看醫學篩查示例 27

2 1 5 先驗概率和後驗概率 28

2 1 6 獨立變量 28

2 2 概率密度 28

2 2 1 分佈的示例 30

2 2 2 期望和協方差 31

2 3 高斯分佈 32

2 3 1 均值和方差 32

2 3 2 似然函數 33

2 3 3 最大似然的偏差 35

2 3 4 線性回歸 36

2 4 密度變換 37

多元分佈 39

2 5 信息論 40

2 5 1 熵 40

2 5 2 物理學視角 42

2 5 3 微分熵 43

2 5 4 最大熵 44

2 5 5 Kullback-Leibler 散度 45

2 5 6 條件熵 47

2 5 7 互信息 47

2 6 貝葉斯概率 47

2 6 1 模型參數 48

2 6 2 正則化 49

2 6 3 貝葉斯機器學習 50

習題 50

第 3 章 標準分佈 55

3 1 離散變量 56

3 1 1 伯努利分佈 56

3 1 2 二項分佈 57

3 1 3 多項分佈 58

3 2 多元高斯分佈 59

3 2 1 高斯幾何 60

3 2 2 矩 62

3 2 3 局限性 64

3 2 4 條件分佈 64

3 2 5 邊緣分佈 67

3 2 6 貝葉斯定理 70

3 2 7 最大似然 72

3 2 8 序貫估計 73

3 2 9 高斯混合 74

3 3 周期變量 76

馮·米塞斯分佈 76

3 4 指數族分佈 80

充分統計量 84

3 5 非參數化方法 85

3 5 1 直方圖 85

3 5 2 核密度 86

3 5 3 最近鄰 88

習題 90

第 4 章 單層網絡:回歸 97

4 1 線性回歸 97

4 1 1 基函數 98

4 1 2 似然函數 100

4 1 3 最大似然 101

4 1 4 最小二乘的幾何表示 102

4 1 5 序貫學習 102

4 1 6 正則化最小二乘法 103

4 1 7 多重輸出 104

4 2 決策理論 105

4 3 偏差 - 方差權衡 108

習題 112

第 5 章 單層網絡:分類 115

5 1 判別函數 116

5 1 1 二分類 116

5 1 2 多分類 117

5 1 3 1-of-K 編碼方案 119

5 1 4 最小二乘分類 119

5 2 決策理論 121

5 2 1 誤分類率 122

5 2 2 預期損失 124

5 2 3 拒絕選項 125

5 2 4 推理和決策 125

5 2 5 分類器精度 128

5 2 6 ROC 曲線 129

5 3 生成分類器 131

5 3 1 連續輸入 132

5 3 2 最大似然解 134

5 3 3 離散特徵 136

5 3 4 指數族分佈 136

5 4 判別分類器 137

5 4 1 激活函數 137

5 4 2 固定基函數 138

5 4 3 邏輯斯諦回歸 139

5 4 4 多類邏輯斯諦回歸 140

5 4 5 probit 回歸 141

5 4 6 規範連接函數 143

習題 144

第 6 章 深度神經網絡 149

6 1 固定基函數的局限性 150

6 1 1 維度詛咒 150

6 1 2 高維空間 152

6 1 3 數據流形 153

6 1 4 數據依賴的基函數 155

6 2 多層網絡 156

6 2 1 參數矩陣 157

6 2 2 通用近似 158

6 2 3 隱藏單元激活函數 159

6 2 4 權重空間的對稱性 161

6 3 深度網絡 162

6 3 1 層次化表示 162

6 3 2 分佈式表示 163

6 3 3 表示學習 163

6 3 4 遷移學習 164

6 3 5 對比學習 165

6 3 6 通用網絡結構 168

6 3 7 張量 168

6 4 誤差函數 169

6 4 1 回歸 169

6 4 2 二分類 170

6 4 3 多分類 171

6 5 混合密度網絡 172

6 5 1 機器人運動學示例 172

6 5 2 條件混合分佈 173

6 5 3 梯度優化 175

6 5 4 預測分佈 176

習題 177

第 7 章 梯度下降 181

7 1 錯誤平面 182

局部二次近似 183

7 2 梯度下降優化 184

7 2 1 梯度信息的使用 185

7 2 2 批量梯度下降 185

7 2 3 隨機梯度下降 186

7 2 4 小批量方法 187

7 2 5 參數初始化 188

7 3 收斂 189

7 3 1 動量 190

7 3 2 學習率調度 192

7 3 3 AdaGrad、RMSProp 與 Adam 算法 193

7 4 正則化 195

7 4 1 數據歸一化 195

7 4 2 批量歸一化 196

7 4 3 層歸一化 197

習題 198

第 8 章 反向傳播 201

8 1 梯度計算 202

8 1 1 單層網絡 202

8 1 2 一般前饋網絡 202

8 1 3 簡單示例 205

8 1 4 數值微分法 206

8 1 5 雅可比矩陣 207

8 1 6 黑塞矩陣 209

8 2 自動微分法 211

8 2 1 前向模式自動微分 213

8 2 2 逆模式自動微分 215

習題 217

第 9 章 正則化 219

9 1 歸納偏置 220

9 1 1 逆問題 220

9 1 2 無免費午餐定理 221

9 1 3 對稱性和不變性 222

9 1 4 等變性 224

9 2 權重衰減 225

9 2 1 一致性正則化項 226

9 2 2 廣義權重衰減 228

9 3 學習曲線 230

9 3 1 早停法 230

9 3 2 雙重下降 231

9 4 參數共享 234

軟權重共享 234

9 5 殘差連接 236

9 6 模型平均 239

dropout 241

習題 243

第 10 章 捲積網絡 247

10 1 電腦視覺 248

圖像數據 248

10 2 捲積濾波器 249

10 2 1 特徵檢測器 250

10 2 2 平移等變性 251

10 2 3 填充 252

10 2 4 跨步捲積 253

10 2 5 多維捲積 253

10 2 6 池化 255

10 2 7 多層捲積 256

10 2 8 網絡架構示例 257

10 3 可視化訓練好的 CNN 259

10 3 1 視覺皮層 259

10 3 2 可視化訓練好的濾波器 260

10 3 3 顯著性圖 262

10 3 4 對抗攻擊 263

10 3 5 合成圖像 264

10 4 目標檢測 265

10 4 1 邊界框 265

10 4 2 交並比 266

10 4 3 滑動窗口 267

10 4 4 跨尺度檢測 268

10 4 5 非最大抑制 269

10 4 6 快速區域捲積神經網絡 270

10 5 圖像分割 270

10 5 1 捲積分割 270

10 5 2 上採樣 271

10 5 3 全捲積網絡 272

10 5 4 U-Net 架構 273

10 6 風格遷移 274

習題 275

第 11 章 結構化分佈 279

11 1 概率圖模型 280

11 1 1 有向圖 280

11 1 2 分解 280

11 1 3 離散變量 282

11 1 4 高斯變量 284

11 1 5 二元分類器 286

11 1 6 參數和觀測值 287

11 1 7 貝葉斯定理 288

11 2 條件獨立性 289

11 2 1 3 個示例圖 289

11 2 2 相消解釋 292

11 2 3 d 分離 293

11 2 4 樸素貝葉斯 294

11 2 5 生成式模型 296

11 2 6 馬爾可夫毯 297

11 2 7 作為過濾器的圖 298

11 3 序列模型 299

潛變量 301

習題 302

第 12 章 Transformer 305

12 1 註意力 306

12 1 1 Transformer 處理 308

12 1 2 註意力系數 308

12 1 3 自註意力 309

12 1 4 網絡參數 310

12 1 5 縮放自註意力 312

12 1 6 多頭註意力 313

12 1 7 Transformer 層 315

12 1 8 計算復雜性 316

12 1 9 位置編碼 317

12 2 自然語言 319

12 2 1 詞嵌入 320

12 2 2 分詞 321

12 2 3 詞袋模型 322

12 2 4 自回歸模型 323

12 2 5 遞歸神經網絡 324

12 2 6 通過時間的反向傳播 325

12 3 Transformer 語言模型 326

12 3 1 解碼器型 Transformer 326

12 3 2 抽樣策略 329

12 3 3 編碼器型 Transformer 330

12 3 4 序列到序列 Transformer 332

12 3 5 大語言模型 333

12 4 多模態 Transformer 336

12 4 1 視覺 Transformer 336

12 4 2 圖像生成 Transformer 337

12 4 3 音頻數據 339

12 4 4 文本語音轉換 340

12 4 5 視覺和語言 Transformer 342

習題 343

第 13 章 圖神經網絡 347

13 1 基於圖的機器學習 348

13 1 1 圖的屬性 349

13 1 2 鄰接矩陣 349

13 1 3 排列等變性 350

13 2 神經信息傳遞 351

13 2 1 捲積濾波器 352

13 2 2 圖捲積網絡 353

13 2 3 聚合算子 354

13 2 4 更新算子 356

13 2 5 節點分類 357

13 2 6 邊分類 358

13 2 7 圖分類 358

13 3 通用圖網絡 359

13 3 1 圖註意力網絡 359

13 3 2 邊嵌入 360

13 3 3 圖嵌入 360

13 3 4 過度平滑 361

13 3 5 正則化 362

13 3 6 幾何深度學習 362

習題 363

第 14 章 採 樣 365

14 1 基本採樣 366

14 1 1 期望 366

14 1 2 標準分佈 367

14 1 3 拒絕採樣 369

14 1 4 適應性拒絕採樣 370

14 1 5 重要性採樣 371

14 1 6 採樣 - 重要性 - 重採樣 373

14 2 馬爾可夫鏈蒙特卡洛採樣 374

14 2 1 Metropolis 算法 375

14 2 2 馬爾可夫鏈 376

14 2 3 Metropolis-Hastings 算法 378

14 2 4 吉布斯採樣 380

14 2 5 祖先採樣 382

14 3 郎之萬採樣 383

14 3 1 基於能量的模型 384

14 3 2 最大化似然 385

14 3 3 朗之萬動力學 386

習題 388

第 15 章 離散潛變量 391

15 1 K 均值聚類 392

圖像分割 395

15 2 高斯混合分佈 397

15 2 1 似然函數 399

15 2 2 最大似然 400

15 3 EM 算法 404

15 3 1 高斯混合模型 406

15 3 2 EM 算法與K 均值算法的關系 408

15 3 3 混合伯努利分佈 409

15 4 證據下界 412

15 4 1 EM 算法回顧 413

15 4 2 獨立同分佈數據 415

15 4 3 參數先驗 415

15 4 4 廣義 EM 算法 416

15 4 5 順序 EM 算法 416

習題 417

第 16 章 連續潛變量 421

16 1 主成分分析 422

16 1 1 最大方差表述 423

16 1 2 最小誤差表述 424

16 1 3 數據壓縮 427

16 1 4 數據白化 428

16 1 5 高維數據 429

16 2 概率潛變量 430

16 2 1 生成式模型 431

16 2 2 似然函數 432

16 2 3 最大似然法 433

16 2 4 因子分析 436

16 2 5 獨立成分分析 437

16 2 6 卡爾曼濾波器 439

16 3 證據下界 439

16 3 1 EM 算法 441

16 3 2 PCA 的 EM 算法 442

16 3 3 因子分析的 EM 算法 444

16 4 非線性潛變量模型 444

16 4 1 非線性流形 445

16 4 2 似然函數 447

16 4 3 離散數據 448

16 4 4 構建生成式模型的 4 種方法 448

習題 449

第 17 章 生成對抗網絡 453

17 1 對抗訓練 454

17 1 1 損失函數 455

17 1 2 實戰中的 GAN 訓練 456

17 2 圖像的生成對抗網絡 458

CycleGAN 459

習題 462

第 18 章 標準化流 465

18 1 耦合流 467

18 2 自回歸流 470

18 3 連續流 472

18 3 1 神經 ODE 472

18 3 2 神經 ODE 的反向傳播 473

18 3 3 神經 ODE 流 474

習題 476

第 19 章 自編碼器 479

19 1 確定性的自編碼器 480

19 1 1 線性自編碼器 480

19 1 2 深度自編碼器 481

19 1 3 稀疏自編碼器 482

19 1 4 去噪自編碼器 482

19 1 5 掩蔽自編碼器 483

19 2 變分自編碼器 484

19 2 1 攤銷推理 487

19 2 2 重參數化技巧 488

習題 491

第 20 章 擴散模型 493

20 1 前向編碼器 494

20 1 1 擴散核 495

20 1 2 條件分佈 496

20 2 反向解碼器 497

20 2 1 訓練解碼器 499

20 2 2 證據下界 499

20 2 3 重寫 ELBO 501

20 2 4 預測噪聲 502

20 2 5 生成新的樣本 504

20 3 得分匹配 505

20 3 1 得分損失函數 506

20 3 2 修改得分損失 506

20 3 3 噪聲方差 508

20 3 4 隨機微分方程 508

20 4 有引導的擴散 509

20 4 1 有分類器的引導 510

20 4 2 無分類器的引導 510

習題 513

附 錄 517

附錄 A 線性代數 517

A 1 矩陣恆等式 517

A 2 跡和行列式 518

A 3 矩陣導數 519

A 4 特徵向量 521

附錄 B 變分法 524

附錄 C 拉格朗日乘子 526

參考資料 529

索 引 549