破解深度學習(基礎篇):模型算法與實現

瞿煒

  • 出版商: 人民郵電
  • 出版日期: 2024-10-01
  • 定價: $659
  • 售價: 8.5$560
  • 語言: 簡體中文
  • 頁數: 264
  • ISBN: 7115646198
  • ISBN-13: 9787115646194
  • 相關分類: DeepLearning
  • 下單後立即進貨 (約4週~6週)

  • 破解深度學習(基礎篇):模型算法與實現-preview-1
  • 破解深度學習(基礎篇):模型算法與實現-preview-2
破解深度學習(基礎篇):模型算法與實現-preview-1

買這商品的人也買了...

相關主題

商品描述

本書旨在採用一種符合讀者認知角度且能提升其學習效率的方式來講解深度學習背後的基礎知識。

本書總計9章,深入淺出地介紹了深度學習的理論與算法基礎,從理論到實戰全方位展開。前三章旨在幫助讀者快速入門,介紹了必要的數學概念和必備工具的用法。後六章沿著深度學習的發展脈絡,從最簡單的多層感知機開始,講解了深度神經網絡的基本原理、常見挑戰、優化算法,以及三大典型模型(基礎捲積神經網絡、基礎循環神經網絡和註意力神經網絡)。

本書系統全面,深入淺出,且輔以生活中的案例進行類比,以此降低學習難度,幫助讀者迅速掌握深度學習的基礎知識。本書適合有志於投身人工智能領域的人員閱讀,也適合作為高等院校人工智能專業的教學用書。

 

作者簡介

瞿炜,美国伊利诺伊大学人工智能博士,哈佛大学、京都大学客座教授;前中国科学院大学教授、模式识别国家重点实验室客座研究员;国家部委特聘专家、重点实验室学术委员会委员;知名国际期刊编委,多个顶级学术期刊审稿人及国际学术会议委员。

李力,人工智能专家,长期致力于计算机视觉和强化学习领域的研究与实践。曾在多家顶尖科技企业担任资深算法工程师,拥有十余年行业经验,具备丰富的技术能力和深厚的理论知识。

杨洁,人工智能和自然语言处理领域资深应用专家,在自然语言理解、基于知识的智能服务、跨模态语言智能、智能问答系统等技术领域具有深厚的实战背景。

目錄大綱

第 1章 歡迎來到深度學習的世界 1

1.1 什麽是深度學習 1

1.2 主要核心模型 3

1.2.1 捲積神經網絡 3

1.2.2 循環神經網絡 4

1.2.3 註意力機制 4

1.2.4 深度生成模型 5

1.2.5 小結 6

1.3 研究和應用領域 6

1.3.1 電腦視覺 6

1.3.2 語音技術 7

1.3.3 自然語言處理 7

1.3.4 多模態融合 8

1.3.5 小結 9

1.4 使用的技術棧 9

1.4.1 編程語言 9

1.4.2 深度學習框架 9

1.4.3 數據集 10

1.4.4 代碼編輯器 10

1.4.5 項目IDE 10

1.4.6 小結 10

第 2章 必要的數學預備知識 11

2.1 線性代數 12

2.1.1 學人工智能為什麽要學線性

    代數 12

2.1.2 線性代數名字的由來 13

2.1.3 線性代數的本質作用 13

2.1.4 學線性代數為何總強調幾何

    意義 13

2.1.5 標量 14

2.1.6 向量 14

2.1.7 矩陣 17

2.1.8 張量 19

2.1.9 小結 20

2.2 微積分 20

2.2.1 極限 21

2.2.2 導數 21

2.2.3 微分 23

2.2.4 偏導數 23

2.2.5 梯度 24

2.2.6 鏈式法則 24

2.2.7 小結 25

2.3 概率統計 25

2.3.1 什麽是概率 25

2.3.2 概率和統計 28

2.3.3 貝葉斯定理 30

2.3.4 最大似然估計 31

2.3.5 小結 31

第3章 環境安裝和工具使用 33

3.1 配置深度學習環境 34

3.1.1 CUDA簡介 34

3.1.2 顯卡驅動 34

3.1.3 安裝CUDA 35

3.1.4 安裝Anaconda 37

3.1.5 小結 39

3.2 conda實用命令 39

3.2.1 Anaconda 圖形化界面介紹 39

3.2.2 conda的命令行操作 41

3.2.3 小結 43

3.3 Jupyter Notebook快速上手 44

3.3.1 Jupyter Notebook的安裝與

運行 45

3.3.2 常用配置項 47

3.3.3 快捷鍵 48

3.3.4 Markdown語法 49

3.3.5 小結 50

3.4 安裝深度學習框架PyTorch 50

3.4.1 PyTorch、CUDA與

NVIDIA 50

3.4.2 安裝PyTorch 50

3.4.3 驗證安裝是否成功 51

3.4.4 小結 52

第4章 深度神經網絡:誤差倒查

分解 53

4.1 神經網絡原理 53

4.1.1 神經元模型 53

4.1.2 神經網絡結構 54

4.1.3 損失函數 57

4.1.4 反向傳播 58

4.1.5 小結 59

4.2 多層感知機 59

4.2.1 線性模型的局限 60

4.2.2 多層感知機模型 61

4.2.3 激活函數 61

4.2.4 小結 66

4.3 前向傳播和反向傳播 67

4.3.1 前向傳播 67

4.3.2 反向傳播 68

4.3.3 小結 70

4.4 多層感知機代碼實現 70

4.4.1 搭建神經網絡的步驟 71

4.4.2 代碼實現 71

4.4.3 小結 76

4.5 回歸問題 76

4.5.1 一元線性回歸 77

4.5.2 多元線性回歸 78

4.5.3 多項式回歸 79

4.5.4 簡單理解梯度下降 80

4.5.5 代碼實現 80

4.5.6 小結 84

4.6 分類問題 84

4.6.1 多分類問題的數學表示 85

4.6.2 Softmax回歸 86

4.6.3 對數損失函數 86

4.6.4 交叉熵損失函數 87

4.6.5 代碼實現 87

4.6.6 小結 90

第5章 常見挑戰及對策:一切為了

泛化能力 91

5.1 訓練問題分析 91

5.1.1 模型架構設計 91

5.1.2 過擬合與欠擬合 92

5.1.3 代碼實現 94

5.1.4 小結 99

5.2 過擬合欠擬合應對策略 99

5.2.1 數據集選擇 99

5.2.2 模型選擇 100

5.2.3 訓練策略選擇 101

5.2.4 小結 102

5.3 正則化 102

5.3.1 正則化定義 103

5.3.2 L1正則化 103

5.3.3 L2正則化 104

5.3.4 範數懲罰 105

5.3.5 權重衰減 105

5.3.6 小結 106

5.4 Dropout方法及代碼實現 106

5.4.1 基本原理 106

5.4.2 直觀解釋 107

5.4.3 優缺點分析 109

5.4.4 代碼實現 109

5.4.5 小結 112

5.5 梯度消失和梯度爆炸 112

5.5.1 根源分析 113

5.5.2 梯度消失 114

5.5.3 梯度爆炸 114

5.5.4 解決辦法 115

5.5.5 小結 117

5.6 模型文件的讀寫 117

5.6.1 張量的保存和加載 117

5.6.2 模型參數的保存和加載 118

5.6.3 小結 119

第6章 梯度下降算法及變體:高效

求解模型參數 120

6.1 為什麽要學最優化 120

6.1.1 深度學習的最優化 120

6.1.2 訓練誤差和泛化誤差 121

6.1.3 常見的優化挑戰 123

6.1.4 小結 125

6.2 損失函數及其性質 126

6.2.1 起源和重要性 126

6.2.2 最大似然估計 126

6.2.3 最大後驗 128

6.2.4 貝葉斯估計 129

6.2.5 損失函數的性質 129

6.2.6 小結 133

6.3 梯度下降算法 133

6.3.1 搜索逼近策略 134

6.3.2 梯度 134

6.3.3 偏導數鏈式法則 135

6.3.4 學習率 136

6.3.5 梯度下降算法 136

6.3.6 小結 137

6.4 梯度下降算法的各種變體 137

6.4.1 加速版改進:隨機梯度

下降法 138

6.4.2 折中版改進:小批量隨機梯度

下降法 139

6.4.3 一階動量改進版:動量法 140

6.4.4 二階動量改進版:AdaGrad

算法 142

6.4.5 自動調整學習率:RMSProp和

AdaDelta算法 144

6.4.6 自適應動量:Adam算法 145

6.4.7 算法大串聯及討論 145

6.4.8 小結 147

6.5 梯度下降算法代碼實現 147

6.5.1 梯度下降過程 147

6.5.2 不同優化器效果對比 151

6.5.3 小結 155

6.6 學習率調節器 155

6.6.1 簡介 155

6.6.2 常見的學習率調節器 156

6.6.3 代碼實現 157

6.6.4 模型訓練對比 158

6.6.5 常見學習率調節器的實現 160

6.6.6 小結 161

第7章 基礎捲積神經網絡:圖像處理

利器 162

7.1 為什麽要用捲積神經網絡 162

7.1.1 全連接層的問題 162

7.1.2 多層感知機的局限 163

7.1.3 解決思路 164

7.1.4 小結 164

7.2 圖像捲積 165

7.2.1 捲積 165

7.2.2 圖像捲積 166

7.2.3 互相關運算 167

7.2.4 小結 168

7.3 捲積層 168

7.3.1 網絡結構 169

7.3.2 感受野 169

7.3.3 與全連接層的區別 170

7.3.4 小結 172

7.4 捲積層常見操作 172

7.4.1 填充 172

7.4.2 步長 173

7.4.3 捲積常見參數關系 173

7.4.4 多通道捲積 174

7.4.5 分組捲積 175

7.4.6 小結 176

7.5 池化層 176

7.5.1 捲積神經網絡典型結構 177

7.5.2 最大池化和平均池化 177

7.5.3 池化層特點 178

7.5.4 小結 179

7.6 捲積神經網絡代碼實現 179

7.6.1 LeNet簡介 179

7.6.2 代碼實現 180

7.6.3 模型訓練 182

7.6.4 小結 184

第8章 基礎循環神經網絡:為序列

數據而生 185

8.1 序列建模 185

8.1.1 序列數據 185

8.1.2 序列模型 187

8.1.3 小結 188

8.2 文本數據預處理 189

8.2.1 預處理流程 189

8.2.2 去除噪聲 189

8.2.3 分詞 190

8.2.4 去除停用詞 190

8.2.5 標準化 191

8.2.6 詞表 191

8.2.7 特徵提取 191

8.2.8 小結 193

8.3 循環神經網絡 194

8.3.1 核心思想 194

8.3.2 展開計算圖 194

8.3.3 RNN結構 195

8.3.4 訓練模式 196

8.3.5 小結 197

8.4 RNN的反向傳播 197

8.4.1 沿時間反向傳播 197

8.4.2 參數梯度 198

8.4.3 小結 199

8.5 時間序列數據預測 199

8.5.1 數據集準備 200

8.5.2 構建模型 202

8.5.3 小結 207

8.6 編解碼器思想及Seq2Seq模型 208

8.6.1 編解碼器思想 208

8.6.2 序列到序列學習 209

8.6.3 編碼器 210

8.6.4 解碼器 210

8.6.5 模型訓練 211

8.6.6 束搜索算法 211

8.6.7 小結 214

8.7 Seq2Seq模型代碼實現 214

8.7.1 模型架構 214

8.7.2 Seq2Seq模型簡單實現 215

8.7.3 小結 222

第9章 註意力神經網絡:賦予模型

認知能力 223

9.1 註意力機制的原理 224

9.1.1 生物學中的註意力 224

9.1.2 深度學習中的註意力機制 225

9.1.3 編解碼器思想和註意力機制的

結合 225

9.1.4 註意力的計算 228

9.1.5 全局註意力、局部註意力和

自註意力 230

9.1.6 註意力機制與Transformer 231

9.1.7 註意力機制的應用 231

9.1.8 小結 232

9.2 復雜註意力機制 233

9.2.1 經典註意力機制計算的

局限性 233

9.2.2 鍵值對註意力 234

9.2.3 多頭註意力 235

9.2.4 自註意力 236

9.2.5 小結 238

9.3 註意力池化及代碼實現 239

9.3.1 註意力可視化 239

9.3.2 註意力池化 241

9.3.3 小結 246

9.4 Transformer模型 246

9.4.1 模型結構 246

9.4.2 編碼器結構 247

9.4.3 多頭自註意力層 248

9.4.4 位置嵌入 249

9.4.5 殘差結構 250

9.4.6 解碼器 251

9.4.7 編解碼器的協同工作 252

9.4.8 線性層和Softmax層 253

9.4.9 優缺點 254

9.4.10 小結 254

9.5 Transformer模型的代碼實現 255

9.5.1 任務數據 255

9.5.2 Transformer模型 256

9.5.3 小結 264