機器學習數學基礎

趙建容,顧先明

  • 出版商: 科學出版
  • 出版日期: 2024-03-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 357
  • ISBN: 7030773306
  • ISBN-13: 9787030773302
  • 相關分類: Machine Learning
  • 下單後立即進貨 (約4週~6週)

  • 機器學習數學基礎-preview-1
  • 機器學習數學基礎-preview-2
  • 機器學習數學基礎-preview-3
  • 機器學習數學基礎-preview-4
  • 機器學習數學基礎-preview-5
機器學習數學基礎-preview-1

相關主題

商品描述

本書首先介紹機器學習的矩陣代數基礎, 包括線性代數基礎、範數理論與投影映射、矩陣分解及應用、梯度矩陣; 然後介紹機器學習的概率與優化基礎, 包含概率統計與信息論基礎、凸函數、優化理論、迭代算法; 最後介紹幾個經典的機器學習模型. 閱讀本書需要微積分、線性代數和概率論與數理統計的基礎知識.

目錄大綱

目錄
前言
符號說明
第1章 線性代數基礎 1
1.1 向量空間 1
1.1.1 研究對象與向量 1
1.1.2 群 2
1.1.3 向量空間的定義 3
1.1.4 生成集和基 6
1.1.5 子空間的交與和 7
1.2 線性映射 9
1.2.1 線性映射的定義 9
1.2.2 線性映射的矩陣表示 11
1.2.3 基變換 13
1.2.4 像集與核 18
1.3 內積空間 20
1.3.1 內積空間的定義 20
1.3.2 常見概念與相關結論 21
1.3.3 四個基本子空間 23
1.4 仿射子空間與仿射映射 29
1.4.1 仿射子空間 29
1.4.2 仿射映射 31
習題 1 32
第2章 範數理論與投影映射 37
2.1 向量範數 37
2.1.1 向量範數的定義 37
2.1.2 常用的向量範數 39
2.1.3 向量序列的收斂性 43
2.1.4 向量範數的對偶範數 47
2.2 矩陣範數 49
2.2.1 矩陣範數的定義和性質 49
2.2.2 幾種常用的矩陣範數 51
2.2.3 由向量範數誘導的矩陣範數 53
2.3 範數的一些應用 59
2.3.1 譜半徑與矩陣範數 59
2.3.2 線性方程組解的擾動分析 62
2.4 投影映射 66
2.4.1 投影映射 66
2.4.2 正交投影的幾個應用 70
習題 2 77
第3章 矩陣分解及應用 80
3.1 方陣的兩個重要數字特徵 80
3.1.1 行列式 80
3.1.2 跡函數 82
3.2 LU 分解 82
3.2.1 LU 分解 83
3.2.2 平方根分解 88
3.3 QR 分解 91
3.3.1 Gram-Schmidt 正交化算法與 QR 分解 92
3.3.2 Householder 變換法與 QR 分解 94
3.3.3 Givens 旋轉和 QR 分解 98
3.3.4 QR 分解的應用 102
3.4 奇異值分解 103
3.4.1 特徵值分解 104
3.4.2 奇異值分解的定義 104
3.4.3 奇異值分解的幾何解釋與性質 111
3.5 矩陣的低秩逼近 114
3.5.1 秩 k 逼近 115
3.5.2 低秩逼近的應用 118
習題 3 122
第4章 梯度矩陣 125
4.1 標量函數的梯度矩陣 125
4.1.1 標量函數的梯度定義 125
4.1.2 標量函數對向量的梯度 127
4.1.3 標量函數對矩陣的梯度 130
4.2 矩陣函數的梯度矩陣 132
4.2.1 向量函數的梯度矩陣 132
4.2.2 矩陣函數的梯度矩陣 134
4.3 矩陣微分 137
4.3.1 矩陣微分的定義與性質 137
4.3.2 標量函數的矩陣微分 139
4.3.3 矩陣函數的矩陣微分 141
4.4 鏈式法則 143
4.5 標量函數的可微性 147
4.5.1 Fréchet 可微與 Gateaux 可微 147
4.5.2 多元函數的 Taylor 公式 150
習題 4 152
第5章 概率統計與信息論基礎 154
5.1 概率分佈、期望和方差 154
5.1.1 一維隨機變量的概率分佈 154
5.1.2 二維隨機變量的聯合分佈 157
5.1.3 期望與方差 158
5.1.4 協方差矩陣與相關系數 160
5.1.5 樣本期望與方差 162
5.1.6 蒙特卡羅模擬 163
5.2 矩和重要不等式 164
5.2.1 矩 164
5.2.2 重要不等式 167
5.3 多元高斯分佈和加權最小二乘法 170
5.3.1 多元高斯分佈 170
5.3.2 最小二乘估計 171
5.4 馬爾可夫鏈 174
5.4.1 離散時間的馬爾可夫鏈 174
5.4.2 連續時間的馬爾可夫鏈 177
5.5 熵 179
5.5.1 離散隨機變量的熵 180
5.5.2 連續型隨機變量的微分熵 184
5.6 KL 散度與互信息 184
5.6.1 KL 散度 184
5.6.2 互信息 187
習題 5 189
第6章 凸函數 191
6.1 凸集 191
6.1.1 集合的基本拓撲概念 191
6.1.2 仿射集合 193
6.1.3 凸集 196
6.1.4 凸集的內部與閉包 200
6.2 凸集的保凸運算 201
6.2.1 交集 201
6.2.2 仿射函數 204
6.2.3 透視函數 207
6.3 凸函數 210
6.3.1 凸函數的定義 210
6.3.2 水平集和上圖 213
6.3.3 Jensen 不等式 218
6.3.4 凸函數的極值 220
6.4 保凸運算與可微性條件 221
6.4.1 保凸運算 222
6.4.2 可微性與凸性 226
6.5 凸分離 230
6.5.1 投影定理 230
6.5.2 分離和超支撐平面的定義 232
6.5.3 凸分離定理 233
6.5.4 擇一定理與不等式 236
6.6 擬凸函數與偽凸函數 240
6.6.1 擬凸函數 240
6.6.2 偽凸函數 243
6.7 次梯度 245
6.7.1 次梯度的定義 245
6.7.2 次梯度的性質與重要結論 247
習題 6 256
第7章 優化理論 259
7.1 最優化問題 259
7.1.1 局部極值的最優化條件 259
7.1.2 最優化問題的一般形式 263
7.2 非光滑優化與光滑優化 264
7.2.1 非光滑優化 265
7.2.2 光滑優化 269
7.3 對偶理論 276
7.3.1 對偶問題 276
7.3.2 強對偶 283
習題 7 287
第8章 迭代算法 290
8.1 線搜索方法 290
8.1.1 線搜索算法 290
8.1.2 步長的選擇 292
8.2 梯度下降法 293
8.2.1 梯度下降法 294
8.2.2 梯度下降法的收斂性 296
8.2.3 隨機梯度下降法 301
8.2.4 次梯度算法 303
8.3 牛頓法 304
8.3.1 經典牛頓法 304
8.3.2 牛頓法的收斂性 306
8.3.3 修正的牛頓法 309
8.3.4 擬牛頓算法 310
8.4 共軛梯度法 311
8.4.1 共軛方向 312
8.4.2 共軛梯度法 316
習題 8 318
第9章 機器學習模型 320
9.1 線性模型 320
9.1.1 線性回歸 320
9.1.2 邏輯回歸 322
9.1.3 正則化 325
9.2 支持向量機 328
9.2.1 最大分類間隔分類器 328
9.2.2 對偶問題 330
9.2.3 軟間隔分類器 331
9.3 神經網絡 333
9.3.1 從線性模型到神經網絡 333
9.3.2 神經網絡與生物學的聯系 334
9.3.3 多層感知機 335
9.3.4 反向傳播 338
9.4 主成分分析 342
9.4.1 算法的推導 342
9.4.2 PAC 在應用中的問題 346
9.4.3 潛在維數的選擇 347
參考文獻 351
索引 353