人工智能概率與統計基礎

王卓,薛棟,王聖強

相關主題

商品描述

本書系統地探討了概率與統計在人工智能領域中的廣泛應用,從理論基礎到實戰技術,內容全面且深入。全書共 13 章,涵蓋概率論、統計學、回歸分析、時間序列、特征工程與選擇、網絡模型構建與優化等基礎知識,延伸至自然語言處理、計算機視覺、 系統和強化學習等前沿應用場景。通過理論講解、模型分析和代碼實踐,深入剖析概率和統計在算法建模、性能優化和結果解釋中的關鍵作用。本書配有豐富的案例分析、課後練習及可視化示例,適合人工智能從業者、研究人員及相關專業學生學習和參考。

作者簡介

王卓,前阿裏達摩院創新業務中心 算法工程師,參與了通義千大模型系列Qwen1、Qwen1.5的落地工作。精通大模型開發、計算機視覺、自然語言處理等方向的技術,負責多個深度學習算法在各種大模型和不同場景的業務落地。薛棟,華東理工大學信息科學與技術學院副教授/碩士生導師,德國慕尼黑工業大學工學博士,“上海市高層次青年人才計劃”“浦江人才計劃”獲得者。長期從事基於人工智能與大數據相關研究。王聖強,華東理工大學數學學院副教授、數學與應用數學系副主任,覆旦大學數學科學學院理學博士,先後榮獲第五屆上海高校青年教師教學競賽一等獎,上海市教學能手,校 共產黨員,校青年五四獎章,校教學新星、校研究生課程 任課教師等榮譽。

目錄大綱

第1章 概率論基礎 001
1.1 概率的基本概念 002
1.1.1 概率的定義 002
1.1.2 概率的公理 002
1.1.3 概率的衍生 003
1.1.4 事件的運算:並、交、補 004
1.2 樣本空間與事件 007
1.2.1 樣本空間的定義 007
1.2.2 事件的分類:簡單事件與覆合事件 010
1.2.3 事件概率的運算:加法與乘法規則 012
1.3 條件概率與獨立性 016
1.3.1 條件概率的定義與計算 016
1.3.2 事件的獨立性 019
1.3.3 全概率公式與貝葉斯定理 021
1.4 隨機變量與其分布 024
1.4.1 隨機變量的定義與類型 024
1.4.2 概率密度函數與概率質量函數 026
1.4.3 隨機變量的分布 029
1.5 期望值、方差與協方差 031
1.5.1 期望值的定義與計算 032
1.5.2 方差與標準差 035
1.5.3 協方差與相關系數 037
1.6 大數定律與中心極限定理 039
1.6.1 大數定律的概念與證明 039
1.6.2 弱大數定律與強大數定律 042
1.6.3 中心極限定理的概念與證明 043
1.7 隨機過程 045
1.8 課後練習 048

第2章 描述統計與推斷統計 049
2.1 描述統計的基本概念 050
2.2 點估計與區間估計 055
2.3 假設檢驗 061
2.3.1 t 檢驗 061
2.3.2 z 檢驗 064
2.3.3 卡方檢驗 067
2.4 課後練習 070

第3章 回歸分析與方差分析 071
3.1 線性回歸介紹 072
3.1.1 線性回歸的背景 072
3.1.2 線性回歸的基本概念 072
3.1.3 線性回歸的分類 072
3.2 簡單線性回歸 073
3.3 多元線性回歸與相關性分析 076
3.3.1 多元線性回歸模型 076
3.3.2 相關性分析 079
3.3.3 多重共線性問題 081
3.4 邏輯回歸 083
3.4.1 邏輯回歸模型的基本概念 083
3.4.2 最大似然估計 086
3.4.3 邏輯回歸模型的評估 088
3.5 正則化技術 091
3.5.1 正則化的基本概念 092
3.5.2 L1 正則化(Lasso 回歸) 092
3.5.3 L2 正則化(Ridge 回歸) 094
3.5.4 Elastic Net 正則化(Elastic Net 回歸) 096
3.6 方差分析(ANOVA) 098
3.7 課後練習 101

第4章 時間序列分析與蒙特卡洛模擬 103
4.1 時間序列分析 104
4.1.1 時間序列的定義與分類 104
4.1.2 時間序列的組成 104
4.1.3 時間序列的平穩性與非平穩性 105
4.2 自回歸模型(AR)與移動平均模型(MA)105
4.2.1 自回歸模型(AR) 105
4.2.2 移動平均模型(MA) 108
4.2.3 自回歸模型和移動平均模型的比較與選擇 111
4.3 ARIMA 模型 112
4.3.1 ARIMA 模型的基本概念 112
4.3.2 模型識別與參數估計 114
4.4 時間序列的季節性與趨勢分析 119
4.4.1 季節性分析 119
4.4.2 趨勢分析 123
4.5 隨機抽樣與蒙特卡洛方法 125
4.5.1 隨機抽樣 125
4.5.2 蒙特卡洛方法 126
4.5.3 蒙特卡洛方法的優化 128
4.5.4 時間序列建模與蒙特卡洛模擬 130
4.6 課後練習 132

第5章 數據表示與預處理 134
5.1 數據統計描述與可視化 135
5.2 數據歸一化與標準化 136
5.2.1 數據歸一化 136
5.2.2 數據標準化 138
5.3 數據清洗與處理 141
5.3.1 異常值檢測與處理 141
5.3.2 缺失值處理 144
5.3.3 數據變換與縮放 147
5.4 特征工程 150
5.4.1 特征構造與轉換 150
5.4.2 特征選擇的統計方法 152
5.5 課後練習 156


第6章 特征提取與選擇 157
6.1 特征提取基礎 158
6.1.1 特征提取的定義與目的 158
6.1.2 特征提取的方法 158
6.2 統計方法在特征提取中的應用 159
6.2.1 主成分分析(PCA) 159
6.2.2 獨立成分分析 163
6.2.3 線性判別分析 166
6.3 特征選擇 168
6.3.1 基於統計的特征選擇方法 169
6.3.2 基於模型的特征選擇方法 171
6.3.3 嵌入式特征選擇方法 173
6.4 課後練習 176


第7章 網絡模型架構:從理論到實踐 177
7.1 網絡模型解析 178
7.1.1 模型演進之路:從傳統機器學習到深度學習 178
7.1.2 模型架構基礎:定義標準與分類圖譜 179
7.2 機器學習模型的構建與應用 182
7.2.1 線性回歸模型:數據預測的基石 182
7.2.2 邏輯回歸模型:二分類問題的解決之道 186
7.2.3 支持向量機(SVM):尋找最優分類超平面 190
7.2.4 決策樹:基於特征分裂的決策模型 193
7.2.5 隨機森林:集成學習方法提升模型泛化能力 195
7.2.6 K- 最近鄰算法模型:基於實例的學習方法 198
7.3 深度學習模型的構建與創新 202
7.3.1 前饋神經網絡(FNN):神經網絡的基本形態 202
7.3.2 卷積神經網絡:圖像識別的強大工具 205
7.3.3 循環神經網絡:處理序列數據 210
7.3.4 長短期記憶人工神經網絡:解決梯度
消失與爆炸問題 213
7.3.5 生成對抗網絡:生成模型的創新突破 217
7.4 課後練習 220

第8章 模型優化:從理論到實踐 221
8.1 模型優化技術解析 222
8.2 基礎優化算法:梯度下降與自適應學習率 222
8.2.1 梯度下降的原理與應用 222
8.2.2 自適應學習率算法的基礎理論和實際應用 226
8.3 二階優化算法的原理與應用 229
8.3.1 牛頓法與擬牛頓法 230
8.3.2 RMSprop:適應性二階近似 233
8.3.3 二階優化深度探索 236
8.4 正則化技術與模型泛化 239
8.4.1 正則化技術概述 239
8.4.2 L1 正則化:稀疏性約束 240
8.4.3 L2 正則化:權重衰減 242
8.4.4 Dropout:使神經元“失活” 244
8.5 超參數優化策略 247
8.5.1 超參數基礎概念 247
8.5.2 貝葉斯優化:高效優化策略 247
8.6 課後練習 250

第9章 模型評估與解釋:從度量到洞察 251
9.1 模型評估介紹 252
9.1.1 常用的模型評估指標 252
9.1.2 評估指標的數學基礎:概率與統計原理 252
9.2 性能指標與損失函數對照 255
9.2.1 損失函數與性能指標的關聯 255
9.2.2 性能指標中概率與統計的應用 256
9.3 模型解釋性技術解析 260
9.3.1 模型解釋性技術的核心理念 260
9.3.2 概率與統計在模型解釋性技術中的應用 260
9.4 重要評估參數:靈敏度分析與梯度檢查 264
9.4.1 概率與統計在靈敏度分析中的應用 264
9.4.2 梯度檢查:驗證反向傳播的正確性 266
9.5 誤差分析與模型診斷 270
9.5.1 誤差分析:誤差類型與來源識別 270
9.5.2 模型診斷流程:從可視化到改進策略 273
9.6 課後練習 278

第10章 計算機語言處理的數學基石:NLP 中的概率與統計實戰 279
10.1 初識 NLP 280
10.1.1 NLP 的基本概念與多元應用 280
10.1.2 概率與統計在 NLP 中的關鍵作用 280
10.2 詞嵌入的概念與應用 281
10.2.1 概率與統計在詞嵌入中的作用 281
10.2.2 主流詞嵌入模型介紹 281
10.3 表示學習的概念與應用 284
10.3.1 表示學習的核心思想與流程 284
10.3.2 概率與統計在表示學習中的作用 285
10.4 語言模型與序列建模的簡介與應用 287
10.4.1 語言模型的應用 288
10.4.2 概率與統計在語言模型中的應用 288
10.5 註意力機制與 Transformer 的創新應用 291
10.6 課後練習 295

第11章 計算機視覺中的概率與統計應用 296
11.1 計算機視覺技術基礎 297
11.1.1 計算機視覺的應用 297
11.1.2 概率與統計在視覺識別中的作用 297
11.2 圖像處理與變換技術 298
11.2.1 常用的圖像處理技術 298
11.2.2 圖像處理:梯度計算與邊緣檢測 299
11.2.3 圖像增強:畫質提升關鍵技術 301
11.2.4 幾何變換和圖像變換技術的原理與應用 304
11.2.5 圖像分割技術的原理與應用 307
11.3 特征提取與描述的原理與應用 310
11.3.1 特征提取的核心方法 310
11.3.2 概率和統計在特征提取中的應用 310
11.4 概率與統計在計算機視覺中的應用 313
11.4.1 卷積神經網絡的原理與實踐 313
11.4.2 分類利器:支持向量機(SVM) 316
11.4.3 圖像生成與變換 319
11.5 目標檢測與定位的原理與應用 323
11.5.1 傳統方法回顧:早期目標檢測技術盤點 323
11.5.2 基於深度學習的目標檢測技術 325
11.6 課後練習 327

第 12 章 推薦系統介紹及概率和統計的作用 328
12.1 推薦系統概述 329
12.1.1 推薦系統的分類與特點 329
12.1.2 推薦系統的應用領域 329
12.1.3 概率與統計在推薦系統中的作用 330
12.2 推薦算法的原理與應用 331
12.2.1 精確匹配:基於內容的推薦 331
12.2.2 “眾人之選”:基於協同過濾的推薦 333
12.3 基於標簽的推薦 336
12.3.1 獲取用戶標簽 336
12.3.2 基於用戶興趣標簽的推薦算法介紹 337
12.3.3 基於物品標簽的推薦算法介紹 340
12.4 基於深度學習的推薦模型 343
12.4.1 深度學習在推薦系統中的應用 343
12.4.2 基於 MLP 的推薦模型在推薦系統中的應用 343
12.4.3 基於卷積神經網絡的推薦模型 348
12.5 課後練習 354

第 13 章 強化學習介紹及概率與統計的應用 356
13.1 強化學習概述 357
13.1.1 強化學習的核心機制 357
13.1.2 強化學習與其他機器學習方法的綜合對比 357
13.1.3 概率與統計在強化學習中的作用 358
13.2 狀態表示與動作表示的基本概念與應用 359
13.2.1 狀態表示和動作表示的基本概念 359
13.2.2 概率與統計在狀態表示和動作表示中的作用 359
13.3 價值函數的基本概念與應用 362
13.3.1 價值函數的基本概念 362
13.3.2 概率與統計在價值函數中的應用 363
13.4 策略表示的基本概念與應用 364
13.4.1 策略表示的基本概念 364
13.4.2 概率與統計在策略表示中的應用 365
13.5 馬爾可夫決策過程的基本概念與應用 369
13.5.1 馬爾可夫決策過程的核心要素 369
13.5.2 概率與統計在馬爾可夫決策過程中的應用 370
13.5.3 貝爾曼方程的形式及概率與統計的作用 373
13.6 蒙特卡洛方法的基本概念與應用 380
13.6.1 蒙特卡洛方法的核心思想及概率與統計的作用 381
13.6.2 蒙特卡洛方法的改進 384
13.7 Q-Learning 算法 387
13.7.1 Q-Learning 的動作值函數 387
13.7.2 概率與統計在 Q-Learning 中的作用 388
13.8 課後練習 392