深度強化學習--算法原理與金融實踐入門
謝文傑、周煒星
- 出版商: 清華大學
- 出版日期: 2023-09-01
- 售價: $414
- 貴賓價: 9.5 折 $393
- 語言: 簡體中文
- 頁數: 245
- 裝訂: 平裝
- ISBN: 7302641064
- ISBN-13: 9787302641063
-
相關分類:
Reinforcement、化學 Chemistry
立即出貨 (庫存=1)
買這商品的人也買了...
-
$288$274 -
$505深度強化學習:學術前沿與實戰應用
-
$403圖解雲計算架構 基礎設施和API
-
$420$332 -
$654$621 -
$602基於 MATLAB 的人工智能模式識別
-
$857基於Python的金融分析與風險管理(第2版)
-
$454MATLAB 智能優化算法:從寫代碼到算法思想
-
$480$379 -
$458動手學強化學習
-
$834$792 -
$449基於 Python 的強化學習 (Reinforcement Learning Algorithms with Python : Learn, understand, and develop smart algorithms for addressing AI challenges)
-
$680$537 -
$539$512 -
$403情感分析進階
-
$407Python 統計機器學習
-
$458動手學機器學習
-
$660$515 -
$275數字信號處理實踐與應用 — MATLAB 話數字信號處理, 2/e
-
$560$442 -
$680$537 -
$708$673 -
$600$570 -
$768$730 -
$600$420
相關主題
商品描述
深度強化學習是人工智能和機器學習的重要分支領域,有著廣泛應用,如AlphaGo和ChatGPT。本書作為該領域的入門教材,在內容上盡可能覆蓋深度強化學習的基礎知識和經典算法。全書共10章,大致分為4部分:第1部分(第1~2章)介紹深度強化學習背景(智能決策、人工智能和機器學習);第2部分(第3~4章)介紹深度強化學習基礎知識(深度學習和強化學習);第3部分(第5~9章)介紹深度強化學習經典算法(DQN、AC、DDPG等);第4部分(第10章)為總結和展望。每章都附有習題並介紹了相關閱讀材料,以便有興趣的讀者進一步深入探索。 本書可作為高等院校電腦、智能金融及相關專業的本科生或研究生教材,也可供對深度強化學習感興趣的研究人員和工程技術人員閱讀參考。
目錄大綱
目錄
第 1章智能決策與復雜系統 ......................................................... 1
1.1智能決策.....................................................................1
1.1.1智能決策簡介 ......................................................... 1
1.1.2復雜金融系統中的智能決策 ........................................... 2
1.2復雜系統.....................................................................4
1.2.1復雜性科學 ........................................................... 4
1.2.2復雜系統定義 ......................................................... 6
1.2.3復雜系統類型 ......................................................... 6
1.2.4復雜系統研究 ......................................................... 8
1.3復雜環境特徵 ...............................................................13
1.3.1完全可觀察的和部分可觀察的環境 ................................... 13
1.3.2單智能體和多智能體 ................................................. 14
1.3.3確定的和隨機的環境 ................................................. 14
1.3.4片段式和延續式環境 ................................................. 15
1.3.5靜態和動態環境 ..................................................... 15
1.3.6離散和連續環境 ..................................................... 16
1.3.7已知和未知環境 ..................................................... 16
1.4復雜環境建模 ...............................................................17
1.5智能體建模 ................................................................. 21
1.5.1典型決策系統模型框架 ...............................................21
1.5.2智能體建模框架 ..................................................... 21
1.6智能決策系統建模 .......................................................... 24
1.6.1問題提煉 ............................................................ 24
1.6.2數據採集 ............................................................ 25
1.6.3模型構建 ............................................................ 26
1.6.4算法實現 ............................................................ 26
1.6.5模型訓練 ............................................................ 26
1.6.6模型驗證 ............................................................ 26
1.6.7模型改進 ............................................................ 27
1.6.8模型運用 ............................................................ 27
1.7應用實踐 ................................................................... 27
第 1章習題 ...................................................................... 29
第 2章人工智能與機器學習 ........................................................ 30
2.1人工智能簡介 ...............................................................30
2.1.1人工智能 +農業 .................................................... 31
2.1.2人工智能 +教育 .................................................... 31
2.1.3人工智能 +工業 .................................................... 31
2.1.4人工智能 +金融 .................................................... 32
2.2人工智能前沿 ...............................................................32
2.3人工智能簡史 ...............................................................33
2.4人工智能流派 ...............................................................34
2.4.1符號主義學派 ........................................................35
2.4.2聯結主義學派 ........................................................36
2.4.3行為主義學派 ........................................................37
2.5人工智能基礎 ...............................................................37
2.5.1運籌學...............................................................38
2.5.2最優化控制 .......................................................... 38
2.5.3交叉學科 ............................................................ 39
2.5.4人工智能和機器學習相關會議 ........................................ 39
2.6機器學習分類 ...............................................................39
2.6.1監督學習 ............................................................ 41
2.6.2無監督學習 .......................................................... 41
2.6.3強化學習 ............................................................ 43
2.7機器學習基礎 ...............................................................44
2.7.1激活函數 ............................................................ 44
2.7.2損失函數 ............................................................ 46
2.7.3優化算法 ............................................................ 50
2.8應用實踐 ................................................................... 57 第 2章習題 ...................................................................... 58 第 3章深度學習入門 ...............................................................59
3.1深度學習簡介 ...............................................................59
3.1.1深度學習與人工智能 ................................................. 59
3.1.2深度學習與機器學習 ................................................. 59
3.1.3深度學習與表示學習 ................................................. 61
3.2深度神經網絡 ...............................................................62
3.2.1深度神經網絡構建 ................................................... 62
3.2.2深度神經網絡實例 ................................................... 64
3.3深度捲積神經網絡 .......................................................... 68
目錄
3.4深度循環神經網絡 .......................................................... 69
3.5深度圖神經網絡.............................................................71
3.5.1圖神經網絡簡介 ..................................................... 72
3.5.2圖神經網絡聚合函數 ................................................. 72
3.5.3圖神經網絡更新函數 ................................................. 72
3.5.4圖神經網絡池化函數 ................................................. 73
3.6深度神經網絡訓練 .......................................................... 73
3.6.1模型訓練挑戰 ........................................................73
3.6.2數據預處理 .......................................................... 74
3.6.3參數初始化 .......................................................... 75
3.6.4學習率調整 .......................................................... 76
3.6.5梯度優化算法 ........................................................77
3.6.6超參數優化 .......................................................... 78
3.6.7正則化技術 .......................................................... 80
3.7應用實踐 ................................................................... 80
3.7.1 TensorFlow安裝.....................................................81
3.7.2 TensorFlow基本框架 ................................................ 81
3.7.3 TensorBoard.........................................................82
3.7.4 scikit-learn .......................................................... 82
3.7.5 Keras................................................................83 第 3章習題 ...................................................................... 83 第 4章強化學習入門 ...............................................................84
4.1強化學習簡介 ...............................................................84
4.2馬爾可夫決策過程 .......................................................... 86
4.3動態規劃方法 ...............................................................87
4.3.1策略函數 ............................................................ 88
4.3.2獎勵函數 ............................................................ 88
4.3.3累積回報 ............................................................ 89
4.3.4狀態值函數 .......................................................... 89
4.3.5狀態-動作值函數 .....................................................90
4.3.6狀態-動作值函數與狀態值函數的關系 ................................ 90
4.3.7 Bellman方程 ........................................................ 91
4.3.8策略迭代算法 ........................................................92
4.3.9值函數迭代算法 ..................................................... 95
4.4蒙特卡洛方法 ...............................................................97
4.4.1蒙特卡洛估計 ........................................................97
4.4.2蒙特卡洛強化學習算法偽代碼 .......................................100
· VII ·
4.5時序差分學習 ..............................................................100
4.5.1時序差分學習算法 .................................................. 100
4.5.2時序差分學習算法、動態規劃和蒙特卡洛算法比較 .................. 101
4.5.3 Q-learning..........................................................102
4.5.4 SARSA.............................................................104
4.6策略梯度方法 ..............................................................105
4.7應用實踐 .................................................................. 110
4.7.1強化學習的智能交易系統框架 .......................................110
4.7.2智能交易系統環境模型編程 ......................................... 110 第 4章習題 .....................................................................116 第 5章深度強化學習 Q網絡 ..................................................... 117
5.1深度 Q網絡 ............................................................... 117
5.1.1智能策略 ........................................................... 117
5.1.2策略函數與 Q表格 ................................................. 118
5.1.3策略函數與 Q網絡 ................................................. 120
5.2 DQN算法介紹 ............................................................ 121
5.2.1經驗回放 ........................................................... 121
5.2.2目標網絡 ........................................................... 122
5.3 DQN算法 .................................................................123
5.4 DoubleDQN .............................................................. 125
5.4.1 Double DQN背景 .................................................. 125
5.4.2雙 Q網絡結構......................................................126
5.4.3 Double DQN算法偽代碼 ........................................... 127
5.5 Dueling DQN..............................................................128
5.5.1 Dueling DQN算法框架簡介 ........................................ 128
5.5.2 Dueling DQN算法核心思想 ........................................ 128
5.6 Distributional DQN ....................................................... 129
5.7 DQN的其他改進 .......................................................... 130
5.7.1優先級經驗回放 .................................................... 131
5.7.2噪聲網絡 DQN ..................................................... 132
5.7.3多步(Multi-step)DQN............................................134
5.7.4分佈式訓練 ......................................................... 135
5.7.5 DQN算法改進 ..................................................... 136
5.7.6 DQN算法總結 ..................................................... 136
5.8應用實踐 .................................................................. 137
5.8.1智能投資決策系統 .................................................. 137
5.8.2核心代碼解析 .......................................................139
目錄
5.8.3模型訓練 ........................................................... 140
5.8.4模型測試 ........................................................... 142 第 5章習題 .....................................................................143 第 6章深度策略優化方法 ......................................................... 144
6.1策略梯度方法簡介 ......................................................... 144
6.1.1 DQN的局限 ....................................................... 144
6.1.2策略梯度方法分類 .................................................. 145
6.2隨機性策略梯度算法 ....................................................... 147
6.2.1軌跡數據 ........................................................... 147
6.2.2目標函數 ........................................................... 147
6.2.3梯度計算 ........................................................... 148
6.2.4更新策略 ........................................................... 150
6.3隨機性策略梯度定理 ....................................................... 150
6.3.1隨機性策略梯度定理介紹 ........................................... 150
6.3.2隨機性策略梯度定理分析 ........................................... 151
6.4策略梯度優化幾種實現方法 ................................................ 152
6.4.1策略梯度優化理論 .................................................. 152
6.4.2完整軌跡的累積獎勵回報 ........................................... 152
6.4.3部分軌跡的累積獎勵回報 ........................................... 153
6.4.4常數基線函數 .......................................................153
6.4.5基於狀態的基線函數 ................................................153
6.4.6基於狀態值函數的基線函數 ......................................... 154
6.4.7基於自舉方法的梯度估計 ........................................... 154
6.4.8基於優勢函數的策略梯度優化 .......................................154
6.5深度策略梯度優化算法.....................................................155
6.6置信閾策略優化算法 ....................................................... 157
6.6.1置信閾策略優化算法介紹 ........................................... 157
6.6.2重要性採樣 ......................................................... 158
6.6.3置信閾策略優化算法核心技巧 .......................................160
6.6.4置信閾策略優化算法偽代碼 ......................................... 160
6.7近端策略優化算法 ......................................................... 162
6.7.1近端策略優化算法介紹..............................................162
6.7.2近端策略優化算法核心技巧 ......................................... 162
6.7.3近端策略優化算法(PPO2)偽代碼 .................................164
6.8應用實踐 .................................................................. 165
6.8.1模型參數 ........................................................... 166
6.8.2模型訓練 ........................................................... 167
· IX ·
6.8.3模型測試 ........................................................... 167 第 6章習題 .....................................................................168 第 7章深度確定性策略梯度方法 .................................................. 169
7.1確定性策略梯度方法應用場景 ..............................................169
7.2策略梯度方法比較 ......................................................... 170
7.3確定性策略函數的深度神經網絡表示 ....................................... 172
7.4確定性策略梯度定理 ....................................................... 173
7.5深度確定性策略梯度算法 .................................................. 175
7.5.1算法核心介紹 .......................................................175
7.5.2經驗回放 ........................................................... 176
7.5.3目標網絡 ........................................................... 176
7.5.4參數軟更新 ......................................................... 177
7.5.5深度確定性策略梯度算法偽代碼 .................................... 178
7.6孿生延遲確定性策略梯度算法 ..............................................179
7.6.1 TD3算法介紹 ...................................................... 179
7.6.2 TD3算法的改進 ....................................................179
7.6.3 TD3算法偽代碼 ....................................................181
7.7應用實踐 .................................................................. 183
7.7.1核心代碼解析 .......................................................183
7.7.2模型訓練 ........................................................... 184
7.7.3模型測試 ........................................................... 184 第 7章習題 .....................................................................185 第 8章 Actor-Critic算法 ........................................................186
8.1 Actor-Critic簡介 .......................................................... 186
8.2 AC算法 ...................................................................187
8.2.1 AC算法介紹 ....................................................... 187
8.2.2 AC算法參數更新...................................................188
8.2.3 AC算法偽代碼 ..................................................... 189
8.3 A2C算法..................................................................190
8.3.1 A2C算法介紹 ...................................................... 190
8.3.2優勢函數和基線函數 ................................................192
8.3.3 A2C算法偽代碼 ....................................................193
8.4 A3C算法..................................................................193
8.4.1 A3C算法介紹 ...................................................... 194
8.4.2 A3C算法的改進和優化 .............................................194
8.4.3 A3C算法偽代碼 ....................................................196
8.5 SAC算法 ................................................................. 197
目錄
8.5.1 SAC算法介紹 ...................................................... 197
8.5.2智能體動作多樣性 .................................................. 198
8.5.3 SAC算法理論核心 ................................................. 199
8.5.4 SAC算法偽代碼....................................................201
8.6應用實踐 .................................................................. 203
8.6.1核心代碼解析 .......................................................203
8.6.2模型訓練 ........................................................... 204
8.6.3模型測試 ........................................................... 204 第 8章習題 .....................................................................205 第 9章深度強化學習與規劃 .......................................................206
9.1學習與規劃 ................................................................ 206
9.2基於模型的深度強化學習 .................................................. 207
9.2.1深度強化學習模型分類..............................................207
9.2.2深度強化學習中的學習模塊 ......................................... 208
9.2.3深度強化學習中的規劃模塊 ......................................... 209
9.3 Dyna框架 .................................................................210
9.3.1 Dyna框架介紹 ..................................................... 210
9.3.2 Dyna框架的模型學習 .............................................. 211
9.4 Dyna-Q算法 .............................................................. 212
9.4.1 Dyna-Q算法介紹...................................................212
9.4.2 Dyna-Q算法偽代碼 ................................................ 213
9.5 Dyna-Q改進 .............................................................. 215
9.6 Dyna-2框架 ...............................................................217
9.7應用實踐 .................................................................. 218
9.7.1編程實踐模塊介紹 .................................................. 218
9.7.2 Gym ............................................................... 218
9.7.3強化學習代碼庫 .................................................... 219 第 9章習題 .....................................................................221 第 10章深度強化學習展望 ........................................................223
10.1深度強化學習背景 ........................................................ 223
10.1.1源於學科交叉 ..................................................... 223
10.1.2用於序貫決策 ..................................................... 223
10.1.3強於深度學習 ..................................................... 224
10.2深度強化學習簡史 ........................................................ 224
10.2.1游戲控制嶄露頭角 ................................................. 224
10.2.2 AlphaGo風靡全球 ................................................ 225
10.2.3通用智能備受期待 ................................................. 225
· XI ·
10.3深度強化學習分類 ........................................................ 226
10.3.1基於值函數和基於策略函數的深度強化學習 ........................ 226
10.3.2基於模型和無模型的深度強化學習 ................................. 226
10.3.3異策略和同策略學習 ...............................................228
10.4深度強化學習面臨的挑戰 ................................................. 228
10.4.1樣本效率 .......................................................... 228
10.4.2災難性遺忘 ........................................................229
10.4.3虛實映射鴻溝 ..................................................... 230
10.4.4有效表徵學習 ..................................................... 231
10.4.5可拓展性與規模化 ................................................. 232
10.4.6延遲獎勵 .......................................................... 233
10.4.7稀疏獎勵 .......................................................... 233
10.4.8探索和利用 ........................................................234
10.4.9復雜動態環境 ..................................................... 235
10.5深度強化學習前沿 ........................................................ 236
10.5.1多智能體深度強化學習 ............................................ 236
10.5.2深度逆向強化學習 ................................................. 237
10.5.3模仿學習 .......................................................... 238
10.5.4行為克隆 .......................................................... 239
10.5.5圖強化學習 ........................................................241
10.6深度強化學習實踐 ........................................................ 241
10.6.1深度強化學習建模框架 ............................................ 241
10.6.2深度強化學習模型的核心模塊......................................242 第 10章習題 ....................................................................245