深度強化學習 Deep Reinforcement Learning
[荷蘭] 阿斯克·普拉特(Aske Plaat)著 殷海英 譯 殷海英 譯
- 出版商: 清華大學
- 出版日期: 2024-06-01
- 售價: $479
- 貴賓價: 9.5 折 $455
- 語言: 簡體中文
- ISBN: 7302659796
- ISBN-13: 9787302659792
-
相關分類:
Reinforcement、化學 Chemistry
- 此書翻譯自: Deep Reinforcement Learning
立即出貨
買這商品的人也買了...
-
$3,490$3,316 -
$480$360 -
$1,680$1,646 -
$2,205Effective Python: 90 Specific Ways to Write Better Python, 2/e (Paperback)
-
$580$493 -
$1,000$850 -
$1,200$792 -
$1,850$1,758 -
$1,460$1,431 -
$1,800$1,710 -
$2,600$2,548 -
$450$338 -
$780$616 -
$3,600$3,528 -
$2,600$2,548 -
$2,300$2,254 -
$1,008$958 -
$3,980$3,781 -
$2,260$2,215 -
$520$390 -
$2,660$2,520
相關主題
商品描述
" 近年來,深度強化學習成為關註的熱點。在自動駕駛、棋牌游戲、分子重排和機器人等領域,電腦程序能夠通過強化學習,理解以前被視為超級困難的問題,取得了令人矚目的成果。在圍棋比賽中,AlphaGo接連戰勝樊麾、李世石和柯潔等人類冠軍。深度強化學習從生物學和心理學領域的研究中受到啟發。生物學激發了人工神經網絡和深度學習的出現,而心理學研究人和動物如何學習,如何通過正負刺激來強化目標行為。瞭解了強化學習如何指導機器人行走時,我們不禁聯想到兒童如何在玩中學習。動物行為和大腦結構可作為新的科學和工程藍圖。電腦似乎真正具備了人類的某些行為特徵,深度強化學習技術成為實現AI夢想的核心。 教育界也十分重視深度強化學習的研究進展。許多大學開設了深度強化學習課程。本書恰到好處地介紹了深度強化學習領域的技術細節,可作為AI研究生課程的教材。本書講解全面,涵蓋深度Q-learning的基本算法,乃至多智能體強化學習和元學習等高級主題。 "
目錄大綱
目 錄
第1章 簡介 1
1.1 什麽是深度強化學習 1
1.1.1 深度學習 2
1.1.2 強化學習 2
1.1.3 深度強化學習 3
1.1.4 應用 3
1.1.5 四個相關領域 6
1.2 三種機器學習範式 10
1.2.1 監督學習 12
1.2.2 無監督學習 13
1.2.3 強化學習 14
1.3 本書概述 15
1.3.1 預備知識 16
1.3.2 本書結構 17
第2章 表格值為基礎的強化學習 21
2.1 序貫決策問題 22
2.1.1 網格世界 23
2.1.2 迷宮和盒子謎題 23
2.2 基於表格值的智能體 24
2.2.1 智能體和環境 25
2.2.2 馬爾可夫決策過程 25
2.2.3 MDP目標 31
2.2.4 MDP問題的解決方法 35
2.3 經典的Gym環境 50
2.3.1 Mountain car和Cartpole 50
2.3.2 路徑規劃與棋盤游戲 51
2.4 本章小結 51
2.5 擴展閱讀 53
2.6 練習 53
2.6.1 復習題 53
2.6.2 練習題 54
第3章 基於值的深度強化學習 57
3.1 大規模、高維度問題 60
3.1.1 Atari街機游戲 60
3.1.2 實時戰略游戲和視頻游戲 62
3.2 深度值函數智能體 62
3.2.1 利用深度學習對大規模問題進行泛化 62
3.2.2 三個挑戰 65
3.2.3 穩定的基於值的深度學習 67
3.2.4 提升探索能力 72
3.3 Atari 2600環境 75
3.3.1 網絡結構 76
3.3.2 評估Atari游戲表現 76
3.4 本章小結 77
3.5 擴展閱讀 78
3.6 習題 78
3.6.1 復習題 78
3.6.2 練習題 79
第4章 基於策略的強化學習 81
4.1 連續問題 82
4.1.1 連續策略 82
4.1.2 隨機策略 83
4.1.3 環境:Gym和MuJoCo 83
4.2 基於策略的智能體 86
4.2.1 基於策略的算法:
REINFORCE 86
4.2.2 基於策略的方法中的偏差-方差權衡 89
4.2.3 演員-評論家“自舉”方法 90
4.2.4 基線減法與優勢函數 92
4.2.5 信任域優化 95
4.2.6 熵和探索 96
4.2.7 確定性策略梯度 98
4.2.8 實際操作:MuJoCo中的PPO和DDPG示例 100
4.3 運動與視覺-運動環境 101
4.3.1 機器人運動 102
4.3.2 視覺-運動交互 103
4.3.3 基準測試 104
4.4 本章小結 105
4.5 擴展閱讀 105
4.6 習題 106
4.6.1 復習題 106
4.6.2 練習題 107
第5章 基於模型的強化學習 109
5.1 高維問題的動態模型 111
5.2 學習與規劃智能體 112
5.2.1 學習模型 117
5.2.2 使用模型進行規劃 121
5.3 高維度環境 126
5.3.1 基於模型的實驗概覽 126
5.3.2 小型導航任務 127
5.3.3 機器人應用 127
5.3.4 Atari游戲應用 128
5.3.5 實際操作:PlaNet示例 129
5.4 本章小結 130
5.5 擴展閱讀 132
5.6 習題 132
5.6.1 復習題 132
5.6.2 練習題 133
第6章 雙智能體自對弈 135
6.1 雙智能體的“零和問題” 138
6.1.1 困難的圍棋游戲 140
6.1.2 AlphaGo的成就 142
6.2 空白板自我對弈智能體 144
6.2.1 棋步級別的自我對弈 147
6.2.2 示例級別的自我對弈 157
6.2.3 錦標賽級別的自我對弈 159
6.3 自我對弈環境 162
6.3.1 如何設計世界級圍棋程序 163
6.3.2 AlphaGo Zero的性能表現 164
6.3.3 AlphaZero 166
6.3.4 自我對弈開放框架 167
6.3.5 在PolyGames中實例化Hex游戲 168
6.4 本章小結 170
6.5 擴展閱讀 171
6.6 習題 172
6.6.1 復習題 172
6.6.2 練習題 173
第7章 多智能體強化學習 175
7.1 多智能體問題 177
7.1.1 競爭行為 179
7.1.2 合作行為 179
7.1.3 混合行為 181
7.1.4 挑戰 183
7.2 多智能體強化學習智能體 184
7.2.1 競爭性行為 185
7.2.2 合作行為 187
7.2.3 混合行為 190
7.3 多智能體環境 194
7.3.1 競爭行為:撲克 195
7.3.2 合作行為:捉迷藏 196
7.3.3 混合行為:奪旗比賽和星際爭霸 198
7.3.4 實際操作:體育館中的捉迷藏示例 200
7.4 本章小結 201
7.5 擴展閱讀 202
7.6 習題 203
7.6.1 復習題 203
7.6.2 練習題 204
第8章 分層強化學習 205
8.1 問題結構的粒度 206
8.1.1 優點 207
8.1.2 缺點 207
8.2 智能體的分而治之 208
8.2.1 選項框架 208
8.2.2 尋找子目標 209
8.2.3 分層算法概述 210
8.3 分層環境 214
8.3.1 四個房間和機器人任務 214
8.3.2 蒙特祖瑪的復仇 215
8.3.3 多智能體環境 217
8.3.4 實際操作示例:分層演員-評論家 217
8.4 本章小結 219
8.5 擴展閱讀 220
8.6 習題 220
8.6.1 復習題 220
8.6.2 練習題 221
第9章 元學習 223
9.1 學會與學習相關的問題 225
9.2 遷移學習與元學習智能體 226
9.2.1 遷移學習 227
9.2.2 元學習 231
9.3 元學習環境 238
9.3.1 圖像處理 239
9.3.2 自然語言處理 240
9.3.3 元數據集 240
9.3.4 元世界 241
9.3.5 Alchemy 242
9.3.6 實際操作:Meta-World示例 242
9.4 本章小結 244
9.5 擴展閱讀 244
9.6 習題 245
9.6.1 復習題 245
9.6.2 練習題 245
第10章 未來發展 247
10.1 深度強化學習的發展 247
10.1.1 表格方法 247
10.1.2 無模型深度學習 248
10.1.3 多智能體方法 248
10.1.4 強化學習的演化歷程 249
10.2 主要挑戰 249
10.2.1 潛在模型 250
10.2.2 自我對弈 250
10.2.3 分層強化學習 251
10.2.4 遷移學習和元學習 251
10.2.5 種群化方法 252
10.2.6 探索與內在動機 252
10.2.7 可解釋的人工智能 253
10.2.8 泛化 253
10.3 人工智能的未來 254
—以下內容可掃描封底二維碼下載—
附錄A 數學背景知識 255
附錄B 深度監督學習 269
附錄C 深度強化學習套件 299
參考文獻 303