強化學習與最優控制 Reinforcement Learning and Optimal Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著李宇超譯

預覽內頁

出版商: 清華大學
出版日期: 2024-04-01
售價: $834
貴賓價: 9.5 折 $792
語言: 簡體中文
頁數: 271
ISBN: 7302656444
ISBN-13: 9787302656449
相關分類: Reinforcement、系統開發
此書翻譯自: Reinforcement Learning and Optimal Control

立即出貨

買這商品的人也買了...

$450

統計強化學習：現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)
$659

模型參考自適應控制導論
$564

深度強化學習：學術前沿與實戰應用
$611

自研操作系統：DIM-SUM設計與實現
~~$580~~ $458

大規模重構｜奪回源碼庫的控制權 (Refactoring at Scale: Regaining Control of Your Codebase)
$459

線性狀態空間控制系統
$735

仿人機器人建模與控制
$569

設計模式之美
$658

優化理論與實用算法
$556

Python 編程與數值方法
~~$594~~ $564

應用隨機過程概率模型導論, 11/e
~~$1,188~~ $1,129

從 ROS1 到 ROS2 無人機編程實戰指南
$862

機器學習中的一階與隨機優化方法
$917

現代控制系統, 14/e
~~$594~~ $564

圖解入門：功率半導體基礎與工藝精講 (原書第3版)
$469

模式識別與人工智能, 2/e (基於 MATLAB)
$787

程序員進階之路：緩存、網絡、內存與案例
$1,190

深度學習精粹與 PyTorch 實踐
~~$834~~ $792

算法設計與分析基礎, 3/e (詳解版)
~~$654~~ $621

一個字節的奇妙之旅：白話電腦系統
~~$474~~ $450

優化理論與算法基礎
~~$390~~ $371

匯編語言與逆向技術
~~$768~~ $730

RBF神經網絡自適應控制及MATLAB模擬(第3版)
~~$768~~ $730

軸向磁通永磁無刷電機 (原書第2版)
~~$719~~ $683

電腦組成原理（基於x86-64架構）

商品描述

本書的目的是考慮大型且具有挑戰性的多階段決策問題，這些問題原則上可以通過動態規劃和**控制來解決，但它們的精確解決方案在計算上是難以處理的。本書討論依賴於近似的解決方法，以產生具有足夠性能的次優策略。這些方法統稱為增強學習，也可以叫做近似動態規劃和神經動態規劃等。本書的主題產生於**控制和人工智能思想的相互作用。本書的目的之一是探索這兩個領域之間的共同邊界，並架設一座具有任一領域背景的專業人士都可以訪問的橋梁。

作者簡介

李宇超，瑞典皇家理工學院決策與控制專業博士在讀。博士期間研究課題為強化學習，最優控制，以及相關理論在智能交通領域的應用。他於2015年在哈爾濱工業大學機械製造及其自動化專業獲得本科學位，並在1年後從現就讀學院的機電一體化專業獲得碩士學位。

目錄大綱

第 1 章精確動態規劃 1

1.1 確定性動態規劃 1

1.1.1 確定性問題. 1

1.1.2 動態規劃算法 5

1.1.3 值空間的近似 9

1.2 隨機動態規劃 10

1.3 例子、變形和簡化. 13

1.3.1 確定性最短路徑問題 14

1.3.2 確定性離散優化問題 15

1.3.3 含終止狀態的問題 18

1.3.4 預報 20

1.3.5 含不可控狀態組分的問題 21

1.3.6 不完整的狀態信息和置信狀態 25

1.3.7 線性二次型最優控制 28

1.3.8 含未知參數的系統——自適應控制 30

1.4 強化學習與最優控制——一些術語 32

1.5 註釋和資源 34

第 2 章值空間的近似 36

2.1 強化學習中的近似方法. 36

2.1.1 值空間近似的一般問題 39

2.1.2 離線與在線方法 40

2.1.3 針對前瞻最小化的基於模型的簡化 40

2.1.4 無模型的離線 Q 因子近似 41

2.1.5 基於值空間近似的策略空間近似 43

2.1.6 值空間的近似何時有效 44

2.2 多步前瞻. 45

2.2.1 多步前瞻與滾動時域 46

2.2.2 多步前瞻與確定性問題 47

2.3 問題近似. 48

2.3.1 強制解耦 49

2.3.2 隨機問題中的近似——確定性等價控制 . 54

2.4 策略前展與策略改進原則. 58

2.4.1 針對確定性離散優化問題的在線策略前展 59

2.4.2 隨機策略前展與蒙特卡洛樹搜索 68

2.4.3 基於專家的策略前展 75

2.5 針對確定性無窮空間問題的在線策略前展——優化類啟發式方法 76

2.5.1 模型預測控制 77

2.5.2 目標管道與約束可控性條件 82

2.5.3 模型預測控制的變形 85

2.6 註釋與資源 86

第 3 章參數化近似 90

3.1 近似架構. 90

3.1.1 基於特徵的線性與非線性參數架構 90

3.1.2 訓練線性與非線性架構 95

3.1.3 增量梯度與牛頓法 96

3.2 神經網絡. 107

3.2.1 訓練神經網絡. 109

3.2.2 多層與深度神經網絡 112

3.3 連續動態規劃近似 115

3.4 Q 因子參數化近似 116

3.5 基於分類的策略空間參數化近似 119

3.6 註釋與資源 122

第 4 章無窮階段動態規劃 124

4.1 無窮階段問題概論 124

4.2 隨機最短路徑問題 126

4.3 折扣問題. 133

4.4 半馬爾可夫折扣問題 137

4.5 異步分佈式值疊代 141

4.6 策略疊代. 144

4.6.1 精確策略疊代. 144

4.6.2 樂觀與多步前瞻策略疊代 148

4.6.3 針對 Q 因子的策略疊代 149

4.7 註釋和資源 151

4.8 附錄：數學分析. 152

4.8.1 隨機最短路徑問題的相關證明 152

4.8.2 折扣問題的相關證明 157

4.8.3 精確與樂觀策略疊代的收斂性 157

第 5 章無窮階段強化學習 160

5.1 值空間近似——性能界 160

5.1.1 有限前瞻. 162

5.1.2 策略前展. 164

5.1.3 近似策略疊代. 167

5.2 擬合值疊代 169

5.3 採用參數化近似的基於模擬的策略疊代 173

5.3.1 自主學習與執行–批評方法 173

5.3.2 一種基於模型的變體 174

5.3.3 一種無模型的變體. 176

5.3.4 實施參數化策略疊代的挑戰. 177

5.3.5 近似策略疊代的收斂問題——振盪 180

5.4 Q 學習 183

5.5 附加方法——時序差分 185

5.6 精確與近似線性規劃 194

5.7 策略空間近似. 196

5.7.1 通過費用優化執行訓練——策略梯度、交叉熵以及隨機搜索方法 199

5.7.2 基於專家的監督學習 207

5.7.3 近似策略疊代、策略前展與策略空間近似. 208

5.8 註釋和資源 212

5.9 附錄：數學分析. 216

5.9.1 多步前瞻的性能界. 216

5.9.2 策略前展的性能界. 218

5.9.3 近似策略疊代的性能界. 220

第 6 章聚集 223

6.1 包含代表狀態的聚集 223

6.1.1 連續控制空間離散化 227

6.1.2 連續狀態空間——部分可觀察馬爾可夫決策問題的離散化 228

6.2 包含代表特徵的聚集 230

6.2.1 硬聚集與誤差界 232

6.2.2 採用特徵的聚集 234

6.3 求解聚集問題的方法 237

6.3.1 基於模擬的策略疊代 238

6.3.2 基於模擬的值疊代. 240

6.4 包含神經網絡的基於特徵的聚集 241

6.5 偏心聚集. 242

6.6 註釋和資源 244

6.7 附錄：數學分析. 247

參考文獻 250

強化學習與最優控制 Reinforcement Learning and Optimal Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著李宇超譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

強化學習與最優控制 Reinforcement Learning and Optimal Control

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas） 著 李宇超 譯

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

[美]德梅萃·P. 博塞克斯（Dimitri P. Bertsekas）著李宇超譯