強化學習：原理與 Python 實戰

肖智清

出版商: 機械工業
出版日期: 2023-08-01
定價: $774
售價: 8.5 折 $657
語言: 簡體中文
頁數: 490
裝訂: 平裝
ISBN: 7111728912
ISBN-13: 9787111728917
相關分類: Reinforcement

立即出貨

買這商品的人也買了...

~~$480~~ $432

資料結構 in C
$594

深度強化學習原理與實踐
$796

強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e)
$351

概率、決策與博弈: 基於R語言介紹 (Probability, Decisions and Games: A Gentle Introduction Using R)
$504

強化學習
~~$780~~ $663

強化式學習：打造最強 AlphaZero 通用演算法
$657

深度強化學習：基礎、研究與應用
$458

用 Python 編程和實踐！區塊鏈教科書
~~$354~~ $336

量子計算導論
~~$708~~ $672

Python 商業數據挖掘, 6/e (Data Mining for Business Analytics: Concepts, Techniques and Applications in Python)
~~$540~~ $529

Python 程式設計 ─ AI 與資料科學應用, 2/e
$662

深度強化學習
$516

R實戰：系統發育樹的數據集成操作及可視化（全彩）
$759

Python 大學教程：面向計算機科學和數據科學
~~$534~~ $507

深度強化學習理論與實踐
~~$594~~ $564

R速成：統計分析和科研數據分析快速上手
$652

客戶留存數據分析與預測
$555

強化學習
$1,315

矩陣力量 (線性代數全彩圖解 + 微課 + Python 編程)
~~$479~~ $455

自然語言處理遷移學習實戰
$421

深度強化學習 — 雲計算中作業與資源協同自適應調度的理論及應用
$300

從零基礎到精通 Flutter 開發
~~$680~~ $537

Deep Learning 4｜用 Python 進行強化學習的開發實作
$499

強化學習與機器人控制
$356

強化學習演算法入門

商品描述

本書從原理和實戰兩個方面介紹了強化學習。
原理方面，深入介紹了主流強化學習理論和算法，覆蓋資格蹟等經典算法和MuZero等深度強化學習算法；
實戰方面，每章都配套了編程案例，以方便讀者學習。

全書從邏輯上分為三部分。
第1章：
從零開始介紹強化學習的背景知識，介紹環境庫Gym的使用。
第2～15章：
基於折扣獎勵離散時間Markov決策過程模型，介紹強化學習的主幹理論和常見算法。
採用數學語言推導強化學習的基礎理論，進而在理論的基礎上講解算法，並為算法提供配套代碼實現。
基礎理論的講解突出主幹部分，算法講解全面覆蓋主流的強化學習算法，
包括經典的非深度強化學習算法和近年流行的強化學習算法。
Python實現和算法講解一一對應，還給出了深度強化學習算法的TensorFlow和PyTorch對照實現。
第16章：
介紹其他強化學習模型，包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、
部分可觀測模型等，以便更好瞭解強化學習研究的全貌。

作者簡介

肖智清
強化學習一線研發人員，清華大學工學博士。
在國內外出版多本人工智能專著，在知名期刊和會議上發表多篇第一作者論文。
他是開源項目Gym的源碼貢獻者，並在國內外多項程序設計和數據科學競賽上獲得冠軍。

目錄大綱

目錄
數學符號表
前言
第1章初識強化學習111強化學習及其關鍵元素1
1．2強化學習的應用3
1．3智能體/環境接口4
1．4強化學習的分類6
1．4 ．1按任務分類6
1．4．2按算法分類8
1．5強化學習算法的性能指標9
1．6案例：基於Gym庫的智能體/環境接口10
1．6．1安裝Gym庫11
1 ．6．2使用Gym庫11
1．6．3小車上山13
1．7本章小結18
1．8練習與模擬面試19
第2章Markov決策過程2121Markov決策過程模型21
2．1．1離散時間Markov決策過程21
2．1．2環境與動力24
2．1．3策略26
2．1．4帶折扣的回報26
2．2價值27
2．2．1價值的定義28
2．2．2價值的性質28
2．2．3策略的偏序和改進34
2．3帶折扣的分佈35
2．3．1帶折扣的分佈的定義35
2．3．2帶折扣的分佈的性質37
2．3 ．3帶折扣的分佈和策略的等價性39
2．3．4帶折扣的分佈下的期望40
2．4最優策略與最優價值41
2．4．1從最優策略到最優價值41
2．4．2最優策略的存在性42
2．4．3最優價值的性質與Bellman
最優方程43
2．4．4用線性規劃法求解最優價值48
2．4．5用最優價值求解最優策略51
2．5案例：懸崖尋路52
2．5．1使用環境52
2．5．2求解策略價值53
2．5．3求解最優價值54
2．5．4求解最優策略55
2．6本章小結55
2．7練習與模擬面試57
第3章有模型數值疊代5931Bellman算子及其性質59
3．2有模型策略疊代64
3．2．1策略評估65
3． 2．2策略改進66
3．2．3策略疊代67
3．3價值疊代68
3．4自益與動態規劃69
3．5案例：冰面滑行70
3．5．1使用環境71
3．5． 2有模型策略疊代求解73
3．5．3有模型價值疊代求解76
3．6本章小結76
3．7練習與模擬面試77
第4章回合更新價值疊代78
4．1同策回合更新79
4． 1．1同策回合更新策略評估79
4．1．2帶起始探索的同策回合更新84
4．1．3基於柔性策略的同策回合更新86
4．2異策回合更新89
4．2 ．1重要性採樣89
4．2．2異策回合更新策略評估92
4．2．3異策回合更新最優策略求解93
4．3實驗：21點遊戲94
4．3．1使用環境94
4．3．2同策策略評估96
4．3．3同策最優策略求解98
4．3．4異策策略評估101
4．3．5異策最優策略求解102
4．4本章小結103
4、5練習與模擬面試104
第5章時序差分價值疊代10651時序差分目標106
5．2同策時序差分更新109
5．2．1時序差分更新策略評估109
5．2．2SARSA算法113
5．2．3期望SARSA算法115
5．3異策時序差分更新117
5．3．1基於重要性採樣的異策算法117
5．3．2Q學習119
5．3．3雙重Q學習120
5．4資格跡121
5．4． 1λ回報122
5．4．2TD(λ)算法123
5．5案例：出租車調度125
5．5．1使用環境126
5．5．2同策時序差分學習127
5．5．3異策時序差分學習130
5．5．4資格跡學習132
56本章小結134
57練習與模擬面試135
第6章函數近似方法137
6.1函數近似原理138
6.2基於梯度的參數更新139
6.2．1隨機梯度下降139
6.2．2半梯度下降141
6.2．3帶資格蹟的半梯度下降142
6．3函數近似的收斂性144
6．3．1收斂的條件144
6．3．2Baird反例145
6．4深度Q網絡147
6．4．1經驗回放148
6．4．2目標網絡151
6．4．3雙重深度Q網絡152
6．4．4決鬥深度Q網絡153
6．5案例：小車上山154
6．5．1使用環境155
6．5．2用線性近似求解最優策略156
6.5.3用深度Q網絡求解最優策略161
6.6本章小結172
6.7練習與模擬面試172
第7章回合更新策略梯度方法17471策略梯度算法的原理174
7.1.1函數近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和極大似然估計的關係179
7.2同策回合更新策略梯度算法179
7.2.1簡單的策略梯度算法180
7.2.2帶基線的簡單策略梯度算法180
7.3異策回合更新策略梯度算法182
7.4案例：車桿平衡183
7.4.1用同策策略梯度算法求解最優策略184
7.4.2用異策策略梯度算法求解最優策略189
7.5本章小結195
7.6練習與模擬面試196
第8章執行者/評論者197
8.1執行者/評論者方法197
8.2同策執行者/評論者算法198
8.2.1動作價值執行者/評論者算法198
8.2 .2優勢執行者/評論者算法199
8.2.3帶資格蹟的執行者/評論者算法200
8.3基於代理優勢的同策算法201
8.3.1性能差別引理201
8.3.2代理優勢202
8.3.3鄰近策略優化203
8.4自然梯度和信賴域算法205
8.4.1KL散度與Fisher信息矩陣206
8.4.2代理優勢的信賴域208
8.4.3自然策略梯度算法209
8.4.4信賴域策略優化212
8.5重要性採樣異策執行者/評論者算法213
8.6案例：雙節倒立擺214
8.6.1用同策執行者/評論者算法求解最優策略216
8.6.2用基於代理優勢的同策算法求解最優策略226
8.6.3用自然策略梯度和信賴域算法求解最優策略230
8.6.4用重要性採樣異策執行者/評論者算法求解最優策略242
8.7本章小結246
8.8練習與模擬面試247
第9章連續動作空間的確定性策略248
9.1確定性策略梯度定理248
9.2同策確定性算法250
9.3異策確定性算法251
9.3.1基本的異策確定性執行者/評論者算法251
9.3.2深度確定性策略梯度算法253
9.3.3雙重延遲深度確定性策略梯度算法254
9.4探索過程255
9.5案例：倒立擺的控制256
9.5.1用深

強化學習：原理與 Python 實戰

肖智清

買這商品的人也買了...

商品描述

作者簡介

目錄大綱

類似商品