基於函數逼近的強化學習與動態規劃
[羅]盧西恩·布索尼 [荷]羅伯特·巴布斯卡 [荷]巴特·德·舒特 [比]達米安·厄恩斯特
- 出版商: 人民郵電
- 出版日期: 2019-09-01
- 售價: $774
- 語言: 簡體中文
- 頁數: 249
- ISBN: 7115508305
- ISBN-13: 9787115508300
-
相關分類:
Reinforcement
- 此書翻譯自: Reinforcement Learning and Dynamic Programming Using Function Approximators
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
Feedback Control of Dynamic Systems, 7/e (IE-Paperback)$1,280$1,254 -
非線性系統與控制Ⅰ:系統分析$480$456 -
智慧型控制:分析與設計, 4/e$560$504 -
控制系統工程, 7/e (Nise: Control Systems Engineering, 7/e)$620$608 -
揭秘深度強化學習 人工智能機器學習技術叢書$539$512 -
自動控制系統, 10/e (Automatic Control Systems, 10/e)$1,100$1,045 -
$489大規模強化學習 -
$310生成對抗網絡入門指南 (Generative adversarial Networks) -
強化學習實戰:強化學習在阿裡的技術演進和業務創新 匯集了阿裡巴巴一線算法工程師在強化學習應用方面的經驗和心得。$534$507 -
$331推薦系統與深度學習 -
實戰人工智慧之深度強化學習|使用 PyTorch x Python$500$395 -
$445移動傳感器與情境感知計算 -
自動控制 (精華版) (Ogata:Modern Control Engineering, 5/e)$600$588 -
$756強化學習, 2/e (Reinforcement Learning: An Introduction, 2/e) -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$483 -
$555電腦視覺與深度學習實戰:以 MATLAB、Python 為工具 -
研究所 2020 試題大補帖【自動控制】(106~108年試題)$500$475 -
深度學習|使用 Keras (Advanced Deep Learning with Keras: Applying GANs and other new deep learning algorithms to the real world)$560$442 -
$265機器學習、深度學習與強化學習 -
$305物聯網技術導論與應用 -
$504強化學習 -
$894強化學習與最優控制 -
Reinforcement Learning|強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)$1,200$948 -
深度強化學習圖解$834$792 -
$400深度強化學習 — 雲計算中作業與資源協同自適應調度的理論及應用
商品描述
本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函數逼近的強化學習和動態規劃方法。該研究已成為近年來電腦科學與技術領域中最活躍的研究分支之一。
全書共分6 章。第1 章為概述;第2 章為動態規劃與強化學習介紹;第3 章為大規模連續空間中的動態規劃與強化學習;第4 章為基於模糊表示的近似值疊代;第5 章為用於在線學習和連續動作控制的近似策略疊代;第6 章為基於交叉熵基函數優化的近似策略搜索。
本書可以作為理工科高等院校電腦專業和自動控制專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。
作者簡介
劉全博士,蘇州大學教授、博士生導師。2004年畢業於吉林大學計算機軟件與理論專業,獲博士學位。近年來,共主持了“石油勘探開發分布式數據庫建設”“基於tableau的邏輯強化學習研究”等國家級項目8項,主持了“采油工程信息可視化系統”“油田信息處理網絡系統”“基於核方法的強化學習應用研究”等省部級和市(局)級科研項目10多項,獲省部級科技進步獎2項、市(局)級科技進步獎8項。先後在國內外學術會議及《計算機學報》《軟件學報》等國內核心期刊和統計源期刊上發表論文80餘篇。2012年獲江蘇省教工委優秀共產黨員稱號。2011年、2012年入選江蘇省“六大人才”、江蘇省“333”人才培養計劃。目前為中國計算機學會高級會員、蘇州市人工智能學會秘書長、《通信學報》編委。
目錄大綱
第1章 概述
1.1 動態規劃與強化學習問題
1.2 動態規劃與強化學習中的逼近
1.3 關於本書
第2章 動態規劃與強化學習介紹
2.1 引言
2.2 馬爾可夫決策過程
2.2.1 確定性情況
2.2.2 隨機性情況
2.3 值疊代
2.3.1 基於模型的值疊代
2.3.2 模型無關的值疊代與探索的必要性
2.4 策略疊代
2.4.1 基於模型的策略疊代
2.4.2 模型無關的策略疊代
2.5 策略搜索
2.6 總結與討論
第3章 大規模連續空間中的動態規劃與強化學習
3.1 介紹
3.2 大規模連續空間中近似的必要性
3.3 近似框架
3.3.1 帶參近似
3.3.2 無參近似
3.3.3 帶參與無參逼近器的比較
3.3.4 附註
3.4 近似值疊代
3.4.1 基於模型的帶參近似值疊代算法
3.4.2 模型無關的帶參近似值疊代算法
3.4.3 無參近似值疊代算法
3.4.4 非擴張近似的作用及收斂性
3.4.5 實例:用於直流電機的近似Q值疊代
3.5 近似策略疊代
3.5.1 用於近似策略評估的類值疊代算法
3.5.2 基於線性帶參近似的模型無關策略評估
3.5.3 基於無參近似的策略評估
3.5.4 帶回滾的基於模型的近似策略評估
3.5.5 策略改進與近似策略疊代
3.5.6 理論保障
3.5.7 實例:用於直流電機的最小二乘策略疊代
3.6 自動獲取值函數逼近器
3.6.1 基函數最優化方法
3.6.2 基函數構造
3.6.3 附註
3.7 近似策略搜索
3.7.1 策略梯度與行動者-評論家算法
3.7.2 梯度無關的策略搜索
3.7.3 實例:用於直流電機問題的梯度無關策略搜索
3.8 近似值疊代、近似策略疊代及近似策略搜索算法的比較
3.9 總結與討論
第4章 基於模糊表示的近似值疊代
4.1 引言
4.2 模糊Q值疊代
4.2.1 模糊Q值疊代的近似和投影映射
4.2.2 同步和異步模糊Q值疊代
4.3 模糊Q值疊代的分析
4.3.1 收斂性
4.3.2 一致性
4.3.3 計算覆雜度
4.4 優化隸屬度函數
4.4.1 隸屬度函數優化的一般方法
4.4.2 交叉熵優化
4.4.3 基於交叉熵隸屬度函數優化的模糊Q值疊代
4.5 實驗研究
4.5.1 直流電機:收斂性和一致性研究
4.5.2 雙連桿機械臂:動作插值的效果以及與擬合Q值疊代的比較
4.5.3 倒立擺:實時控制
4.5.4 過山車:隸屬度函數優化的效果
4.6 總結與討論
第5章 用於在線學習和連續動作控制的近似策略疊代
5.1 引言
5.2 最小二乘策略疊代的概述
5.3 在線最小二乘策略疊代
5.4 使用先驗知識的在線LSPI
5.4.1 使用策略近似的在線LSPI
5.4.2 具有單調策略的在線LSPI
5.5 采用連續動作、多項式近似的LSPI
5.6 實驗研究
5.6.1 用於倒立擺的在線LSPI
5.6.2 用於雙連桿機械臂的在線LSPI
5.6.3 使用直流電機先驗知識的在線LSPI
5.6.4 在倒立擺中使用帶有連續動作逼近器的LSPI
5.7 總結與討論
第6章 基於交叉熵基函數優化的近似策略搜索
6.1 介紹
6.2 交叉熵優化方法
6.3 交叉熵策略搜索
6.3.1 一般方法
6.3.2 基於徑向基函數的交叉熵策略搜索
6.4 實驗研究
6.4.1 離散時間二重積分
6.4.2 自行車平衡
6.4.3 HIV傳染病控制的計劃性間斷治療
6.5 總結與討論
附錄A 極端隨機樹
附錄B 交叉熵方法
縮略語
參考文獻


