Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI Deep Reinforcement Learning with Python: With Pytorch, Tensorflow and Openai Gym

[印]尼米什·桑吉（Nimish Sanghi）著，羅俊海譯

預覽內頁

出版商: 清華大學
出版日期: 2022-10-01
定價: $414
售價: 8.5 折 $351
語言: 簡體中文
頁數: 233
ISBN: 7302607729
ISBN-13: 9787302607724
相關分類: Reinforcement
此書翻譯自: Deep Reinforcement Learning with Python: With Pytorch, Tensorflow and Openai Gym

立即出貨

Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI-preview-1

買這商品的人也買了...

~~$520~~ $442

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
~~$590~~ $460

Python 程式設計實務 -- 從入門到精通 step by step
~~$980~~ $774

最新 AI 技術：知識圖譜集技術概念大成
$453

用 Python 動手學機器學習
$555

AI 源碼解讀：機器學習案例 (Python版)
$305

深度強化學習
$534

AI 源碼解讀：循環神經網絡(RNN)深度學習案例 (Python版)
$351

深度強化學習核心算法與應用
$504

AI 源碼解讀：捲積神經網絡(CNN)深度學習案例 (Python版)
$474

人工智能算法
~~$834~~ $792

深度強化學習圖解
$402

動手學推薦系統 — 基於 PyTorch 的算法實現 (微課視頻版)
~~$768~~ $729

概率圖模型原理與應用, 2/e
~~$580~~ $458

凡人也能懂的白話人工智慧演算法 (Grokking Artificial Intelligence Algorithms)
$662

深度強化學習
$601

因果推斷與機器學習
$598

群體智能與演化博弈
~~$880~~ $695

真槍實彈做專案：PyQt 極速開發視窗軟體, 2/e
~~$880~~ $695

Scikit-learn 詳解與企業應用：機器學習最佳入門與實戰
~~$499~~ $424

Excel × ChatGPT × Power Automate 自動化處理．效率提昇便利技
~~$380~~ $323

都問 AI 吧！ChatGPT 上手的第一本書
$504

基於 NLP 的內容理解
$300

控制系統的模擬與分析 — 基於 MATLAB 的應用
~~$594~~ $564

精通 Transformer : 從零開始構建最先進的 NLP 模型
$356

深度強化學習實戰用 OpenAI Gym 構建智能體

商品描述

本書重點突出深度強化學習理論的基本概念、前沿基礎理論和Python應用實現。首先介紹馬爾可夫決策、基於模型的算法、無模型方法、動態規劃、蒙特卡洛和函數逼近等基礎知識；然後詳細闡述強化學習、深度強化學習、多智能體強化學習等算法，及其Python應用實現。本書既闡述獎勵、價值函數、模型和策略等重要概念和基礎知識，又介紹深度強化學習理論的前沿研究和熱點方向。本書英文版出版之後，廣受好評，已成為深度強化學習領域暢銷教材，也可為人工智能和機器學習等領域的科研工作者、技術工程師提供參考。

作者簡介

Nimish Sanghi（尼米什·桑吉），一位充滿激情的技術領導者，專註於使用技術解決客戶問題，在軟件和咨詢領域擁有超過25年的工作經驗，擁有人工智能和深度學習的多項證書，獲得印度理工學院電氣工程學士學位、印度管理學院工商管理碩士學位。曾在普華永道、IBM和Oracle等公司擔任領導職務，負責盈虧管理。2006年，在SOAIS公司開啟軟件咨詢創業之旅，為《財富》100強的眾多公司提供自動化和數字化轉型服務，實現從本地應用到雲計算的轉型。人工智能和自動化驅動的初創公司領域的天使投資人，聯合創立面向印度市場的SaaS人力資源和薪資Paybooks平臺，聯合創立提供人工智能驅動的工作流ZipperAgent自動化平臺和視頻營銷ZipperHQ自動化平臺（總部位於波士頓的初創公司），現任這兩個平臺的首席技術官和首席數據科學家。

目錄大綱

第1章強化學習導論

1.1強化學習概述

1.2機器學習分類

1.2.1監督學習

1.2.2無監督學習

1.2.3強化學習

1.2.4核心元素

1.3基於強化學習的深度學習

1.4實例和案例研究

1.4.1自動駕駛汽車

1.4.2機器人

1.4.3推薦系統

1.4.4金融和貿易

1.4.5醫療保健

1.4.6遊戲

1.5庫與環境設置

1.6總結

第2章馬爾可夫決策

2.1強化學習的定義

2.2智能體和環境

2.3獎勵

2.4馬爾可夫過程

2.4.1馬爾可夫鏈

2.4.2馬爾可夫獎勵

過程

2.4.3馬爾可夫決策

過程

2.5策略和價值函數

2.6貝爾曼方程

2.6.1貝爾曼最優方程

2.6.2解決方法類型的

思維導圖

2.7總結

第3章基於模型的算法

3.1OpenAI Gym

3.2動態規劃

3.3策略評估/預測

3.4策略改進和疊代

3.5價值疊代

3.6廣義策略疊代

3.7異步回溯

3.8總結

第4章無模型方法

4.1蒙特卡洛估計/預測

4.2蒙特卡洛控制

4.3離線策略MC控制

4.4TD學習方法

4.5TD控制

4.6在線策略SARSA

4.7Q學習：離線策略

TD控制

4.8最大偏差和雙重學習

4.9期望SARSA控制

4.10回放池和離線策略學習

4.11連續狀態空間的Q學習

4.12n步回報

4.13資格跡和TD(λ)

4.14DP、MC和TD之間

的關系

4.15總結

第5章函數逼近

5.1概述

5.2逼近理論

5.2.1粗編碼

5.2.2瓦片編碼

5.2.3逼近中的挑戰

5.3增量預測： MC、TD和

TD(λ)

5.4增量控制

5.4.1n步半梯度SARSA

控制

5.4.2半梯度SARSA(λ)

控制

5.5函數逼近的收斂性

5.6梯度時序差分學習

5.7批處理方法

5.8線性最小二乘法

5.9深度學習庫

5.10總結

第6章深度Q學習

6.1DQN

6.2優先回放

6.3雙Q學習

6.4競爭DQN

6.5噪聲網DQN

6.6C51

6.7分位數回歸DQN

6.8事後經驗回放

6.9總結

第7章策略梯度算法

7.1引言

7.1.1基於策略的方法的

利弊

7.1.2策略表徵

7.2策略梯度推導

7.2.1目標函數

7.2.2導數更新規則

7.2.3更新規則的運算

原理

7.3強化算法

7.3.1帶獎勵因子的

方差減少

7.3.2進一步減少基線

差異

7.4演員評論家方法

7.4.1定義優勢

7.4.2優勢演員評論家

7.4.3A2C算法的

實現

7.4.4異步優勢演員

評論家

7.5信賴域策略優化算法

7.6近似策略優化算法

7.7總結

第8章結合策略梯度和Q學習

8.1策略梯度與Q學習

的權衡

8.2結合策略梯度與Q學習的

一般框架

8.3深度確定性策略梯度

8.3.1Q學習在DDPG中的

應用(評論家)

8.3.2DDPG中的策略

學習(演員)

8.3.3偽代碼和實現

8.3.4代碼實現

8.4雙延遲DDPG

8.4.1目標策略平滑

8.4.2Q損失(評論家)

8.4.3策略損失(演員)

8.4.4延遲更新

8.4.5偽代碼和實現

8.4.6代碼實現

8.5重參數化技巧

8.5.1分數/強化方法

8.5.2重參數化技巧與

路徑導數

8.5.3實驗

8.6熵解釋

8.7軟演員評論家

8.7.1SAC與TD3

8.7.2熵正則化下的

Q損失

8.7.3具有重參數技巧的

策略損失

8.7.4偽代碼及其實現

8.7.5代碼實現

8.8總結

第9章綜合規劃與學習

9.1基於模型的強化學習

9.1.1使用學習的模型

進行規劃

9.1.2集成學習與規劃

9.1.3Dyna Q和變化

的環境

9.1.4Dyna Q+

9.1.5期望與示例更新

9.2探索vs利用

9.2.1多臂強盜

9.2.2後悔值：探索質量的

衡量標準

9.3決策時間規劃和蒙特

卡洛樹搜索

9.4AlphaGo模擬實驗

9.5總結

第10章進一步的探索與後續

工作

10.1基於模型的強化學習：

其他方法

10.1.1世界模型

10.1.2想象力增強智

能體

10.1.3基於模型的強化

學習和無模型

微調

10.1.4基於模型的價值

擴展

10.2模仿學習和逆強化

學習

10.3無導數方法

10.4遷移學習和多任務

學習

10.5元學習

10.6流行的強化學習庫

10.7如何繼續學習

10.8總結

術語