深度強化學習
尹大偉 吳敏傑
- 出版商: 國防工業
- 出版日期: 2024-06-01
- 定價: $534
- 售價: 8.5 折 $453
- 語言: 簡體中文
- 頁數: 165
- ISBN: 7118131792
- ISBN-13: 9787118131796
-
相關分類:
Reinforcement
- 此書翻譯自: Deep Reinforcement Learning: Frontiers of Artificial Intelligence
立即出貨 (庫存 < 4)
買這商品的人也買了...
-
物聯網實作:工業4.0基礎篇, 2/e (附光碟)$520$468 -
$828清華開發者書庫:機器人模擬與編程技術 -
$774機器人學、機器視覺與控制 — MATLAB 算法基礎 -
$238卡爾曼濾波原理及應用:MATLAB 模擬 -
動手做深度強化學習 (Deep Reinforcement Learning Hands-On)$690$483 -
最新圖解馬達入門$300$255 -
超圖解 Arduino 互動設計入門, 4/e$680$578 -
$601滑模變結構控制 MATLAB 模擬:基本理論與設計方法, 4/e -
工業4.0 的物聯網智慧工廠應用與實作:使用 Arduino.Node-RED.MySQL.Node.js$500$199 -
$295MATLAB 基礎與機器人學應用 -
$396人工智能:智能機器人 -
機器人控制 — 運動學、控制器設計、人機交互與應用實例$594$564 -
$327智能機器人開發與實踐 -
OpenCV 4.5 電腦視覺開發實戰 (基於 VC++)$534$507 -
$453MATLAB R2020a 神經網絡典型案例分析 -
機器學習與振動信號處理$354$336 -
NLP 大神 RNN 網路:Python 原始程式碼手把手帶你寫$890$703 -
$560數字圖像處理與機器視覺 — Visual C++ 與 Matlab 實現, 2/e -
$453神經網絡與深度學習 — 基於 MATLAB 的模擬與實現 -
$450人工智能算法 -
$351Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI -
可程式控制-含 PLC 與機電整合丙級術科試題 (第三版)(附範例光碟)$460$414 -
深度強化學習理論與實踐$534$507 -
OpenAI API 基礎必修課 -- 使用 Python (GPT-3.5、GPT-4、GPT-4o、DALL·E、TTS、Whisper模型)$520$410 -
$249天線理論與工程設計
簡體書拿來曬2本75折 詳見活動內容 »
-
VIP 95折
編譯原理, 2/e (Compilers : Principles, Techniques, and Tools, 2/e)$534$507 -
VIP 95折
深度學習之 TensorFlow:入門、原理與進階實戰$594$564 -
85折
$402Essential C++ (簡體中文版) -
VIP 95折
TCP/IP 詳解 (捲1):協議 (TCP/IP Illustrated, Volume 1 : The Protocols, 2/e)$774$735 -
85折
$402Go 並發編程實戰, 2/e -
VIP 95折
機器人學導論, 4/e (Introduction to Robotics: Mechanics and Control, 4/e)$474$450 -
85折
$402深入淺出 Vue.js -
85折
$351實用機器學習 (Real-world Machine Learning) -
85折
$504深度探索 C++ 對像模型 (Inside the C++ Object Model) -
85折
$300區塊鏈項目開發指南 -
85折
$402原子教你玩 STM32 (庫函數版第2版) -
85折
$402Spring Security 實戰 -
85折
$611嵌入式 Linux 基礎教程, 2/e (Embedded Linux Primer: A Practical Real-World Approach, 2/e) -
85折
$504MySQL 技術內幕-InnoDB 存儲引擎, 2/e -
85折
$448PADS 9.5 實戰攻略與高速 PCB 設計 -
85折
$244基於 Bootstrap 和 Knockout.js 的 ASP.NET MVC 開發實戰 (ASP.Net MVC 5 with Bootstrap and Knockout.Js: Building Dynamic, Responsive Web Applications) -
85折
$265深入淺出 USB 系統開發 : 基於 ARM Cortex-M3 -
85折
$402Redis 設計與實現 -
VIP 95折
FPGA 原理和結構$354$336 -
VIP 95折
TCP/IP 網絡編程$474$450 -
75折
$445數據分析與機器學習(基於R語言) -
85折
$652深度學習推薦系統 2.0 -
75折
$400移動通信系統架構設計 -
VIP 95折
自動駕駛汽車 BEV 感知算法$528$501 -
50折
$207區塊鏈技術進階與實戰
商品描述
本書從強化學習的基礎入手,以非常直觀易懂的例子和實際應用來解釋其中的每個概念,接著介紹一些前沿的研究及進展,這些進展使得強化學習可以超過其他(人工)智能係統。本書的目的不僅在於為讀者闡釋多種前緣強化學習演算法背後的數學原理,也希望讀者能在各自的應用領域中實際運用這些演算法及類似的先進深度強化學習智能體。 本書從強化學習的基本模組開始,涵蓋了流行的經典動態規劃方法和經典強化學習方法,如價值疊代和策略疊代;同時也包括一些傳統的強化學習演算法,如時序差分學習、SARSA和Q學習。在此基礎之上,本書介紹了適用於現代強化學習環境和智能體的深度學習和輔助工具。本書隨後開始深入研究深度強化學習的概念,並介紹相應的演算法,如深度Q網絡、雙DQN、競爭DQN、(深度)同步演員-評論家,(深度)異步優勢演員-評論家和深度確定性策略梯度。在每一個介紹這些概念的理論/數學原理的章節之後都附有可用於這些智能體實現的代碼。
作者簡介
吳敏傑,博士,92728部隊助理研究員。2012年獲南京航空航天大學學士學位,2014年和2018年分別獲國防科技大學碩士、博士學位。以 作者通信作者共發表論文十余篇,其中SCI檢索4篇,EI檢索6篇。
目錄大綱
第1章 強化學習簡介:AI智能體背後的智能
1.1 什麼是人工智能,強化學習與它有什麼關係
1.2 理解強化學習的基本設計
1.3 強化學習中的獎勵和確定一個合適的獎勵函數所涉及的問題
1.4 強化學習的狀態
1.5 強化學習中的智能體
1.6 小結
第2章 強化學習的數學與演算法理解:馬可夫決策過程與解決方法
2.1 馬可夫決策過程
2.2 貝爾曼方程
2.3 動態規劃與貝爾曼方程
2.4 價值疊代與策略疊代方法
2.5 小結
第3章 編碼環境與馬可夫決策過程的解法:編碼環境、價值疊代與策略疊代演算法
3.1 以網格世界問題為例
3.2 建構環境
3.3 平臺要求和程式碼的工程架構
3.4 創建網格世界環境的程式碼
3.5 基於價值疊代法求解網格世界的程式碼
3.6 基於策略疊代法求解網格世界的程式碼
3.7 小結
第4章 時序差分學習、SARSA和Q學習:幾種常用的基於值逼近的強化學習方法
4.1 經典DP的挑戰
4.2 基於模型和無模型的方法
4.3 時序差分(TD)學習
4.4 SARSA
4.5 Q學習
4.6 決定「探索」與「利用」之間機率的演算法(賭博機演算法)
4.7 小結
第5章 Q學習程式設計:Q學習智能體與行為策略編程
5.1 工程結構與依賴項
5.2 代碼
5.3 訓練統計圖
第6章 深度學習簡介
6.1 人工神經元-深度學習的基石
6.2 前饋深度神經網絡(DNN)
6.3 深度學習中的架構註意事項
6.4 捲積神經網絡-用於視覺深度學習
6.5 小結
第7章 可運用的資源:訓練環境與智能體實作庫
7.1 你並不孤單
7.2 標準化的訓練環境與平臺
7.3 Agent開發與實作庫
第8章 深度Q網絡、雙DQN和競爭DQN
8.1 通用人工智能
8.2 Google「Deep Mind」和「AlphaGo」簡介
8.3 DQN演算法
8.4 雙DQN演算法
8.5 競爭DQN演算法
8.6 小結
第9章 雙DQN的代碼:用£衰減行為策略編碼雙DQN
9.1 專案結構與依賴關係
9.2 雙DQN智能體的程式碼(檔案:DoubleDQN.py)
9.3 訓練統計圖
第10章 基於策略的強化學習方法:隨機策略梯度與REINFORCE演算法
10.1 基於策略的方法和策略近似介紹
10.2 基於價值的方法和基於策略的方法的廣義區別
10.3 計算策略梯度的問題
10.4 REINFORCE演算法
10.5 REINFORCE演算法中減少變異數的方法
10.6 為REINFORCE演算法選擇基線
10.7 小結
第11章 演員-評論家模型與A3C:異步優勢演員-評論家模型
11.1 演員-評論家方法簡介
11.2 演員-評論家方法的概念設計
11.3 演員-評論家實現的架構
11.4 異步優勢行動者-評論家實現(A3C)
11.5 (同步)優勢演員-評論家實現(A2C)
11.6 小結
第12章 A3C的代碼:編寫異步優勢演員-評論家代碼
12.1 專案結構與依賴關係
12.2 程式碼(A3C_Master—File:a3c_master.py)
12.3 訓練統計圖
第13章 確定性策略梯度與DDPG:基於確定性策略梯度的方法
13.1 確定性策略梯度(DPG)
13.2 深度確定性策略梯度(DDPG)
13.3 小結
第14章 DDPG的程式碼:使用進階封裝的函式庫編寫DDPG的程式碼
14.1 用於強化學習的高階封裝的庫
14.2 Mountain Car Continuous(Gym)環境
14.3 專案結構與依賴關係
14.4 程式碼(檔案:ddpg_continout_action.py)
14.5 智能體使用「MountainCarContinous-v0」環境
參考文獻
