強化學習:人工智能如何知錯

Name: 強化學習:人工智能如何知錯
Price: 356 TWD
Availability: InStock
Author: 龔超、王冀、梁霄、貴寧
ISBN: 7122452824

龔超、王冀、梁霄、貴寧

出版商: 化學工業
出版日期: 2024-08-01
定價: $419
售價: 8.5 折 $356
語言: 簡體中文
頁數: 234
ISBN: 7122452824
ISBN-13: 9787122452825
相關分類: Reinforcement

立即出貨

買這商品的人也買了...

~~$520~~ $468

物聯網實作：工業4.0基礎篇, 2/e (附光碟)
~~$474~~ $450

統計強化學習：現代機器學習方法 (Statistical Reinforcement Learning: Modern Machine Learning Approaches)
~~$690~~ $345

動手做深度強化學習 (Deep Reinforcement Learning Hands-On)
~~$300~~ $255

最新圖解馬達入門
$422

深入淺出強化學習：編程實戰
~~$1,200~~ $948

Reinforcement Learning｜強化學習深度解析 (繁體中文版) (Reinforcement Learning: An Introduction, 2/e)
$658

情感分析：挖掘觀點、情感和情緒 (原書第2版)(Sentiment Analysis: Mining Opinions, Sentiments, and Emotions, 2/e)
~~$834~~ $792

深度強化學習圖解
$331

數據科學-機器學習如何數據掘金
$374

情感分析進階
$356

數據素養：人工智能如何有據可依
$347

多語言情感分析及其應用
$356

搜尋演算法：人工智能如何尋找最優
$356

強化學習演算法入門
$347

機器學習實戰營：從理論到實戰的探索之旅
~~$414~~ $393

量子機器學習 — 基於 Python 的理論和實現
~~$828~~ $787

線性代數與數據學習
$469

人機共協計算
$352

AI 訓練師手冊：演算法與模型訓練從入門到精通
$505

人人可懂的模式識別（原書第2版）
~~$419~~ $398

人工智能芯片設計
$709

算法設計與分析基礎, 3/e (詳解版)
$332

機器人基礎與數字孿生系統
$352

強化學習 — 從原理到實踐
~~$479~~ $455

Joy RL：強化學習實踐教程

商品描述

「人工智能入門叢書」力於面向人工智能各技術方向零基礎的讀者，內容涉及數據素養、
機器學、視覺感知、情緒分析、搜尋演算法、強化學、知識圖譜、家系統等方向。
本叢書體系完整、內容簡潔、語言通俗，綜合介紹了人工智能相關知識，
並輔以程式碼解決問題，使得零基礎的讀者能夠快速入門。
《強化學：人工智能如何知錯能改》是「人工智能入門叢書」的分冊，
以科普的形式講解了強化學的核心知識，內容生動有趣，帶領讀者走進強化學的。
本書含強化學方向的基礎知識，如動態規劃、時序差分等，讓讀者在開始學時對強化學有初步的認識；
之後，透過對馬可夫決策過程及貝爾曼方程式的解讀，逐漸過渡到強化學的關鍵內容；
同時，本書也重點解析了策略疊代與值疊代兩種核心演算法，也對蒙卡洛方法、
時序差分演算法、深度強化學及基於策略的強化學演算法進行了深度剖析。
本書內容結構完整、邏輯清晰、層層遞進，並配有相關實例與程式碼，讓讀者在閱讀學過程中能加深理解。
本書適合強化學及人工智能方向的初步閱讀學，也可供高等院校人工智能及電腦類業的師生參考。

作者簡介

貴寧，本科畢業於清華大學自動化系，目前在清華大學深圳研究生院智能機器人實驗室攻讀碩士學位。研究方向集中於魯棒強化學習及其在機器人領域的應用。在碩士學習期間，專註於強化學習與大模型在機器人技術上的實際應用，積累了豐富的經驗。

目錄大綱

第1章　強化學概論 001
1.1　什麼是強化學 002
1.1.1　初識強化學 002
1.1.2　強化學的關鍵要素 005
1.1.3　監督、無監督與強化學 007
1.2　三條主線 009
1.2.1　試誤 009
1.2.2　動態規劃 011
1.2.3　時序差分 012
1.3　強化學的方法與應用 014
1.3.1　強強聯合之深度強化學 014
1.3.2　強化學的跨界賦能 017
1.3.3　強化學的分類 021

第2章　馬可夫與貝爾曼方程式 024
2.1　「隨機」那些事 025
2.1.1　機率的基本概念 025
2.1.2　網格迷宮的探索 031
2.1.3　探索的策略與獎勵 034
2.1.4　探索的足跡 037
2.2　馬可夫大家族 040
2.2.1　馬可夫過程 040
2.2.2　馬可夫獎勵過程 043
2.2.3　馬可夫決策過程 044
2.3　貝爾曼方程式 046
2.3.1　值函數與動作值函數 046
2.3.2　貝爾曼方程式 050
2.3.3　貝爾曼方程式 052

第3章　動態規劃 056
3.1　動態規劃基礎與環境 057
3.1.1　動態規劃基礎 057
3.1.2　環境：冰湖 059
3.2　策略疊代演算法 063
3.2.1　原理 063
3.2.2　代碼 067
3.3　值疊代演算法 072
3.3.1　原理 072
3.3.2　代碼 074

第4章　蒙卡洛 078
4.1　隨機變量的數字徵 080
4.1.1　期望 080
4.1.2　方差 082
4.2　蒙卡洛方法與應用 083
4.2.1　圓面積的估計 084
4.2.2　均值估計 087
4.3　蒙卡洛與強化學 091
4.3.1　原理 091
4.3.2　環境：21點 101
4.3.3　代碼 102

第5章　時序差分 107
5.1　時序差分 108
5.1.1　時序差分基礎 108
5.1.2　環境：懸崖漫步 116
5.2　Sarsa演算法 118
5.2.1　原理 118
5.2.2　代碼 120
5.3　Q-Learning演算法 124
5.3.1　原理 124
5.3.2　代碼 127

第6章　深度強化學 134
6.1　DQN入門 135
6.1.1　DQN的基本概念 135
6.1.2　環境：車桿 139
6.2　BP經網絡+強化學 141
6.2.1　原理 141
6.2.2　代碼 145
6.3　捲積經網絡+強化學 157
6.3.1　原理 157
6.3.2　代碼 162
6.4　DQN的改良 167

第7章　策略學 170
7.1　策略梯度演算法 171
7.1.1　策略梯度原理 171
7.1.2　REINFORCE演算法 173
7.1.3　代碼 176
7.2　Actor-Critic演算法 184
7.2.1　原理 184
7.2.2　環境：LunarLander 189
7.2.3　代碼 190
7.3　其他基於策略的演算法 197

附錄 203
附錄A　環境設定與行為探索 204
A.1　Gym庫與環境設定 204
A.2　具有人類偏好的多智能體強化學 206
附錄B　博弈與策略 209
B.1　什麼是賽局 209
B.2　混合策略賽局 212
B.3　序貫博弈 215
B.4　無限賽局與有限賽局 216
附錄C　收益衡量 222
C.1　理性收益：期望值 223
C.2　效用效益：期望效用 226
C.3　情感利益：前景理論 228