深度強化學習原理與實踐

陳仲銘何明

預覽內頁

出版商: 人民郵電
出版日期: 2019-05-01
售價: $594
語言: 簡體中文
ISBN: 7115505322
ISBN-13: 9787115505323
相關分類: Reinforcement

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$620~~ $589

機率論
$402

解析深度學習 : 語音識別實踐
~~$750~~ $713

細說統計【嚴選試題．詳盡解說】, 3/e
$414

多智能體機器學習 : 強化學習方法 (Multi-Agent Machine Learning : A Reinforcement Approach)
$408

強化學習精要：核心算法與 TensorFlow 實現
$402

Web 安全之強化學習與 GAN
~~$620~~ $490

Deep Learning 深度學習基礎｜設計下一代人工智慧演算法 (Fundamentals of Deep Learning: Designing Next-Generation Machine Intelligence Algorithms)
~~$539~~ $512

揭秘深度強化學習人工智能機器學習技術叢書
$453

深度學習原理與實踐
~~$534~~ $507

強化學習實戰：強化學習在阿裡的技術演進和業務創新匯集了阿裡巴巴一線算法工程師在強化學習應用方面的經驗和心得。
~~$780~~ $616

深度學習｜內行人的做法 (Deep Learning: A Practitioner's Approach)
$504

精通 CSS 高級 Web 標準解決方案, 3/e
$448

深度學習：智能時代的核心驅動力量
$421

深度學習 : 語音識別技術實踐
$351

Python 深度學習實戰：基於 TensorFlow 和 Keras 的聊天機器人以及人臉、物體和語音識別
~~$1,000~~ $790

Deep learning 深度學習必讀 - Keras 大神帶你用 Python 實作 (Deep Learning with Python)
~~$520~~ $442

用 Python 實作強化學習｜使用 TensorFlow 與 OpenAI Gym (Hands-On Reinforcement Learning with Python)
$149

機器學習及應用（在線實驗+在線自測）
~~$450~~ $99

中文自然語言處理實戰：聊天機器人與深度學習整合應用
~~$500~~ $425

實戰人工智慧之深度強化學習｜使用 PyTorch x Python
$453

強化學習：原理與Python實現
$177

機器學習、深度學習與強化學習
$414

強化學習
$229

TensorFlow 強化學習快速入門指南使用 Python 動手搭建自學習的智能體 (Tensorflow Reinforcement Learning Quick Start Guide)
$374

強化學習入門：從原理到實踐

商品描述

本書構建了一個完整的深度強化學習理論和實踐體系：從馬爾可夫決策過程開始，根據價值函數、策略函數求解貝爾曼方程，到利用深度學習模擬價值網絡和策略網絡。書中詳細介紹了深度強化學習相關算法，如Rainbow、Ape-X算法等，並闡述了相關算法的具體實現方式和代表性應用（如AlphaGo）。此外，本書還深度剖析了強化學習各算法之間的聯系，有助於讀者舉一反三。

本書分為四篇：初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容，反映了深度強化學習領域過去的發展歷程和研究進展，有助於讀者發現該領域中新的研究問題和方向。

作者簡介

陳仲銘：西安電子科技大學碩士。主要研究方向為強化學習與深度學習、數據挖掘、圖像算法及其應用。曾參與激光點雲三維掃描、個性化推薦系統、多傳感器融合系統等大型項目，期間多次獲國家級創新項目獎，並在國內外發表多篇相關論文。此外，作為技術顧問為多家科研和企業機構提供關於數學建模、深度學習等諮詢和培訓。著有《深度學習原理與實踐》一書。

何明：重慶大學學士，中國科學技術大學博士，曾於美國北卡夏洛特分校訪學交流，目前為上海交通大學電子科學與技術方向博士後研究人員、OPPO研究院人工智能算法研究員。主要研究方向為深度強化學習、數據挖掘與知識發現、機器學習方法及其應用，側重於移動端用戶行為分析與建模。在TIP、TWEB、DASFAA、IEEE Access等重要學術會議和期刊共發表論文10餘篇，並獲得過數據挖掘領域國際會議KSEM2018的最佳論文獎。

目錄大綱

第一篇初探強化學習
--第1章強化學習緒論
--第2章數學基礎及環境
第二篇求解強化學習
--第3章動態規劃法
--第4章蒙特卡洛法
--第5章時間差分法
第三篇求解強化學習進階
--第6章值函數近似法
--第7章策略梯度法
--第8章整合學習與規劃
第四章深度強化學習
--第9章深度強化學習
--第10章深度Q網絡
--第11章深度強化學習算法框架
--第12章從圍棋AlphaGo到AlphaGo Zero