強化學習及其在自動駕駛汽車中的應用

裴曉飛

  • 出版商: 機械工業
  • 出版日期: 2026-06-01
  • 售價: $714
  • 語言: 簡體中文
  • ISBN: 7111809521
  • ISBN-13: 9787111809524
  • 相關分類: Reinforcement自駕車
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

傳統的基於模型規則的自動駕駛決策算法面對自動駕駛汽車的長尾效應顯得力不從心,亟待采用人工智能新方法突破當前智慧程度不足的瓶頸。為此,本書從強化學習算法應用的層面,總結了其在自動駕駛決策規劃方面的典型案例。先,全面闡述了自動駕駛汽車軟件工程的點,括架構、場景和測試,其次,系統總結了強化學習的理論基礎,括主要分類、典型算法及其衍生發展。從第4章開始,本書結合實踐案例全面介紹了強化學習算法在不同場景自動駕駛任務中的應用,依次括離線學習+在線學習、狀態表征+強化學習、風險敏感的強化學習、強化學習+軌跡規劃、強化學習+模仿學習、意圖識別+強化學習和多智能體強化學習,力圖通過對上述方法的具體闡述和結果分析為感興趣的讀者提供一定的技術參考和思維啟發。本書適合智能網聯汽車從業者,括、設計者、科研工作者以及剛入門的人員閱讀參考。

目錄大綱

前言

第1章 概述1

1.1 自動駕駛汽車概述1

1.2 機器學習概述5

1.3 強化學習應用概述9

第2章 自動駕駛汽車軟件技術12

2.1 自動駕駛汽車的分層式架構12

2.1.1 環境感知及其衍生12

2.1.2 決策規劃及其前提17

2.1.3 運動控制及其冗餘29

2.2 學習型的決策與規劃33

2.2.1 行為規劃與局規劃的關系33

2.2.2 模仿學習概述34

2.3 自動駕駛汽車的端到端架構36

2.4 場景驅動的自動駕駛38

2.4.1 典型場景38

2.4.2 場景指標40

2.4.3 場景數據43

2.5 自動駕駛汽車的軟件測試45

2.5.1 測試45

2.5.2 數字孿生47

2.5.3 實車測試47

第3章 強化學習的理論基礎49

3.1 強化學習的基本概念49

3.1.1 馬爾可夫決策過程49

3.1.2 分可觀馬爾可夫決策過程52

3.1.3 有約束馬爾可夫決策過程54

3.2 強化學習的方法分類54

3.2.1 根據是否基於模型分類54

3.2.2 根據求解方式的分類55

3.2.3 根據學習的實時性分類59

3.2.4 根據動作空間的分類61

3.2.5 根據智能體的數量分類61

3.3 典型強化學習算法介紹62

3.3.1 DDQN62

3.3.2 TD363

3.3.3 DSAC66

3.3.4 Rainbow DQN68

3.4 強化學習的任務與設計70

3.4.1 場景任務70

3.4.2 設計範式70

3.5 強化學習的發展與挑戰72

3.5.1 性72

3.5.2 數據利用的效率性73

3.5.3 泛化性74

第4章 結合蒙卡洛樹搜索的決策模型76

4.1 基於DRQN的車決策模型76

4.1.1 DRQN算法76

4.1.2 車問題MDP建模78

4.2 在線決策模塊79

4.2.1 蒙卡洛樹搜索算法79

4.2.2 強化學習80

4.3 場景搭建及結果82

4.3.1 場景搭建82

4.3.2 參數設置83

4.3.3 實驗結果分析84

第5章 基於狀態表征的決策模型88

5.1 問題描述88

5.1.1 維度問題89

5.1.2 排序問題89

5.2 狀態表征網絡90

5.3 狀態表征下的決策模型93

5.3.1 算法總體框架93

5.3.2 多車道問題MDP建模94

5.3.3 規則設計96

5.4 場景搭建及結果97

5.4.1 場景搭建97

5.4.2 參數設置98

5.4.3 實驗結果分析99

第6章 考慮風險敏感的決策模型101

6.1 風險敏感算法設計101

6.1.1 Rainbow DQN-QR算法101

6.1.2 Rainbow DQN-CVaR算法102

6.2 決策模型的建立103

6.2.1 算法總體框架103

6.2.2 MDP建模104

6.2.3 規控模塊設計106

6.3 場景搭建和結果107

6.3.1 場景搭建107

6.3.2 參數設置108

6.3.3 實驗結果分析110

第7章 具有混合動作空間的決策模型112

7.1 混合型決策規劃設計112

7.1.1 算法總體框架112

7.1.2 MDP建模114

7.1.3 規控模塊設計115

7.2 場景搭建和結果117

7.2.1 場景搭建117

7.2.2 參數設置118

7.2.3 實驗結果分析119

第8章 結合模仿學習的決策模型122

8.1 基於GRSD-DDQN的決策模型122

8.1.1 DDQN算法的化122

8.1.2 匯流問題MDP建模125

8.1.3 規控模塊設計128

8.2 基於行為克隆的決策模型129

8.2.1 家數據獲取129

8.2.2 駕駛行為克隆模型130

8.3 結合模仿學習與強化學習的決策模型132

8.3.1 算法總體框架132

8.3.2 DQfD算法133

8.3.3 模型預訓練134

8.4 場景搭建與結果136

8.4.1 場景搭建136

8.4.2 實驗結果分析137

第9章 基於駕駛意圖的決策模型140

9.1 駕駛意圖推理模型140

9.2 考慮駕駛意圖的並道決策142

9.2.1 並道問題MDP建模142

9.2.2 規則引導策略144

9.3 場景搭建及結果145

9.3.1 場景搭建145

9.3.2 參數設置146

9.3.3 實驗結果分析148

第10章 多車編隊協同決策模型150

10.1 多智能體強化學習150

10.1.1 理論基礎150

10.1.2 VDN算法152

10.1.3 QMIX算法154

10.1.4 通信網絡156

10.1.5 One-Hot編碼158

10.2 編隊模型建立 158

10.3 場景與結果分析161

10.3.1 場景搭建161

10.3.2 車輛隊列初始化161

10.3.3 參數設置162

10.3.4 實驗結果分析163

參考文獻181