擴散模型——核心原理與強化學習優化
陳雲 牛雅哲 張金歐文
- 出版商: 機械工業
- 出版日期: 2025-11-01
- 售價: $480
- 語言: 簡體中文
- 頁數: 178
- ISBN: 7115676127
- ISBN-13: 9787115676122
-
相關分類:
Reinforcement
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書通過系統化的理論講解與實戰導向的案例分析,幫助讀者掌握擴散模型與強化學習的結合應用,探索其針對實際問題的解決方案。書中首先介紹了生成模型的發展史,特別是擴散模型的起源和核心思想,為讀者學習後續章節奠定基礎;然後深入探討了擴散模型在構建決策智能體、結合價值函數等方面的應用,還詳細講解了如何利用擴散模型解決軌跡優化和策略優化等問題;接下來探索了擴散模型在多任務泛化和世界模型建模方面的擴展應用,展示了其在覆雜環境中的適應性和靈活性;最後討論了利用強化學習優化擴散模型的新進展,以及擴散模型在決策問題上的前沿研究方向。
作者簡介
陳雲
北京大學智能科學與技術專業學士、軟件工程碩士,現任阿裏巴巴國際數字商業集團智能技術部推薦算法工程師,主要研究方向為生成式人工智能在智能推薦與商業廣告中的創新應用。曾於上海人工智能實驗室擔任研究員,深度參與開源強化學習平臺DI-engine的研發與維護,並在生成式策略學習與擴散模型方向持續輸出技術博客文章與開源實踐項目,目前多項研究成果發表於國際頂級會議及期刊。
牛雅哲
上海人工智能實驗室前沿探索中心研究員,開源決策智能組織OpenDILab(GitHub Star
數超2.7萬,為國內影響力廣泛的決策智能開源組織)負責人。曾在NeurIPS、ICLR、AAAI等機器學習頂級會議上發表多篇論文,在強化學習、分布式系統及大模型訓練基建等領域擁有多年研發經驗,長期致力於探索機器學習算法與系統設計優化相結合的最佳實踐路徑。
張金歐文
上海人工智能實驗室AI For Science中心算法工程師,研究方向為生成模型、強化學習、科學智能與工業智能。
目錄大綱
第 1 章 起源:擴散模型簡介 1
11 生成模型的發展史 1
12 擴散模型核心思想介紹 4
121 擴散過程及其逆過程 4
122 擴散模型的訓練 7
123 擴散模型的推斷 8
124 擴散模型的評價指標 9
125 擴散模型的類型 10
13 條件擴散模型 13
131 分類器引導采樣和無分類器引導采樣 13
132 ControlNet 15
14 擴散模型加速采樣方法 17
141 training-free 加速采樣方法 18
142 training-based 加速采樣方法24
參考文獻27
第 2 章 基石:擴散模型與軌跡優化問題 29
21 離線強化學習 29
22 第 一個基於擴散模型的決策智能體:Plan Diffuser 31
221 以軌跡片段為對象的擴散模型 31
222 Plan Diffuser 的建模與優化 32
223 Plan Diffuser 的特性 39
224 從實驗中解析 Plan Diffuser 40
225 靈活的測試目標 42
226 離線強化學習 43
227 擴散模型熱啟動 44
23 條件生成決策模型的集大成者:Decision Diffuser 45
231 Decision Diffuser 的建模與優化 45
232 回報以外的條件變量 47
24 代碼實戰 54
241 導入第三方庫 54
242 準備數據集 54
243 配置擴散模型 56
244 實例化擴散模型 57
245 訓練條件擴散模型 57
246 條件采樣 58
參考文獻60
第 3 章 基石:擴散模型與價值函數的結合 61
31 強化學習中基於價值函數的策略優化 61
32 Diffusion-QL :高效建模離線數據集中的行為策略 62
33 CEP 和 QGPO :借助能量函數設計新的引導器 64
331 對比能量預測法 65
332 基於 Q 價值函數引導的策略優化 69
34 LDCQ :擴散模型約束下的 Q-learning 77
341 背景知識 78
342 隱空間擴散強化學習 80
343 以目標為條件的隱空間擴散模型 84
344 實驗與分析 84
345 局限性與展望 88
參考文獻89
第 4 章 基石:擴散模型訓練技巧指南 90
41 如何設計去噪網絡 90
411 U-Net 90
412 DiT 92
413 文本編碼器 98
42 如何設計訓練方案 99
421 連續時間擴散模型的訓練 99
422 擴散過程的設計與選擇 100
423 擴散模型建模目標與訓練方式的選擇 102
43 如何選擇擴散模型的類型 104
44 代碼實戰 105
參考文獻 106
第 5 章 擴展:多任務泛化 108
51 離線元強化學習 108
52 MetaDiffuser 108
521 面向任務的上下文編碼器 109
522 條件擴散模型架構 110
523 雙引導增強規劃器 111
參考文獻 112
第 6 章 擴展:世界模型建模 113
61 世界模型簡介 113
62 基於 RNN 的世界模型 114
621 論文“World Models” 114
622 DreamerV3 115
63 基於 Transformer 的世界模型 122
631 IRIS 122
632 TWM 124
633 STORM 124
64 基於擴散模型的世界模型 126
641 擴散範式的最佳實踐126
642 實驗結果 129
參考文獻 132
第 7 章 反轉:用強化學習來優化擴散模型 133
71 引言 133
72 DDPO :將去噪過程建模為序列決策過程 133
721 將擴散模型建模為多步 MDP 135
722 策略梯度估計 136
723 各種獎勵模型下的采樣表現 136
73 Diffusion-DPO :運用於擴散模型的直接偏好優化 139
731 從 RLHF 到 DPO 140
732 將 RLHF 用於文本圖像對齊 141
733 將 DPO 用於文本圖像對齊 142
734 將 DPO 用於擴散模型優化 143
735 文本圖像對齊實驗 145
736 從強化學習角度推導 Diffusion-DPO 147
74 DRaFT :通過可微分獎勵函數直接優化擴散模型 149
741 DRaFT 149
742 DRaFT-K 150
743 DRaFT-LV 151
744 實驗結果 151
75 代碼實戰 152
參考文獻 157
第 8 章 擴展:擴散模型在決策問題上的新進展 158
81 基於生成模型的強化學習策略 158
82 決策基模型中的擴散模型 161
821 ViNT 162
822 NoMaD 166
823 SuSIE 170
83 總結與展望 177
參考文獻 177
