多模態大模型:從理論到實踐

韓曉晨

  • 出版商: 清華大學
  • 出版日期: 2025-04-01
  • 售價: $594
  • 語言: 簡體中文
  • 頁數: 324
  • ISBN: 7302686920
  • ISBN-13: 9787302686927
  • 相關分類: LangChain
  • 下單後立即進貨 (約4週~6週)

  • 多模態大模型:從理論到實踐-preview-1
  • 多模態大模型:從理論到實踐-preview-2
  • 多模態大模型:從理論到實踐-preview-3
多模態大模型:從理論到實踐-preview-1

商品描述

"《多模態大模型:從理論到實踐》系統地介紹多模態大模型的理論基礎、關鍵技術與實際應用。全書分為兩部分12章,第1部分(第1~5章)圍繞基礎理論與技術解析展開論述,包括基本概念、Transformer架構、跨模態對齊、模態融合,以及多模態大模型的預訓練方法、模型微調與優化等,為理解多模態大模型的構建邏輯奠定基礎。第2部分(第6~12章)聚集於多模態大模型的高級應用與場景實現,包括主流視覺語言模型(如CLIP、BLIP-2等)的實現、跨模態推理與生成的技術應用、多模態大模型的推理與優化方法、模型的安全與可信性問題,並通過多模態檢索與推薦系統、多模態語義理解系統和多模態問答系統的端到端開發實踐,展示了多模態大模型的實際落地路徑。 《多模態大模型:從理論到實踐》兼具理論深度與實際應用價值,適合大模型和AI研發人員、人工智能領域的從業者以及高校師生閱讀使用,也可作為培訓機構和高校人工智能及相關專業的教材或參考書。"

作者簡介

韓曉晨 長期從事高性能計算與大模型訓練算力優化研究。近十年來,專註於智能計算架構優化及大規模數據處理,深耕於控制算法、機器視覺等領域。近年來,重點研究大模型訓練加速、算力調度與異構計算優化,致力於提升大模型計算效率與資源利用率,推動大規模人工智能模型的部署與應用。

目錄大綱

目    錄

第1部分  基礎理論與技術解析

第 1 章  緒論 3

1.1  多模態與大模型簡介 3

1.1.1  多模態數據的種類與特點 3

1.1.2  大模型的核心能力與應用領域 6

1.2  表徵學習與遷移學習 7

1.2.1  表徵學習 8

1.2.2  遷移學習 11

1.3  內容生成與模態對齊 12

1.3.1  模態對齊的實現方法與技術難點 12

1.3.2  多模態生成任務的典型案例 14

1.4  多模態大模型發展歷程 16

1.4.1  單模態到多模態的發展路徑 16

1.4.2  多模態大模型的技術里程碑匯總 18

1.5  本章小結 19

1.6  思考題 19

第 2 章  基礎知識 21

2.1  機器學習關鍵技術詳解 21

2.1.1  特徵工程與模型選擇 21

2.1.2  集成學習在多模態中的應用 23

2.2  深度學習基本原理與常用技術點 26

2.2.1  捲積神經網絡 26

2.2.2  循環神經網絡 29

2.2.3  分類器與多層感知機 32

2.2.4  激活函數 34

2.3  梯度下降與反向傳播算法的原理與實現 37

2.3.1  梯度下降算法原理與實現 37

2.3.2  反向傳播算法原理與實現 41

2.4  大模型在文本與圖像處理中的應用 43

2.4.1  文本處理中的生成與理解任務 43

2.4.2  圖像處理中的分割與檢測 45

2.5  本章小結 48

2.6  思考題 49

第 3 章  多模態大模型核心架構 50

3.1  Transformer基本原理剖析 50

3.1.1  自註意力機制 50

3.1.2  編碼器-解碼器架構 53

3.2  跨模態對齊技術:註意力機制與嵌入對齊 58

3.2.1  嵌入空間的對齊方法與損失函數優化 58

3.2.2  多頭註意力機制在對齊中的應用 62

3.3  模態融合數據級、特徵級與目標級 64

3.3.1  數據級融合的實現與場景應用 64

3.3.2  特徵級融合的建模方法與優化 66

3.4  模態解耦與共享學習框架 70

3.4.1  模態解耦的多任務學習策略 70

3.4.2  參數共享框架的設計與優化 74

3.5  本章小結 78

3.6  思考題 78

第 4 章  多模態大模型的預訓練方法 80

4.1  文本與視覺聯合預訓練任務設計 80

4.1.1  文本任務的掩碼建模與生成任務 80

4.1.2  視覺任務的特徵提取與目標檢測 82

4.2  自監督學習與多模態預訓練 85

4.2.1  對比學習在多模態中的實現方法 85

4.2.2  重建任務的自監督學習實現 88

4.3  提示學習與指令微調 91

4.3.1  提示模板設計與輸入增強技術 91

4.3.2  指令微調的適配流程與效果分析 94

4.4  數據高效利用遷移學習與混合監督 96

4.4.1  遷移學習的小樣本適配技術 96

4.4.2  半監督學習的聯合訓練方法 98

4.5  本章小結 101

4.6  思考題 101

第 5 章  多模態大模型微調與優化 103

5.1  基於LoRA的輕量化微調 103

5.1.1  LoRA:參數凍結與動態註入技術 103

5.1.2  輕量化微調 106

5.2  參數高效微調 109

5.2.1  PEFT的技術原理與實現 109

5.2.2  微調效果的對比與性能評價 115

5.3  RLHF原理及實現 118

5.3.1  RLHF與獎勵建模 118

5.3.2  RLHF在多模態任務中的實現 123

5.4  多任務學習與領域適配 125

5.4.1  多任務共享學習 125

5.4.2  領域適配與標註數據增強技術 128

5.5  本章小結 130

5.6  思考題 131

第 2 部分  高級應用與實踐探索

第 6 章  視覺語言模型的實現 135

6.1  CLIP模型的原理與實現 135

6.1.1  文本視覺聯合嵌入的實現技術 135

6.1.2  CLIP模型的預訓練目標與任務遷移 139

6.2  BLIP-2模型在多模態生成中的應用 142

6.2.1  圖像到文本生成的模型設計 142

6.2.2  多模態生成任務的優化策略 145

6.3  SAM模型在視覺任務中的實現 148

6.3.1  SAM模型的特徵提取與訓練方法 148

6.3.2  分割任務中的應用與性能分析 151

6.4  視頻與語言多模態模型融合 153

6.4.1  視頻嵌入與文本生成的聯合建模 154

6.4.2  多模態視頻任務的優化實踐 157

6.5  本章小結 159

6.6  思考題 160

第 7 章  跨模態推理與生成 161

7.1  視覺問答與視覺常識推理 161

7.1.1  視覺問答模型的任務建模方法 161

7.1.2  常識推理中的視覺語義問題 164

7.2  跨模態文本生成:從圖像到描述 166

7.2.1  圖像描述生成模型訓練方法 167

7.2.2  跨模態文本生成的關鍵技術 170

7.3  復雜場景中的視頻生成與理解 172

7.3.1  視頻生成任務 173

7.3.2  復雜場景的視頻理解技術 176

7.4  跨模態對話與導航任務 179

7.4.1  對話系統中的多模態交互設計 179

7.4.2  導航任務的視覺與語義聯合優化 182

7.5  本章小結 185

7.6  思考題 185

第 8 章  多模態大模型的推理優化 187

8.1  ONNX與TensorRT在多模態推理中的應用 187

8.1.1  ONNX模型的優化與轉換流程 187

8.1.2  TensorRT的推理加速與量化技術 192

8.2  動態批量與自定義算子優化 196

8.2.1  動態批量推理的實現與性能分析 196

8.2.2  自定義算子的設計與任務適配 198

8.3  混合精度推理與內存優化技術 201

8.3.1  混合精度訓練的實現與性能提升 201

8.3.2  內存優化技術在推理中的應用 204

8.3.3  多GPU的分佈式推理任務調度 206

8.4  本章小結 208

8.5  思考題 208

第 9 章  多模態大模型的安全問題與可信問題 210

9.1  模型的可解釋性與註意力可視化 210

9.1.1  註意力機制的可視化技術實現 210

9.1.2  模型行為的解釋性方法 214

9.2  多模態大模型中的魯棒性與偏見問題 216

9.2.1  模型魯棒性提升的優化策略 216

9.2.2  偏見檢測與緩解技術的應用 219

9.3  隱私保護與數據安全技術 222

9.3.1  模態分離與隱私保護框架設計 223

9.3.2  數據加密與安全分發技術實現 226

9.4  本章小結 228

9.5  思考題 228

第 10 章  多模態檢索與推薦系統 230

10.1  跨模態檢索算法與實現 230

10.1.1  跨模態檢索中的嵌入空間設計 230

10.1.2  檢索任務的多模態優化 232

10.2  圖像視頻與文本的聯合檢索 235

10.2.1  圖文聯合檢索的模型實現 235

10.2.2  視頻檢索中的特徵聯合與優化 237

10.3  基於多模態的推薦系統 243

10.3.1  多模態嵌入在推薦任務中的應用 243

10.3.2  推薦系統的動態適配與更新 249

10.4  本章小結 256

10.5  思考題 257

第 11 章  多模態語義理解系統 258

11.1  系統架構與功能規劃 258

11.1.1  系統核心模塊的架構設計 258

11.1.2  功能規劃與數據流轉流程 259

11.2  使用開源框架實現跨模態生成 260

11.2.1  跨模態開發框架簡介 261

11.2.2  模塊實現 262

11.2.3  模塊綜合測試 279

11.3  模型優化與推理性能提升 282

11.3.1  生成任務中的模型優化 282

11.3.2  推理性能的加速與內存優化 284

11.3.3  系統部署 286

11.3.4  系統性能監控 288

11.4  本章小結 291

11.5  思考題 292

第 12 章  多模態問答系統 293

12.1  數據集準備與預處理 293

12.1.1  問答數據集的構建與清洗方法 293

12.1.2  數據增強技術在問答任務中的應用 299

12.2  視覺與文本問答模型的訓練及API開發 305

12.2.1  跨模態問答模型的多任務訓練 305

12.2.2  API接口設計與服務化集成 313

12.2.3  模型輸出的解析與後處理實現 315

12.3  性能測試與部署實踐 317

12.3.1  系統測試的指標與性能分析 318

12.3.2  部署優化與線上環境監控技術 320

12.4  本章小結 322

12.5  思考題 323