相關主題
商品描述
本書系統闡述了視覺語言模型的理論體系與技 術實踐。全書共15章,分為三大部分:基礎綜述( 第1章)、關鍵技術(第2~14章)與未來展望(第 15章)。 部分詳解視覺語言模型的網絡架構、預訓 練目標、評估方法及數據集體系,對比分析對抗訓 練、生成式預訓練等範式,並建立性能評估基準。 第二部分:第2章通過多個案例展示技術多樣性;第 3~5章深入探討少樣本學習、魯棒微調等關鍵問題 ,提出約束線性探測等原創方法;第6~10章聚焦模 型擴展性,涵蓋InternVL億級參數訓練、VinVL視 覺表征重構等前沿實踐; 1~14章探索提示工程 、異常檢測等應用場景,包含MATCHER一次性分割 等突破性方案。第三部分展望多模態生成、組合推 理等未來方向。 本書系統性與前沿性並重,理論與實踐結合, 適合AI算法工程師、大模型及多模態人工智能 研究者學習,也可用作高等院校相關專業的教材及 參考書。
目錄大綱
第1章 視覺任務的視覺語言模型綜述
1.1 視覺語言模型摘要
1.2 視覺語言模型問題提出
1.3 視覺語言模型背景
1.3.1 視覺識別的訓練範式
1.3.2 用於視覺識別的VLM的開發
1.3.3 相關調查
1.4 VLM基礎
1.4.1 網絡架構
1.4.2 VLM預訓練目標
1.4.3 VLM預訓練框架
1.4.4 評估設置和下遊任務
1.5 數據集
1.5.1 預訓練VLM的數據集
1.5.2 VLM評估數據集
1.6 視覺語言模型預訓練
1.6.1 具有對抗目標的VLM預訓練
1.6.2 具有生成目標的VLM預訓練
1.6.3 帶有對齊目標的VLM預訓練
1.7 VLM 遷移學習
1.7.1 遷移學習的動機
1.7.2 遷移學習的常見設置
1.7.3 常見的遷移學習方法
1.8 視覺大模型語言知識提煉
1.8.1 從VLM中提取知識的動機
1.8.2 常識提煉方法
1.9 性能比較
1.9.1 VLM預訓練的表現
1.9.2 VLM遷移學習的性能
1.9.3 VLM知識提取的性能
1.10 未來發展方向
1.11 小結
第2章 視覺語言模型各種示例
2.1 通過模仿和自我監督學習創建多模態交互代理
2.2 DEPT:用於參數高效微調的分解式快速調諧
2.3 基於聚類掩蔽的高效視覺語言預訓練
2.4 來自並行文本世界的LLM訓練的體現多模態智能體
2.5 在豐富的監督下加強視覺語言預訓練
2.6 FairCLIP:在視覺和語言學習中強調公平
2.7 用於開放式目標檢測的生成區域語言預訓練
2.8 FROSTER:凍結的CLIP是開放詞匯動作識別的有力教師
2.9 Ins-DetCLIP:對齊檢測模型以遵循人類語言指令
2.10 MMICL:通過多模態語境學習增強視覺語言模型的能力
2.11 學習提示分割任何模型
2.12 NEMESIS:視覺語言模型軟性向量的歸一化
2.13 非自回歸序列到序列視覺語言模型
2.14 一個提示詞足以提高預訓練視覺語言模型的對抗魯棒性
2.15 連續學習的快速梯度投影
2.16 檢索增強對比視覺文本模型
2.17 TCP:基於文本的類感知可視化語言模型的提示調優
2.18 聯合學習中視覺語言模型的文本驅動提示生成
第3章 大視覺語言模型的少數樣本任務適配
3.1 少數樣本任務適配概述
3.2 少數樣本任務適配相關知識
3.2.1 少數樣本任務適配歷史淵源
3.2.2 相關工作概述
3.3 少數樣本任務適配準備工作
3.3.1 對比視覺語言預訓練大規模VLM
3.3.2 可遷移性
3.3.3 使用適配器進行高效遷移學習
3.3.4 現有少樣本任務ETL方法的陷阱
3.4 少樣本任務擬議辦法
3.4.1 重新審視線性探測
3.4.2 約束線性探測
3.4.3 線性探測的類自適應約束
3.5 少樣本任務實驗
3.5.1 安裝程序
3.5.2 少樣本任務測試結果
3.5.3 少樣本任務消融實驗
3.6 少樣本任務限制
第4章 基於錨點的視覺語言模型魯棒微調
4.1 錨點視覺語言模型魯棒微調概要
4.2 錨點視覺語言模型魯棒微調相關技術
4.2.1 錨點視覺語言模型魯棒微調問題提出
4.2.2 錨點視覺語言模型魯棒微調相關工作
4.3 錨點視覺語言模型魯棒微調準備工作
4.3.1 符號摘要
4.3.2 對比視覺語言模型
4.4 錨點視覺語言模型魯棒微調方法
4.4.1 問題設置
4.4.2 基於錨點的穩健微調概述
4.5 錨點視覺語言模型魯棒微調實驗
4.5.1 域轉換下的評估
4.5.2 零樣本學習下的評價
4.5.3 消融研究
4.5.4 錨的定性示例
4.6 小結
第5章 視覺語言模型的一致性引導快速學習
5.1 一致性引導快速學習摘要
5.2 一致性引導快速學習問題提出及相關工作
5.2.1 一致性引導快速學習問題提出
5.2.2 一致性引導快速學習相關工作
5.3 一致性引導快速學習方法
5.3.1 準備工作
5.3.2 協同學習:以一致性為導向的快速學習
5.4 一致性引導快速學習4個實驗
5.4.1 實驗設置
5.4.2 新概括的基礎
5.4.3 跨數據集評估
5.4.4 域泛化
5.4.5 消融研究
5.4.6 參數和計算覆雜度
5.5 小結
第6章 InternVL:擴展視覺基礎模型並對齊通用視覺語言任務
6.1 InternVL擴展視覺基礎模型並對齊摘要
6.2 擴展視覺基礎模型並對齊問題提出及相關工作
6.2.1 擴展視覺基礎模型並對齊問題提出
6.2.2 擴展視覺基礎模型並對齊相關工作
6.3 擴展視覺基礎模型並對齊擬議方法
6.3.1 總體架構
6.3.2 模型設計
6.3.3 對齊策略
6.4 擴展視覺基礎模型並對齊實驗
6.4.1 實施細節
6.4.2 視覺感知基準
6.4.3 視覺語言基準
6.4.4 多模式對話基準
6.4.5 消融研究
6.5 擴展視覺基礎模型並對齊結論
6.6 擴展視覺基礎模型並對齊補充材料
6.6.1 多實驗
6.6.2 多消融研究
6.6.3 詳細訓練設置
6.6.4 預訓練數據準