AI圖像生成核心技術與實戰
南柯
相關主題
商品描述
本書以AI圖像生成為主線,串聯講解了Stable Diffusion、DALL·E、Imagen、Midjourney等模型的技術方案,並帶著讀者訓練一個自己專屬的AI圖像生成模型。
本書共6章。第1章先介紹身邊的AIGC產品,再講解AI圖像生成相關的深度學習基礎知識,包括神經網絡和多模態模型的基礎知識。第2章講解AI圖像生成技術,從VAE到GAN到基於流的模型再到擴散模型的演化,並詳細介紹擴散模型的算法原理和組成模塊。第3章講解Stable Diffusion模型的核心技術。第4章講解DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體模型的核心技術。第5章講解Midjourney、SDXL和DALL·E 3的核心技術。第6章是項目實戰,使用LoRA技術對Stable Diffusion模型進行微調,得到特定風格的AI圖像生成模型。
作者簡介
南柯,某头部互联网公司 AIGC 团队技术负责人,高级算法专家,极客时间“AI 绘画核心技术与实战”专栏作者,拥有十多年计算机视觉领域从业经验,带领团队推动多模态生成,尤其是 AI 图像生成与编辑、多模态大语言模型、数字人等热点方向的技术建设。在 ICCV 和AAAI 年会等 AI 领域顶级会议上发表过多篇论文,拥有 100 多项专利。
目錄大綱
第 1章 AIGC基礎 1
1.1 身邊的AIGC 1
1.1.1 圖像生成和編輯類工具 1
1.1.2 文字提效類工具 2
1.1.3 音頻創作類工具 4
1.2 神經網絡 4
1.2.1 人工神經元 5
1.2.2 激活函數 6
1.2.3 人工神經網絡 7
1.2.4 損失函數 9
1.2.5 優化器 9
1.2.6 捲積神經網絡 10
1.3 多模態模型 13
1.3.1 認識模態 14
1.3.2 典型多模態模型 15
1.3.3 參數量 16
1.3.4 計算量 17
1.4 小結 17
第 2章 圖像生成模型:GAN和擴散模型 19
2.1 圖像生成模型的技術演化 19
2.1.1 第 一代圖像生成模型:VAE 20
2.1.2 第二代圖像生成模型:GAN 20
2.1.3 第三代圖像生成模型:基於流的模型 21
2.1.4 第四代圖像生成模型:擴散模型 21
2.1.5 第五代圖像生成模型:自回歸模型 22
2.2 “舊畫師”GAN 22
2.2.1 生成對抗原理 22
2.2.2 生成能力的進化 24
2.2.3 GAN時代的“圖生圖” 28
2.2.4 GAN的技術應用 30
2.3 “新畫師”擴散模型 31
2.3.1 加噪過程:從原始圖像到噪聲圖 32
2.3.2 去噪過程:從噪聲圖到清晰圖像 33
2.3.3 訓練過程和推理過程 35
2.3.4 擴散模型與GAN 36
2.4 擴散模型的U-Net模型 37
2.4.1 巧妙的U形結構 37
2.4.2 損失函數設計 41
2.4.3 應用於擴散模型 43
2.5 擴散模型的採樣器 43
2.5.1 採樣器背後的原理 44
2.5.2 如何選擇採樣器 45
2.6 訓練一個擴散模型 46
2.6.1 初探擴散模型:輕松入門 46
2.6.2 深入擴散模型:定製藝術 50
2.7 小結 52
第3章 Stable Diffusion的核心技術 53
3.1 圖像的“壓縮器”VAE 53
3.1.1 從AE到VAE 54
3.1.2 圖像插值生成 58
3.1.3 訓練“餐廳評論機器人” 60
3.1.4 VAE和擴散模型 61
3.2 讓模型“聽話”的CLIP 62
3.2.1 連接兩種模態 62
3.2.2 跨模態檢索 64
3.2.3 其他CLIP模型 67
3.2.4 CLIP和擴散模型 68
3.3 交叉註意力機制 69
3.3.1 序列、詞符和詞嵌入 69
3.3.2 自註意力與交叉註意力 71
3.3.3 多頭註意力 72
3.4 Stable Diffusion是如何工作的 77
3.4.1 Stable Diffusion的演化之路 77
3.4.2 潛在擴散模型 78
3.4.3 文本描述引導原理 80
3.4.4 U-Net模型實現細節 82
3.4.5 反向描述詞與CLIP Skip 86
3.4.6 “圖生圖”實現原理 87
3.5 小結 90
第4章 DALL·E 2、Imagen、DeepFloyd和Stable Diffusion圖像變體的
核心技術 91
4.1 里程碑DALL·E 2 91
4.1.1 DALL·E 2的基本功能概覽 91
4.1.2 DALL·E 2背後的原理 94
4.1.3 unCLIP:圖像變體的魔法 97
4.1.4 DALL·E 2的算法局限性 97
4.2 Imagen和DeepFloyd 98
4.2.1 Imagen vs DALL·E 2 98
4.2.2 Imagen的算法原理 99
4.2.3 文本編碼器:T5 vs CLIP 100
4.2.4 動態閾值策略 103
4.2.5 開源模型DeepFloyd 104
4.2.6 升級版Imagen 2 107
4.3 Stable Diffusion圖像變體 107
4.3.1 “圖生圖”vs圖像變體 107
4.3.2 使用Stable Diffusion圖像變體 108
4.3.3 探秘Stable Diffusion圖像變體模型背後的算法原理 110
4.4 小結 112
第5章 Midjourney、SDXL和DALL·E 3的核心技術 113
5.1 推測Midjourney的技術方案 113
5.1.1 Midjourney的基本用法 113
5.1.2 各版本演化之路 114
5.1.3 技術方案推測 117
5.2 SDXL的技術方案與使用 120
5.2.1 驚艷的繪圖能力 120
5.2.2 使用級聯模型提升效果 122
5.2.3 更新基礎模塊 123
5.2.4 使用SDXL模型 124
5.3 更“聽話”的DALL·E 3 126
5.3.1 體驗DALL·E 3的功能 126
5.3.2 數據集重新描述 127
5.3.3 生成數據有效性 128
5.3.4 數據混合策略 129
5.3.5 基礎模塊升級 131
5.3.6 擴散模型解碼器 133
5.3.7 算法局限性 133
5.4 小結 134
第6章 訓練自己的Stable Diffusion 135
6.1 低成本訓練神器LoRA 135
6.1.1 LoRA的基本原理 135
6.1.2 LoRA的代碼實現 136
6.1.3 用於圖像生成任務 138
6.2 Stable Diffusion WebUI體驗圖像生成 139
6.2.1 本地AI圖像生成模型 140
6.2.2 開源社區中的模型 142
6.2.3 體驗AI圖像生成功能 143
6.2.4 將多個模型進行融合 144
6.2.5 靈活的LoRA模型 146
6.3 Stable Diffusion代碼實戰 150
6.3.1 訓練數據準備 151
6.3.2 基礎模型的選擇與使用 154
6.3.3 一次完整的訓練過程 155
6.4 小結 157