更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練
梁志遠 著
- 出版商: 深智
- 出版日期: 2025-12-19
- 定價: $980
- 售價: 7.9 折 $774
- 語言: 繁體中文
- 頁數: 552
- ISBN: 6267757609
- ISBN-13: 9786267757604
-
相關分類:
Large language model
尚未上市,歡迎預購
買這商品的人也買了...
-
$700Professional Scrum Development with Microsoft Visual Studio 2012 (Paperback) -
$857深度學習 -
演算法之美:隱藏在資料結構背後的原理 (C++版)$650$507 -
手機攝影必學 BOOK:用OX帶你學會拍人物、食物、風景等情境照片$398$299 -
創意競擇:從賈伯斯黃金年代的軟體設計機密流程,窺見蘋果的創意方法、本質與卓越關鍵$460$391 -
Web 開發者一定要懂的駭客攻防術 (Web Security for Developers: Real Threats, Practical Defense)$420$332 -
資料科學的統計實務 : 探索資料本質、扎實解讀數據,才是機器學習成功建模的第一步$599$473 -
Martin Fowler 的企業級軟體架構模式:軟體重構教父傳授 51個模式,活用設計思考與架構決策 (Patterns of Enterprise Application Architecture)$800$624 -
我懂了!專案管理 (暢銷紀念版)$400$316 -
電腦視覺機器學習實務|建立端到端的影像機器學習 (Practical Machine Learning for Computer Vision: End-To-End Machine Learning for Images)$780$616 -
Learning Blazor: Build Single-Page Apps with Webassembly and C# (Paperback)$2,300$2,185 -
ASP.NET Core Razor Pages in Action (Paperback)$2,160$2,052 -
$569腦洞大開:滲透測試另類實戰攻略 -
$658Web 漏洞解析與攻防實戰 -
Web 安全與攻防實戰從新手到高手 (微課超值版)$479$455 -
Python 網絡黑客攻防技術導論$414$393 -
無瑕的程式碼 軟體工匠篇:程式設計師必須做到的紀律、標準與倫理 (Clean Craftsmanship: Disciplines, Standards, and Ethics)$720$562 -
從源頭就優化 - 動手開發自己的編譯器實戰$880$695 -
UX 商業價值實現之道|打造成功的數位產品服務 (UX for Business: How to Design Valuable Digital Companies)$780$616 -
建構可擴展系統|設計分散式架構 (Foundations of Scalable Systems: Designing Distributed Architectures)$780$616 -
LLM × 網路爬蟲終極實戰:n8n 串接資料爬取 × Qdrant × RAG 打造本機 AI Agent$980$774 -
Python 運算思維 : Google Colab x Gemini AI - 「零基礎」x「高效率」學「程式設計」$790$624 -
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$938 -
內行人才知道的生成式 AI系統設計面試指南 (Generative AI System Design Interview)$750$593 -
知道你的下一筆訂單 - 使用 LLM$980$774
相關主題
商品描述
【內容特點】
★Transformer與MoE架構計算特性
★模型壓縮技術:量化、剪枝、蒸餾
★混合精度訓練與分散式訓練架構
★ONNX與TensorRT格式轉換流程
★運算圖最佳化:融合、重寫、記憶體配置
★端側學習與聯邦學習通訊機制
★IR中介表示與計算圖優化策略
★動態Batch與記憶體排程機制
★cuDNN與MKLDNN運算元庫應用
★CUDA核心函數與GPU記憶體管理
★Vulkan推理加速與圖形並行整合
★OpenCL與AVX跨平台加速
★DeepSeek-V3訓練與推理結構
★FP8精度訓練與Sigmoid路由演算法
【內容簡介】
本書從工程實作與架構設計的角度出發,系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從Transformer與MoE架構切入,解析其帶來的計算與儲存壓力,並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法,如混合精度訓練、分散式架構與推理引擎建構,還提供跨框架的模型格式轉換範例,涵蓋ONNX、TensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術,並透過cuDNN、MKLDNN、CUDA與Vulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節,並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言,是一本兼顧理論深度與實務操作的實用指南。
作者簡介
梁志遠 博士
畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發,專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫,涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。
目錄大綱
▌第一部分 大模型概述與核心最佳化技術
►第1章 大模型基本概念
1.1 大模型的興起與發展
1.1.1 大規模神經網路
1.1.2 Transformer 編碼器-解碼器
1.1.3 MoE 架構
1.2 運算資源與性能瓶頸
1.2.1 GPU 簡介
1.2.2 TPU 簡介
1.2.3 網路頻寬約束與分散式訓練
1.2.4 大模型的訓練時間與運算資源消耗問題
1.3 資料與隱私問題
1.3.1 急劇增加的資料量
1.3.2 資料隱私保護與符合規範性
1.4 模型部署與運行維護
1.4.1 模型部署基本概念
1.4.2 雲端運算與邊緣計算
1.4.3 端側部署
1.4.4 大模型執行與維護
1.5 本章小結
1.6 思考題
►第2 章 模型壓縮、訓練與推理
2.1 模型壓縮概述
2.1.1 模型壓縮簡介
2.1.2 常見的模型壓縮方法分類
2.2 訓練加速基礎
2.2.1 資料並行與模型並行
2.2.2 混合精度訓練
2.2.3 分散式訓練框架:Horovod
2.3 推理加速基礎
2.3.1 硬體加速與推理引擎
2.3.2 低延遲與高輸送量平衡
2.3.3 推理最佳化實戰:批次推理
2.4 性能評估指標
2.4.1 計算複雜度與性能指標
2.4.2 延遲、輸送量與精度之間的權衡
2.4.3 評估工具與基準測試
2.5 本章小結
2.6 思考題
►第3 章 模型格式轉換
3.1 模型格式的定義與轉換
3.1.1 常見的模型格式:ONNX、TensorFlow 的SavedModel
3.1.2 模型格式轉換實現
3.1.3 模型的相容性問題
3.2 跨框架模型轉換
3.2.1 TensorFlow 到PyTorch 的模型轉換
3.2.2 ONNX 與TensorFlow、PyTorch 的相容性
3.2.3 轉換時的精度損失問題
3.3 硬體相關的格式轉換
3.3.1 從PyTorch 到TensorRT
3.3.2 ONNX 模型與NVIDIA TensorRT 的相容性
3.3.3 模型格式與硬體加速的關係
3.4 模型格式轉換的工具與函式庫
3.4.1 使用ONNX 進行跨平臺轉換
3.4.2 TensorFlow Lite 與Edge 模型最佳化
3.5 本章小結
3.6 思考題
►第4 章 圖最佳化
4.1 運算子融合技術
4.1.1 運算子融合的原理
4.1.2 典型運算子融合演算法的實現
4.1.3 實驗:運算子融合對推理性能的提升
4.2 布局轉換與最佳化
4.2.1 張量布局的原理
4.2.2 記憶體存取最佳化與布局選擇
4.3 運算子替換技術
4.3.1 用低消耗運算子替換高消耗運算子
4.3.2 常見的運算子替換策略
4.4 顯示記憶體最佳化
4.4.1 顯示記憶體佔用分析與最佳化
4.4.2 梯度檢查點與顯示記憶體共用
4.4.3 動態顯示記憶體分配與記憶體池管理
4.5 本章小結
4.6 思考題
►第5 章 模型壓縮
5.1 量化
5.1.1 定點量化與浮點量化的區別
5.1.2 量化演算法與工具:TensorFlow Lite
5.1.3 量化帶來的精度損失問題
5.2 知識蒸餾
5.2.1 知識蒸餾的基本概念與應用場景
5.2.2 知識蒸餾的損失函式與訓練過程
5.2.3 如何選擇蒸餾-教師網路模型
5.3 剪枝
5.3.1 網路剪枝基本原理
5.3.2 基於權重剪枝與結構化剪枝
5.3.3 剪枝後的精度恢復方案
5.4 二值化與極端壓縮
5.4.1 二值化網路的建構與訓練
5.4.2 二值化對計算與儲存的影響
5.5 本章小結
5.6 思考題
▌第二部分 端側學習與高效計算引擎最佳化
►第6 章 端側學習、端側推理及計算引擎最佳化
6.1 聯邦學習概述
6.1.1 聯邦學習的基本概念與應用
6.1.2 聯邦學習中的隱私保護機制、通訊與聚合演算法
6.2 資料處理與前置處理
6.2.1 資料清洗與增廣技術
6.2.2 資料均衡與過採樣策略
6.2.3 端側資料處理的資源限制
6.3 Trainer 與最佳化器設計
6.3.1 端側訓練的挑戰與策略
6.3.2 高效最佳化器(如SGD、Adam)的選擇
6.3.3 動態調整學習率與訓練過程監控
6.4 損失函式的設計與選擇
6.4.1 常見的損失函式與應用場景
6.4.2 多工學習中的損失函式設計
6.4.3 損失函式的數值穩定性
6.5 Benchmark 設計與性能評估
6.5.1 經典Benchmark 與訂製Benchmark
6.5.2 推理與訓練性能的綜合評估
6.5.3 性能瓶頸的辨識與最佳化
6.6 IR 的作用與最佳化
6.6.1 IR 的定義及作用
6.6.2 IR 轉換與最佳化策略
6.7 Schema 的設計與規範
6.7.1 資料格式與模型介面的設計
6.7.2 資料流程與計算圖的規範化
6.8 動態Batch 與記憶體排程
6.8.1 動態Batch 的選擇與調整
6.8.2 記憶體排程與性能最佳化
6.8.3 最佳化記憶體使用率與減少記憶體溢位
6.9 異質執行與最佳化
6.9.1 GPU 與CPU 的異質計算模式原理
6.9.2 多核心與多節點並行最佳化
6.9.3 異質計算中的任務排程
6.10 裝箱操作與計算圖最佳化
6.10.1 透過裝箱減少計算消耗
6.10.2 裝箱最佳化對計算圖的影響
6.11 本章小結
6.12 思考題
►第7 章 高性能運算子函式庫簡介
7.1 cuDNN 運算子函式庫概述
7.1.1 cuDNN 的主要功能
7.1.2 常用運算子(卷積、池化等)的實現
7.1.3 運算子加速實戰:cuDNN 在深度學習中的應用
7.2 MKLDNN 運算子函式庫概述
7.2.1 MKLDNN 與Intel 硬體的最佳化
7.2.2 MKLDNN 中的高效運算子實現
7.2.3 多核心支援與平行計算最佳化
7.3 運算子函式庫的選擇與性能比較
7.3.1 cuDNN 與MKLDNN 的應用場景對比
7.3.2 在不同硬體平臺上的表現
7.4 運算子函式庫的高效利用
7.4.1 如何選擇合適的運算子函式庫
7.4.2 最佳化運算子函式庫介面與記憶體管理
7.4.3 演算法重構:提高運算子性能
7.5 本章小結
7.6 思考題
▌第三部分 高性能運算子與深度學習框架應用
►第8 章 常用高性能運算子開發實戰
8.1 NEON 與ARM 架構最佳化
8.1.1 NEON 指令集與深度學習加速
8.1.2 ARM 架構上的平行計算最佳化
8.1.3 使用NEON 實現卷積等運算子加速
8.2 CUDA 與GPU 最佳化
8.2.1 CUDA 程式設計模型與記憶體管理
8.2.2 CUDA 串流與核心函式最佳化
8.2.3 高效利用GPU 平行計算資源
8.3 Vulkan 與圖形加速
8.3.1 Vulkan 的低階控制與最佳化
8.3.2 使用Vulkan 進行推理加速
8.3.3 圖形與計算並行加速的結合
8.4 AVX 與OpenCL 的最佳化
8.4.1 AVX 與CPU 最佳化的基本原理
8.4.2 OpenCL 與跨平臺加速
8.5 本章小結
8.6 思考題
►第9 章 TIK、YVM 運算子原理及其應用
9.1 TIK 運算子函式庫的應用
9.1.1 TIK 運算子函式庫與TensorFlow Lite 的整合
9.1.2 使用TIK 進行卷積與矩陣乘法加速
9.2 YVM 運算子函式庫的應用
9.2.1 YVM 在深度學習推理中的高效應用
9.2.2 YVM 的硬體調配與最佳化
9.3 本章小結
9.4 思考題
►第10 章 基於DeepSeek-V3 分析大模型訓練降本增效技術
10.1 DeepSeek-V3 架構概述
10.1.1 DeepSeek-V3 的架構設計與創新
10.1.2 模型參數共用與層次結構最佳化
10.2 DeepSeek-V3 的訓練降本技術分析
10.2.1 FP8 精度訓練、混合精度訓練與分散式訓練
10.2.2 動態計算圖
10.2.3 自我調整批次處理與梯度累積技術
10.2.4 Sigmoid 路由機制
10.2.5 無輔助損失負載平衡演算法
10.2.6 DualPipe 演算法
10.2.7 All-to-All 跨節點通訊
10.3 DeepSeek-V3 的推理加速技術
10.3.1 量化與蒸餾在DeepSeek-V3 中的應用
10.3.2 模型壓縮與推理速度提升
10.4 本章小結
10.5 思考題








