更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練

梁志遠 著

  • 出版商: 深智
  • 出版日期: 2025-12-19
  • 定價: $980
  • 售價: 7.9$774
  • 語言: 繁體中文
  • 頁數: 552
  • ISBN: 6267757609
  • ISBN-13: 9786267757604
  • 相關分類: Large language model
  • 尚未上市,歡迎預購

  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-1
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-2
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-3
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-4
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-5
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-6
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-7
  • 更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-8
更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練-preview-1

買這商品的人也買了...

相關主題

商品描述

【內容特點】

TransformerMoE架構計算特性

★模型壓縮技術:量化、剪枝、蒸餾

★混合精度訓練與分散式訓練架構

ONNXTensorRT格式轉換流程

★運算圖最佳化:融合、重寫、記憶體配置

★端側學習與聯邦學習通訊機制

IR中介表示與計算圖優化策略

★動態Batch與記憶體排程機制

cuDNNMKLDNN運算元庫應用

CUDA核心函數與GPU記憶體管理

Vulkan推理加速與圖形並行整合

OpenCLAVX跨平台加速

DeepSeek-V3訓練與推理結構

FP8精度訓練與Sigmoid路由演算法

 

【內容簡介】

本書從工程實作與架構設計的角度出發,系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從TransformerMoE架構切入,解析其帶來的計算與儲存壓力,並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法,如混合精度訓練、分散式架構與推理引擎建構,還提供跨框架的模型格式轉換範例,涵蓋ONNXTensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術,並透過cuDNNMKLDNNCUDAVulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節,並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言,是一本兼顧理論深度與實務操作的實用指南。

作者簡介

梁志遠 博士

畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發,專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫,涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。

目錄大綱

第一部分 大模型概述與核心最佳化技術

 

1 大模型基本概念

1.1 大模型的興起與發展

1.1.1 大規模神經網路

1.1.2 Transformer 編碼器-解碼器

1.1.3 MoE 架構

1.2 運算資源與性能瓶頸

1.2.1 GPU 簡介

1.2.2 TPU 簡介

1.2.3 網路頻寬約束與分散式訓練

1.2.4 大模型的訓練時間與運算資源消耗問題

1.3 資料與隱私問題

1.3.1 急劇增加的資料量

1.3.2 資料隱私保護與符合規範性

1.4 模型部署與運行維護

1.4.1 模型部署基本概念

1.4.2 雲端運算與邊緣計算

1.4.3 端側部署

1.4.4 大模型執行與維護

1.5 本章小結

1.6 思考題

 

2 模型壓縮、訓練與推理

2.1 模型壓縮概述

2.1.1 模型壓縮簡介

2.1.2 常見的模型壓縮方法分類

2.2 訓練加速基礎

2.2.1 資料並行與模型並行

2.2.2 混合精度訓練

2.2.3 分散式訓練框架:Horovod

2.3 推理加速基礎

2.3.1 硬體加速與推理引擎

2.3.2 低延遲與高輸送量平衡

2.3.3 推理最佳化實戰:批次推理

2.4 性能評估指標

2.4.1 計算複雜度與性能指標

2.4.2 延遲、輸送量與精度之間的權衡

2.4.3 評估工具與基準測試

2.5 本章小結

2.6 思考題

 

3 模型格式轉換

3.1 模型格式的定義與轉換

3.1.1 常見的模型格式:ONNXTensorFlow SavedModel

3.1.2 模型格式轉換實現

3.1.3 模型的相容性問題

3.2 跨框架模型轉換

3.2.1 TensorFlow PyTorch 的模型轉換

3.2.2 ONNX TensorFlowPyTorch 的相容性

3.2.3 轉換時的精度損失問題

3.3 硬體相關的格式轉換

3.3.1 PyTorch TensorRT

3.3.2 ONNX 模型與NVIDIA TensorRT 的相容性

3.3.3 模型格式與硬體加速的關係

3.4 模型格式轉換的工具與函式庫

3.4.1 使用ONNX 進行跨平臺轉換

3.4.2 TensorFlow Lite Edge 模型最佳化

3.5 本章小結

3.6 思考題

 

4 圖最佳化

4.1 運算子融合技術

4.1.1 運算子融合的原理

4.1.2 典型運算子融合演算法的實現

4.1.3 實驗:運算子融合對推理性能的提升

4.2 布局轉換與最佳化

4.2.1 張量布局的原理

4.2.2 記憶體存取最佳化與布局選擇

4.3 運算子替換技術

4.3.1 用低消耗運算子替換高消耗運算子

4.3.2 常見的運算子替換策略

4.4 顯示記憶體最佳化

4.4.1 顯示記憶體佔用分析與最佳化

4.4.2 梯度檢查點與顯示記憶體共用

4.4.3 動態顯示記憶體分配與記憶體池管理

4.5 本章小結

4.6 思考題

 

5 模型壓縮

5.1 量化

5.1.1 定點量化與浮點量化的區別

5.1.2 量化演算法與工具:TensorFlow Lite

5.1.3 量化帶來的精度損失問題

5.2 知識蒸餾

5.2.1 知識蒸餾的基本概念與應用場景

5.2.2 知識蒸餾的損失函式與訓練過程

5.2.3 如何選擇蒸餾-教師網路模型

5.3 剪枝

5.3.1 網路剪枝基本原理

5.3.2 基於權重剪枝與結構化剪枝

5.3.3 剪枝後的精度恢復方案

5.4 二值化與極端壓縮

5.4.1 二值化網路的建構與訓練

5.4.2 二值化對計算與儲存的影響

5.5 本章小結

5.6 思考題

 

▌第二部分 端側學習與高效計算引擎最佳化

 

6 端側學習、端側推理及計算引擎最佳化

6.1 聯邦學習概述

6.1.1 聯邦學習的基本概念與應用

6.1.2 聯邦學習中的隱私保護機制、通訊與聚合演算法

6.2 資料處理與前置處理

6.2.1 資料清洗與增廣技術

6.2.2 資料均衡與過採樣策略

6.2.3 端側資料處理的資源限制

6.3 Trainer 與最佳化器設計

6.3.1 端側訓練的挑戰與策略

6.3.2 高效最佳化器(如SGDAdam)的選擇

6.3.3 動態調整學習率與訓練過程監控

6.4 損失函式的設計與選擇

6.4.1 常見的損失函式與應用場景

6.4.2 多工學習中的損失函式設計

6.4.3 損失函式的數值穩定性

6.5 Benchmark 設計與性能評估

6.5.1 經典Benchmark 與訂製Benchmark

6.5.2 推理與訓練性能的綜合評估

6.5.3 性能瓶頸的辨識與最佳化

6.6 IR 的作用與最佳化

6.6.1 IR 的定義及作用

6.6.2 IR 轉換與最佳化策略

6.7 Schema 的設計與規範

6.7.1 資料格式與模型介面的設計

6.7.2 資料流程與計算圖的規範化

6.8 動態Batch 與記憶體排程

6.8.1 動態Batch 的選擇與調整

6.8.2 記憶體排程與性能最佳化

6.8.3 最佳化記憶體使用率與減少記憶體溢位

6.9 異質執行與最佳化

6.9.1 GPU CPU 的異質計算模式原理

6.9.2 多核心與多節點並行最佳化

6.9.3 異質計算中的任務排程

6.10 裝箱操作與計算圖最佳化

6.10.1 透過裝箱減少計算消耗

6.10.2 裝箱最佳化對計算圖的影響

6.11 本章小結

6.12 思考題

 

7 高性能運算子函式庫簡介

7.1 cuDNN 運算子函式庫概述

7.1.1 cuDNN 的主要功能

7.1.2 常用運算子(卷積、池化等)的實現

7.1.3 運算子加速實戰:cuDNN 在深度學習中的應用

7.2 MKLDNN 運算子函式庫概述

7.2.1 MKLDNN Intel 硬體的最佳化

7.2.2 MKLDNN 中的高效運算子實現

7.2.3 多核心支援與平行計算最佳化

7.3 運算子函式庫的選擇與性能比較

7.3.1 cuDNN MKLDNN 的應用場景對比

7.3.2 在不同硬體平臺上的表現

7.4 運算子函式庫的高效利用

7.4.1 如何選擇合適的運算子函式庫

7.4.2 最佳化運算子函式庫介面與記憶體管理

7.4.3 演算法重構:提高運算子性能

7.5 本章小結

7.6 思考題

 

▌第三部分 高性能運算子與深度學習框架應用

 

8 常用高性能運算子開發實戰

8.1 NEON ARM 架構最佳化

8.1.1 NEON 指令集與深度學習加速

8.1.2 ARM 架構上的平行計算最佳化

8.1.3 使用NEON 實現卷積等運算子加速

8.2 CUDA GPU 最佳化

8.2.1 CUDA 程式設計模型與記憶體管理

8.2.2 CUDA 串流與核心函式最佳化

8.2.3 高效利用GPU 平行計算資源

8.3 Vulkan 與圖形加速

8.3.1 Vulkan 的低階控制與最佳化

8.3.2 使用Vulkan 進行推理加速

8.3.3 圖形與計算並行加速的結合

8.4 AVX OpenCL 的最佳化

8.4.1 AVX CPU 最佳化的基本原理

8.4.2 OpenCL 與跨平臺加速

8.5 本章小結

8.6 思考題

 

9 TIKYVM 運算子原理及其應用

9.1 TIK 運算子函式庫的應用

9.1.1 TIK 運算子函式庫與TensorFlow Lite 的整合

9.1.2 使用TIK 進行卷積與矩陣乘法加速

9.2 YVM 運算子函式庫的應用

9.2.1 YVM 在深度學習推理中的高效應用

9.2.2 YVM 的硬體調配與最佳化

9.3 本章小結

9.4 思考題

 

10 基於DeepSeek-V3 分析大模型訓練降本增效技術

10.1 DeepSeek-V3 架構概述

10.1.1 DeepSeek-V3 的架構設計與創新

10.1.2 模型參數共用與層次結構最佳化

10.2 DeepSeek-V3 的訓練降本技術分析

10.2.1 FP8 精度訓練、混合精度訓練與分散式訓練

10.2.2 動態計算圖

10.2.3 自我調整批次處理與梯度累積技術

10.2.4 Sigmoid 路由機制

10.2.5 無輔助損失負載平衡演算法

10.2.6 DualPipe 演算法

10.2.7 All-to-All 跨節點通訊

10.3 DeepSeek-V3 的推理加速技術

10.3.1 量化與蒸餾在DeepSeek-V3 中的應用

10.3.2 模型壓縮與推理速度提升

10.4 本章小結

10.5 思考題