更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練

梁志遠著

預覽內頁

出版商: 深智
出版日期: 2025-12-19
定價: $980
售價: 7.9 折 $774
語言: 繁體中文
頁數: 552
ISBN: 6267757609
ISBN-13: 9786267757604
相關分類: Large language model
此書翻譯自: 大模型輕量化：模型壓縮與訓練加速

立即出貨 (庫存 > 10)

買這商品的人也買了...

~~$894~~ $849

CUDA 並行程序設計 : GPU 編程指南 (CUDA Programming: A Developer's Guide to Parallel Computing with GPUs)
~~$880~~ $748

C++ 程式設計的樂趣｜範例實作與專題研究的程式設計課 (C++ Crash Course: A Fast-Paced Introduction)
~~$880~~ $695

多 Agent 智慧體 - LangChain 大型 ReAct 系統開發
~~$600~~ $420

全面掌握 DeepSeek － LLM 微調、生成式 AI、企業級應用開發
~~$980~~ $774

深度學習最佳入門與專題實戰：理論基礎與影像篇
~~$880~~ $695

AI Vision × LLM 電腦視覺應用聖經：OpenCV × YOLO × Ollama 解鎖多模態全攻略
~~$594~~ $564

MCP 原理與實戰：高效 AI Agent 智能體開發
~~$1,280~~ $1,011

從資料處理到圖論實踐 ― 用 Python 及 AI 最強工具預測分析
~~$880~~ $695

實用 DeepSeek 技術 - 開發真正可用的 LLM 應用程式
~~$600~~ $474

科技共和國：硬實力、軟信念與西方未來——Palantir 帕蘭泰爾的思想起源
~~$980~~ $774

LLM 開源大物 - DeepSeek 深入技術多模態開發
~~$680~~ $537

LangChain 學習手冊｜使用 LangChain 與 LangGraph 建構 AI 與 LLM 應用程式 (Learning LangChain: Building AI and LLM Applications with LangChain and LangGraph)
~~$760~~ $600

手把手帶你實作完整機器學習專案
~~$880~~ $695

現代 AI 是這麼做出來的 - 從訓練、演算法到微調全實作
~~$550~~ $434

AI 助攻！Python 最強學習法｜跟 ChatGPT 一起寫程式、練邏輯、做專案
~~$450~~ $355

Notion AI 活用術｜72個讓工作和生活更輕鬆的絕妙好招
~~$560~~ $442

白話人工智慧！矽谷科學家帶你看懂 AI 黑科技
~~$1,250~~ $987

LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)
~~$760~~ $600

迎戰 APCS！C++ 從零開始的 PBL 實戰學習法
~~$750~~ $592

內行人才知道的生成式 AI 系統設計面試指南 (Generative AI System Design Interview)
~~$980~~ $774

知道你的下一筆訂單 - 使用 LLM
~~$1,280~~ $1,011

史上最完整 -- 一本書晉升深度學習世界級大師
~~$560~~ $442

零花費上手！Gemini 3 / NotebookLM / Nano Banana Pro / Veo 3.x 最強 AI 組合技，打造全能工作流
~~$880~~ $695

使用 FastAPI 建構生成式AI服務｜開發理解豐富脈絡的生成式 AI 應用 (Building Generative AI Services with Fastapi: A Practical Approach to Developing Context-Rich Generative AI Applications)
~~$820~~ $647

使用 Spring AI 打造企業 RAG 知識庫

商品描述

【內容特點】

★Transformer與MoE架構計算特性

★模型壓縮技術：量化、剪枝、蒸餾

★混合精度訓練與分散式訓練架構

★ONNX與TensorRT格式轉換流程

★運算圖最佳化：融合、重寫、記憶體配置

★端側學習與聯邦學習通訊機制

★IR中介表示與計算圖優化策略

★動態Batch與記憶體排程機制

★cuDNN與MKLDNN運算元庫應用

★CUDA核心函數與GPU記憶體管理

★Vulkan推理加速與圖形並行整合

★OpenCL與AVX跨平台加速

★DeepSeek-V3訓練與推理結構

★FP8精度訓練與Sigmoid路由演算法

【內容簡介】

本書從工程實作與架構設計的角度出發，系統地整理了大模型在實際部署中的資源瓶頸與解決方案。從Transformer與MoE架構切入，解析其帶來的計算與儲存壓力，並延伸至量化、剪枝、知識蒸餾等主流模型壓縮技術的原理與實作要點。書中不僅整理了各類加速方法，如混合精度訓練、分散式架構與推理引擎建構，還提供跨框架的模型格式轉換範例，涵蓋ONNX、TensorRT等工具鏈整合流程。進一步深入端側學習、IR最佳化與動態Batch記憶體管理等核心技術，並透過cuDNN、MKLDNN、CUDA與Vulkan等元件展示運算元優化的具體實作。本書最大特點是涵蓋理論與部署細節，並以DeepSeek-V3為案例展現整體技術鏈條如何協同降本增效。對於實際從事大模型研發、推理部署或系統最佳化的工程人員而言，是一本兼顧理論深度與實務操作的實用指南。

作者簡介

梁志遠 博士

畢業於北京航空航天大學。長期從事人工智慧、大語言模型的開發，專注於深度學習、自然語言處理、數據分析與智慧決策等領域。主持或參與多項科學研究計畫，涵蓋模型訓練最佳化、知識蒸餾、自動推理與多模態學習等方向。致力於推動人工智慧技術在工業應用、智慧互動與數據驅動的實踐與發展。

目錄大綱

▌第一部分 大模型概述與核心最佳化技術

►第1章 大模型基本概念

1.1 大模型的興起與發展

1.1.1 大規模神經網路

1.1.2 Transformer 編碼器－解碼器

1.1.3 MoE 架構

1.2 運算資源與性能瓶頸

1.2.1 GPU 簡介

1.2.2 TPU 簡介

1.2.3 網路頻寬約束與分散式訓練

1.2.4 大模型的訓練時間與運算資源消耗問題

1.3 資料與隱私問題

1.3.1 急劇增加的資料量

1.3.2 資料隱私保護與符合規範性

1.4 模型部署與運行維護

1.4.1 模型部署基本概念

1.4.2 雲端運算與邊緣計算

1.4.3 端側部署

1.4.4 大模型執行與維護

1.5 本章小結

1.6 思考題

►第2 章 模型壓縮、訓練與推理

2.1 模型壓縮概述

2.1.1 模型壓縮簡介

2.1.2 常見的模型壓縮方法分類

2.2 訓練加速基礎

2.2.1 資料並行與模型並行

2.2.2 混合精度訓練

2.2.3 分散式訓練框架：Horovod

2.3 推理加速基礎

2.3.1 硬體加速與推理引擎

2.3.2 低延遲與高輸送量平衡

2.3.3 推理最佳化實戰：批次推理

2.4 性能評估指標

2.4.1 計算複雜度與性能指標

2.4.2 延遲、輸送量與精度之間的權衡

2.4.3 評估工具與基準測試

2.5 本章小結

2.6 思考題

►第3 章 模型格式轉換

3.1 模型格式的定義與轉換

3.1.1 常見的模型格式：ONNX、TensorFlow 的SavedModel

3.1.2 模型格式轉換實現

3.1.3 模型的相容性問題

3.2 跨框架模型轉換

3.2.1 TensorFlow 到PyTorch 的模型轉換

3.2.2 ONNX 與TensorFlow、PyTorch 的相容性

3.2.3 轉換時的精度損失問題

3.3 硬體相關的格式轉換

3.3.1 從PyTorch 到TensorRT

3.3.2 ONNX 模型與NVIDIA TensorRT 的相容性

3.3.3 模型格式與硬體加速的關係

3.4 模型格式轉換的工具與函式庫

3.4.1 使用ONNX 進行跨平臺轉換

3.4.2 TensorFlow Lite 與Edge 模型最佳化

3.5 本章小結

3.6 思考題

►第4 章 圖最佳化

4.1 運算子融合技術

4.1.1 運算子融合的原理

4.1.2 典型運算子融合演算法的實現

4.1.3 實驗：運算子融合對推理性能的提升

4.2 布局轉換與最佳化

4.2.1 張量布局的原理

4.2.2 記憶體存取最佳化與布局選擇

4.3 運算子替換技術

4.3.1 用低消耗運算子替換高消耗運算子

4.3.2 常見的運算子替換策略

4.4 顯示記憶體最佳化

4.4.1 顯示記憶體佔用分析與最佳化

4.4.2 梯度檢查點與顯示記憶體共用

4.4.3 動態顯示記憶體分配與記憶體池管理

4.5 本章小結

4.6 思考題

►第5 章 模型壓縮

5.1 量化

5.1.1 定點量化與浮點量化的區別

5.1.2 量化演算法與工具：TensorFlow Lite

5.1.3 量化帶來的精度損失問題

5.2 知識蒸餾

5.2.1 知識蒸餾的基本概念與應用場景

5.2.2 知識蒸餾的損失函式與訓練過程

5.2.3 如何選擇蒸餾－教師網路模型

5.3 剪枝

5.3.1 網路剪枝基本原理

5.3.2 基於權重剪枝與結構化剪枝

5.3.3 剪枝後的精度恢復方案

5.4 二值化與極端壓縮

5.4.1 二值化網路的建構與訓練

5.4.2 二值化對計算與儲存的影響

5.5 本章小結

5.6 思考題

▌第二部分 端側學習與高效計算引擎最佳化

►第6 章 端側學習、端側推理及計算引擎最佳化

6.1 聯邦學習概述

6.1.1 聯邦學習的基本概念與應用

6.1.2 聯邦學習中的隱私保護機制、通訊與聚合演算法

6.2 資料處理與前置處理

6.2.1 資料清洗與增廣技術

6.2.2 資料均衡與過採樣策略

6.2.3 端側資料處理的資源限制

6.3 Trainer 與最佳化器設計

6.3.1 端側訓練的挑戰與策略

6.3.2 高效最佳化器（如SGD、Adam）的選擇

6.3.3 動態調整學習率與訓練過程監控

6.4 損失函式的設計與選擇

6.4.1 常見的損失函式與應用場景

6.4.2 多工學習中的損失函式設計

6.4.3 損失函式的數值穩定性

6.5 Benchmark 設計與性能評估

6.5.1 經典Benchmark 與訂製Benchmark

6.5.2 推理與訓練性能的綜合評估

6.5.3 性能瓶頸的辨識與最佳化

6.6 IR 的作用與最佳化

6.6.1 IR 的定義及作用

6.6.2 IR 轉換與最佳化策略

6.7 Schema 的設計與規範

6.7.1 資料格式與模型介面的設計

6.7.2 資料流程與計算圖的規範化

6.8 動態Batch 與記憶體排程

6.8.1 動態Batch 的選擇與調整

6.8.2 記憶體排程與性能最佳化

6.8.3 最佳化記憶體使用率與減少記憶體溢位

6.9 異質執行與最佳化

6.9.1 GPU 與CPU 的異質計算模式原理

6.9.2 多核心與多節點並行最佳化

6.9.3 異質計算中的任務排程

6.10 裝箱操作與計算圖最佳化

6.10.1 透過裝箱減少計算消耗

6.10.2 裝箱最佳化對計算圖的影響

6.11 本章小結

6.12 思考題

►第7 章 高性能運算子函式庫簡介

7.1 cuDNN 運算子函式庫概述

7.1.1 cuDNN 的主要功能

7.1.2 常用運算子（卷積、池化等）的實現

7.1.3 運算子加速實戰：cuDNN 在深度學習中的應用

7.2 MKLDNN 運算子函式庫概述

7.2.1 MKLDNN 與Intel 硬體的最佳化

7.2.2 MKLDNN 中的高效運算子實現

7.2.3 多核心支援與平行計算最佳化

7.3 運算子函式庫的選擇與性能比較

7.3.1 cuDNN 與MKLDNN 的應用場景對比

7.3.2 在不同硬體平臺上的表現

7.4 運算子函式庫的高效利用

7.4.1 如何選擇合適的運算子函式庫

7.4.2 最佳化運算子函式庫介面與記憶體管理

7.4.3 演算法重構：提高運算子性能

7.5 本章小結

7.6 思考題

▌第三部分 高性能運算子與深度學習框架應用

►第8 章 常用高性能運算子開發實戰

8.1 NEON 與ARM 架構最佳化

8.1.1 NEON 指令集與深度學習加速

8.1.2 ARM 架構上的平行計算最佳化

8.1.3 使用NEON 實現卷積等運算子加速

8.2 CUDA 與GPU 最佳化

8.2.1 CUDA 程式設計模型與記憶體管理

8.2.2 CUDA 串流與核心函式最佳化

8.2.3 高效利用GPU 平行計算資源

8.3 Vulkan 與圖形加速

8.3.1 Vulkan 的低階控制與最佳化

8.3.2 使用Vulkan 進行推理加速

8.3.3 圖形與計算並行加速的結合

8.4 AVX 與OpenCL 的最佳化

8.4.1 AVX 與CPU 最佳化的基本原理

8.4.2 OpenCL 與跨平臺加速

8.5 本章小結

8.6 思考題

►第9 章 TIK、YVM 運算子原理及其應用

9.1 TIK 運算子函式庫的應用

9.1.1 TIK 運算子函式庫與TensorFlow Lite 的整合

9.1.2 使用TIK 進行卷積與矩陣乘法加速

9.2 YVM 運算子函式庫的應用

9.2.1 YVM 在深度學習推理中的高效應用

9.2.2 YVM 的硬體調配與最佳化

9.3 本章小結

9.4 思考題

►第10 章基於DeepSeek-V3 分析大模型訓練降本增效技術

10.1 DeepSeek-V3 架構概述

10.1.1 DeepSeek-V3 的架構設計與創新

10.1.2 模型參數共用與層次結構最佳化

10.2 DeepSeek-V3 的訓練降本技術分析

10.2.1 FP8 精度訓練、混合精度訓練與分散式訓練

10.2.2 動態計算圖

10.2.3 自我調整批次處理與梯度累積技術

10.2.4 Sigmoid 路由機制

10.2.5 無輔助損失負載平衡演算法

10.2.6 DualPipe 演算法

10.2.7 All-to-All 跨節點通訊

10.3 DeepSeek-V3 的推理加速技術

10.3.1 量化與蒸餾在DeepSeek-V3 中的應用

10.3.2 模型壓縮與推理速度提升

10.4 本章小結

10.5 思考題

更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練

梁志遠著

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

更少 GPU 卻更強 - LLM 輕量化壓縮及加速訓練

梁志遠 著

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品

梁志遠著