DeepSeek 硬核技術解讀
劉丹 尹俊希 楊院伶
- 出版商: 機械工業
- 出版日期: 2025-11-01
- 售價: $594 (限時優惠至 2026-06-09)
- 語言: 簡體中文
- 頁數: 242
- ISBN: 7111792289
- ISBN-13: 9787111792284
-
相關分類:
Large language model
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
資料庫理論與實務 Access 2007$650$513 -
無瑕的程式碼-敏捷軟體開發技巧守則 + 番外篇-專業程式設計師的生存之道 (雙書合購)$940$700 -
精通 Python|運用簡單的套件進行現代運算 (Introducing Python: Modern Computing in Simple Packages)$780$616 -
你所不知道的 JS|非同步處理與效能 (You Don't Know JS: Async & Performance)$520$410 -
無瑕的程式碼-敏捷完整篇-物件導向原則、設計模式與 C# 實踐 (Agile principles, patterns, and practices in C#)$790$616 -
TensorFlow + Keras 深度學習人工智慧實務應用$590$460 -
Soft Skills 軟實力|軟體開發人員的生存手冊 (Soft Skills: The software developer's life manual)$520$410 -
為你自己學 Git$500$390 -
無瑕的程式碼-整潔的軟體設計與架構篇 (Clean Architecture: A Craftsman's Guide to Software Structure and Design)$580$452 -
領域驅動設計:軟體核心複雜度的解決方法 (Domain-Driven Design: Tackling Complexity in the Heart of Software)$680$530 -
現代機器人學:機構、規劃與控制 (Modern Robotics : Mechanics, Planning and Contro)$834$792 -
I'm From Taiwan / Programmer 阿喵宅造型貼紙7X7公分 (粉色)$69$60 -
深入淺出 Go (Head First Go)$880$695 -
阿喵宅開發順利春聯 2入$68$68 -
白話演算法!培養程式設計的邏輯思考 (Grokking Algorithms: An illustrated guide for programmers and other curious people)$520$468 -
比 Docker 再高階一步:使用 Harbor 完成 Helm Chart 容器及鏡像雲端原生管理$880$695 -
超圖解 ESP32 深度實作$880$748 -
資料科學的建模基礎 : 別急著 coding!你知道模型的陷阱嗎?$599$509 -
人工智慧應用在我家 - 使用 KNERON AI Dongle(耐能AI加速棒) - 附 MOSME 行動學習一點通:診斷.評量.影音.擴增.加值$400$360 -
Final Cut Pro 職人剪片全攻略:一台 Mac 包辦影音剪輯、素材處理、調色技巧,打造流暢的高質感影片!$520$405 -
超實用!會計.生管.財務的辦公室 EXCEL 必備 50招省時技 (2016/2019/2021) (暢銷回饋版)$450$351 -
$509Final Cut Pro 視頻後期剪輯零基礎入門到精通 -
硬件設備安全攻防實戰$719$683 -
LLM 工程師開發手冊 (LLM Engineer's Handbook: Master the art of engineering large language models from concept to production)$1,250$987 -
豆包 AI 時代創富:年入百萬的智能實戰指南$299$284
相關主題
商品描述
這是一本系統剖析DeepSeek系列大模型技術體系與實踐路徑的專著。本書立足於作者在大模型研發一線的深厚積累,結合深度學習、強化學習、分布式系統與模型優化等多領域知識,全面闡述 DeepSeek在模型架構、訓練推理、基礎設施及數據工程等方面的核心突破與工程實踐。全書兼具理論嚴謹性與實踐指導性,旨在幫助AI研究者、工程師和技術決策者深入理解當代大模型的關鍵技術,掌握高效、低成本構建和部署 AI系統的方法。本書分為兩部分。 部分 DeepSeek學習前置知識( ~5章)從DeepSeek的模型概述和重要突破切入,系統介紹經典Transformer架構、強化學習基礎、大語言模型中的RLHF和量化技術,以及分布式訓練的基礎知識,為讀者奠定堅實的理論和技術基礎。 第二部分 DeepSeek核心技術(第6~11章)首先,深入解析DeepSeek的模型架構創新,包括 MoE、MLA與分詞器設計,探討跨模態對齊、負載均衡、基礎設施優化及數據處理等關鍵議題,揭示其在高性能、低資源消耗背後的系統級工程實現。然後,聚焦DeepSeek V3、VL2及開源推理模型的訓練邏輯、推理及優化,涵蓋訓練策略、超參數設計、數據構建以及Prefill、Decode等推理階段的深度優化,為構建高效、可擴展的AI系統提供完整方法論和實戰參考。本書不僅透徹解讀技術報告, 重視將前沿理論與工業實踐相結合,幫助讀者理解AI系統構建的本質規律與發展趨勢,為學術界和工業界提供了一條清晰、可覆現的高效能人工智能研發路徑
作者簡介
劉丹 大模型算法專家,面壁智能開源社區前技術負責人。先後在科大訊飛、面壁智能、國防科技大學等企業和高校擔任算法專家和技術負責人。精通模型架構、模型訓練、效率優化、前沿AI技術落地。熱衷於技術布道,開源的技術報告瀏覽量超過30萬人次,在GitHub上開源的項目獲得了超過30k的星標(Star)。擁有豐富的軍工級、重大企業級項目經驗,多個重大項目進入央視直播。
尹俊希 大模型領域 專家,在AI領域有多年的從業經驗,在學術界和工業界均有廣泛的影響力。曾任Facebook 工程師及OPPO北美人工智能研究院研究員。精通算法設計、模型架構、模型訓練及強化學習等前沿技術,尤其專註於大模型的技術探索與產業應用,近年來在該方向取得多項重要成果。
目錄大綱
前言
第一部分 DeepSeek學習前置知識
第1章 認識DeepSeek
1.1 DeepSeek的模型介紹
1.2 DeepSeek的重要突破
1.2.1 為開源做貢獻
1.2.2 性能大幅提升
1.2.3 成本顯著降低
1.2.4 算法創新
1.3 DeepSeek系列模型與其他大模型的介紹
1.3.1 DeepSeek系列模型
1.3.2 國外知名大模型
1.3.3 國內知名大模型
第2章 經典Transformer架構
2.1 Transformer架構的特點
2.2 Transformer的基本原理
2.2.1 分詞器
2.2.2 詞嵌入層
2.2.3 位置編碼模塊
2.2.4 自註意力模塊
2.2.5 多頭註意力模塊
2.2.6 前饋神經網絡模塊
2.2.7 殘差連接和層歸一化模塊
2.2.8 Encoder-Decoder架構
2.3 Transformer架構下的計算覆雜度
2.3.1 矩陣乘法的計算覆雜度
2.3.2 Transfomer架構下的計算量推導
2.4 Decoder模式下的推理與訓練
2.4.1 Mask矩陣詳解
2.4.2 具體訓練和推理
2.5 絕對位置編碼與相對位置編碼
2.5.1 絕對位置編碼
2.5.2 相對位置編碼
2.5.3 絕對位置編碼與相對位置編碼的對比
第3章 強化學習基礎
3.1 基礎概念
3.2 大語言模型中的RLHF
3.2.1 PPO
3.2.2 DPO
3.3 GRPO
3.4 大語言模型中的強化學習訓練數據格式
第4章 大語言模型量化
4.1 大語言模型精度基礎知識
4.2 量化基礎知識
4.2.1 線性量化
4.2.2 非線性量化
4.2.3 對稱量化
4.2.4 非對稱量化
4.2.5 量化感知訓練
4.2.6 訓練後量化
4.2.7 反量化
4.3 分組量化
4.3.1 分組量化的優點
4.3.2 分組量化的分組方式
4.4 影響量化後模型精度與速度的因素
4.5 常見的量化算法
4.5.1 LLM.INT8
4.5.2 AWQ
4.5.3 GPTQ
第5章 大語言模型分布式訓練基礎知識
5.1 通信原語
5.1.1 Reduce
5.1.2 Broadcast
5.1.3 Gather
5.1.4 Scatter
5.1.5 All-Reduce
5.1.6 All-Gather
5.2 數據並行
5.3 張量並行
5.3.1 張量並行——行並行
5.3.2 張量並行——列並行
5.3.3 行並行與列並行的差別
5.4 流水線並行
5.5 序列並行
5.6 “專家”並行
第二部分 DeepSeek核心技術
第6章 DeepSeek的模型架構
6.1 MoE架構
6.1.1 MoE的基本原理
6.1.2 MoE架構下計算量下降的分析
6.2 MLA架構
6.2.1 MHA
6.2.2 GQA
6.2.3 MLA
6.3 分詞器設計
6.3.1 BPE
6.3.2 BBPE
6.3.3 分詞器對模型性能的影響
6.4 DeepSeek VL2模型的原理
6.4.1 什麼是跨模態對齊
6.4.2 DeepSeek VL2模型對高清圖像的處理
第7章 MoE架構負載均衡技術詳解
7.1 負載均衡的意義與挑戰
7.1.1 卡間負載均衡
7.1.2 節點間負載均衡
7.1.3 MoE架構的“專家”負載均衡
7.2 DeepSeek V3的負載均衡
7.2.1 全局無損失負載均衡
7.2.2 序列間負載均衡
7.2.3 節點與卡間的通信負載均衡
7.3 DeepSeek V2的負載均衡
7.3.1 設備級負載均衡
7.3.2 “專家”級負載均衡
7.3.3 通信負載均衡
第8章 DeepSeek V3在基礎設施層的優化
8.1 混合精度訓練
8.1.1 為什麼要進行混合精度訓練
8.1.2 傳統的混合精度訓練框架
8.1.3 DeepSeek V3的混合精度訓練
8.2 Dualpipe
8.3 分塊量化計算
8.3.1 Tensor Core的FP8數值溢出
8.3.2 DeepSeek V3的分塊量化計算原理
第9章 數據處理與質量提升
9.1 預訓練數據工程
9.1.1 預訓練數據的一般處理流程
9.1.2 數據去重的常見算法
9.1.3 數據質量保障
9.1.4 預訓練數據的格式
9.1.5 DeepSeek預訓練數據的處理
9.2 SFT數據的構建與處理
9.2.1 SFT數據的一般格式和內容
9.2.2 基於教師模型的數據蒸餾
9.2.3 構建SFT數據的一般原則
9.3 RLHF數據進化
9.3.1 RLHF的基本作用與流程
9.3.2 RLHF數據的格式與構建
9.4 DeepSeek Math的數據處理
9.4.1 初始數據準備
9.4.2 數據預處理與召回
9.4.3 疊代優化
9.4.4 基準汙染過濾
9.4.5 關鍵結果與收斂判斷
9.4.6 SFT數據構建
第10章 DeepSeek的訓練邏輯
10.1 DeepSeek V3的訓練邏輯
10.1.1 FIM
10.1.2 MTP
10.1.3 超參數設計
10.1.4 SFT數據構
