DeepSeek大模型實戰指南(架構部署與應用)

周濤 王卓 朱萬林

  • 出版商: 化學工業
  • 出版日期: 2025-05-01
  • 定價: $534
  • 售價: 8.5$454
  • 語言: 簡體中文
  • 頁數: 298
  • ISBN: 7122475719
  • ISBN-13: 9787122475718
  • 相關分類: LangChain
  • 尚未上市,歡迎預購

相關主題

商品描述

本書系統闡述了DeepSeek大模型架構、部署及應用實戰的相關內容。從人工智能和大模型的基礎理論出發,深入剖析了DeepSeek的底層技術,如Transformer架構、混合專家、動態任務分配、稀疏激活及歸一化等關鍵技術,並詳細介紹了模型訓練、優化和推理的前沿方法。書中不僅展示了DeepSeek在多模態模型和推理系統中的技術優勢,還提供了豐富的實戰案例,涵蓋了從本地部署到雲端應用,再到與辦公軟件、開發工具和Web交互系統的無縫集成。通過理論解析與實踐演示,讀者將獲得從模型設計到實際應用全流程的詳細指導。 本書非常適合人工智能領域的技術開發者、系統架構師,以及初探大模型應用的愛好者學習,也可用作高等院校相關專業的教材及參考書。

目錄大綱

第1章 人工智能和DeepSeek概述
1.1 人工智能
1.1.1 什麽是人工智能
1.1.2 人工智能的起源與發展歷程
1.2 大模型
1.2.1 大模型的原理和作用
1.2.2 大模型的興起與現狀
1.2.3 主流大模型介紹
1.3 DeepSeek
1.3.1 DeepSeek簡介
1.3.2 DeepSeek對人工智能市場的影響
1.3.3 DeepSeek的產品
1.3.4 DeepSeek的應用場景
1.3.5 DeepSeek與其他模型的技術對比
第2章 DeepSeek底層架構技術
2.1 Transformer架構技術
2.1.1 Transformer簡介
2.1.2 Transformer的核心組件
2.1.3 多頭註意力機制
2.1.4 多頭潛在註意力
2.2 動態任務分配
2.2.1 動態任務分配的特點和原理
2.2.2 動態任務分配的應用場景
2.3 稀疏激活機制
2.3.1 稀疏激活機制簡介
2.3.2 稀疏激活機制的實現方式
2.3.3 稀疏激活機制的應用領域
2.4 混合專家架構技術
2.4.1 混合專家架構簡介
2.4.2 MoE的特點
2.4.3 MoE的應用
2.4.4 DeepSeek中的MoE
2.5 歸一化技術
2.5.1 歸一化技術的必要性
2.5.2 LayerNorm技術
2.5.3 RMSNorm技術
2.6 模型訓練與優化技術
2.6.1 多令牌預測(MTP)技術
2.6.2 高效並行策略
2.6.3 混合精度訓練與量化策略
2.6.4 EMA顯存優化
2.6.5 頭尾參數共享
第3章 DeepSeekMoE架構
3.1 DeepSeekMoE架構簡介
3.1.1 背景
3.1.2 DeepSeekMoE架構策略
3.1.3 DeepSeekMoE與傳統MoE架構的區別
3.2 DeepSeekMoE架構詳解
3.2.1 細粒度專家細分
3.2.2 共享專家隔離
3.2.3 負載平衡
3.3 DeepSeekMoE的微調
3.3.1 DeepSeekMoE微調技術介紹
3.3.2 ZeRO優化
3.3.3 具體實現
3.4 性能評估
3.4.1 訓練數據和分詞
3.4.2 硬件基礎設施
3.4.3 設置超參數
3.4.4 評估基準
3.4.5 評估結果
3.4.6 和稠密模型的對比
3.4.7 DeepSeekMoE 2B模型測試
3.5 消融研究
3.5.1 消融研究介紹
3.5.2 消融研究在大模型中的應用
3.5.3 DeepSeekMoE的消融研究
3.6 DeepSeekMoE 16B測試
3.6.1 訓練數據和分詞
3.6.2 設置超參數
3.6.3 評估基準
3.7 DeepSeekMoE 16B的對齊
3.7.1 測試設置
3.7.2 評估結果
第4章 DeepSeek多模態大模型架構
4.1 DeepSeek多模態大模型的發展歷程
4.2 Janus模型架構
4.2.1 架構簡介
4.2.2 多模態理解
4.2.3 視覺生成路徑
4.2.4 自回歸Transformer
4.2.5 三階段訓練策略(Three-Stage Training Procedure)
4.2.6 Janus模型的推理與擴展性
4.3 Janus-Pro架構
4.3.1 解耦視覺編碼
4.3.2 訓練策略
4.3.3 優化訓練策略
4.3.4 數據擴展策略
4.3.5 模型規模擴展
4.4 JanusFlow架構
4.4.1 實現多模態模型
4.4.2 結合自回歸語言模型與Rectified Flow
4.4.3 採用任務解耦的編碼器 (Decoupled Encoder Design)
4.4.4 U-ViT模型
4.4.5 三階段訓練策略
4.4.6 實驗結果
4.5 DeepSeek-VL2多模態視覺模型
4.5.1 模型架構
4.5.2 技術創新與亮點
4.5.3 模型訓練
4.5.4 和Janus項目的對比
第5章 DeepSeek推理模型架構
5.1 背景
5.2 DeepSeek-R1模型簡介
5.2.1 DeepSeek-R1模型演進
5.2.2 DeepSeek-R1模型的基本架構
5.2.3 訓練方案
5.2.4 開源信息
5.3 推理模型的相關技術
5.3.1 混合專家(MoE)架構
5.3.2 多頭潛在註意力
5.3.3 強化學習
5.4 DeepSeek-R1-Zero訓練方案
5.4.1 強化學習算法
5.4.2 獎勵建模
5.4.3 訓練模板
5.4.4 DeepSeek-R1-Zero的自我進化過程
5.4.5 在DeepSeek-R1-Zero的“頓悟時刻”
5.4.6 DeepSeek-R1-Zero性能測試
5.5 DeepSeek-R1訓練方案
5.5.1 冷啟動
5.5.2 推理導向的強化學習
5.5.3 拒絕採樣和監督微調
5.5.4 全場景強化學習
5.6 蒸餾處理
5.6.1 AI大模型中的蒸餾處理
5.6.2 基礎模型的選擇與蒸餾過程
5.6.3 模型蒸餾的技術原理
5.6.4 評估蒸餾模型
5.6.5 小結
第6章 DeepSeek模型的本地部署
6.1 本地部署的優勢與常見挑戰
6.2 Ollama本地部署
6.2.1 安裝Ollama
6.2.2 DeepSeek模型的安裝與配置
6.2.3 基於本地DeepSeek模型的對話程序
6.3 LM Studio本地可視化部署
6.3.1 LM Studio的特點與安裝
6.3.2 安裝並配置DeepSeek模型
6.3.3 LM Studio API
6.3.4 使用Dify調用LM Studio模型
6.4 Chatbox本地部署
6.