ChatGPT 的基本原理與核心算法

鄧誌東

預覽內頁

出版商: 清華大學
出版日期: 2025-03-01
定價: $414
售價: 7.5 折 $311
語言: 簡體中文
頁數: 219
ISBN: 7302682631
ISBN-13: 9787302682639
相關分類: ChatGPT

立即出貨

買這商品的人也買了...

~~$1,060~~ $1,038

Software Design Decoded: 66 Ways Experts Think (Hardcover)
~~$720~~ $705

半導體元件, 7/e (Streetman: Solid State Electronic Devices, 7/e)
~~$594~~ $564

用於集成電路模擬和設計的 FinFET 建模 — 基於 BSIM-CMG 標準
~~$1,068~~ $1,014

高速數字接口與光電測試
~~$520~~ $410

輕鬆學量子程式設計｜從量子位元到量子演算法
~~$620~~ $607

半導體製程與整合
~~$294~~ $279

信息論與編碼, 4/e
~~$600~~ $570

多模態人工智能：大模型核心原理與關鍵技術
~~$1,050~~ $997

PCI Express 體系結構導讀, 2/e
$708

打通 Linux 操作系統和芯片開發
~~$850~~ $595

快速精通 iOS 18 程式設計：從零開始活用 Swift 與 SwiftUI 開發技巧
~~$539~~ $512

CXL 體系結構：高速互連的原理解析與實踐
~~$714~~ $678

深入探索 Mamba 模型架構與應用
~~$594~~ $564

多模態大模型：從理論到實踐
~~$1,128~~ $1,071

深度學習：基礎與概念
~~$708~~ $672

大模型知識增強：概念、方法與技術
~~$1,200~~ $1,176

Software Engineering Made Easy: A Comprehensive Reference Guide for Writing Good Code
~~$528~~ $501

矽後驗證與調試
~~$594~~ $564

芯片形式化驗證原理、方法與實戰
~~$474~~ $450

大模型核心技術與應用 (微課視頻版)
~~$375~~ $356

智能醫學影像處理方法
~~$768~~ $729

通義千問：大模型架構與智能體開發實戰（基於 QwQ-32B 開源模型）
~~$580~~ $493

超實用！攝影技巧全書：從初級知識到進階修圖，44堂課晉升達人行列
~~$768~~ $729

智能駕駛視覺導航技術
~~$479~~ $455

安全 QR 碼設計方法研究

商品描述

"能夠模仿人類語言智能與思維，具有世界一般性知識的ChatGPT，開啟了通用人工智能的新時代，正成為引爆第四次工業革命的火種。本書是第一本體系化介紹ChatGPT基本原理與核心算法的教材及專業圖書。全書共分5章：第1章為人工神經網絡基礎；第2章詳細剖析了Transformer及其緣起，分析了視覺領域的Transformer算法；第3章綜述了各種大型語言模型框架，分享了創建GPT系列模型的思想之旅；第4章重點介紹了ChatGPT的預訓練方法與微調算法，系統地闡述了強化學習基礎與基於人類反饋的強化學習；第5章為ChatGPT的應用，包括上下文學習提示與思維鏈提示，並討論了智能湧現。本書體系嚴謹、系統性強、邏輯嚴密、內容豐富，不僅深入淺出、圖文並茂、特色鮮明，而且具有引領性、前瞻性和思想啟迪性。本書可作為高等院校人工智能、智能科學與技術、電腦科學與技術、大數據、自動駕駛、新一代機器人及相關專業高年級本科生與研究生教材，也可供上述專業的研究人員、算法工程師及從事AI產品研發、產業發展與決策咨詢等的工程技術人員、投資者、戰略研究者和廣大科技工作者參考。"

作者簡介

鄧誌東，CAA會士，CCF傑出會員。清華大學計算機科學與技術系教授，博士生導師，清華大學人工智能研究院視覺智能研究中心主任。目前的主要研究方向為人工智能（深度神經網絡與大模型、深度強化學習）、自動駕駛、人形機器人。發表學術論文300餘篇。

目錄大綱

第1章人工神經網絡基礎1

1.1引言1

1.2人工神經元模型3

1.2.1基準神經元模型： MP模型3

1.2.2第一代神經元模型： WSN模型4

1.2.3第二代神經元模型： RBF模型7

1.2.4第三代神經元模型：發放模型7

1.3人工神經網絡模型8

1.3.1神經網絡的基本概念與方法8

1.3.2前饋神經網絡模型18

1.3.3深度捲積神經網絡模型25

1.3.4反饋神經網絡模型37

1.3.5遞歸神經網絡模型49

1.4本章小結50

第2章從LSTM到Transformer51

2.1引言51

2.2遞歸神經網絡：編碼器解碼器框架52

2.2.1從前饋神經網絡到遞歸神經網絡53

2.2.2Elman網絡：經典遞歸神經網絡56

2.2.3長短期記憶網絡60

2.2.4遞歸神經網絡的編碼器解碼器框架71

2.3遞歸神經網絡的註意力與點積相似性74

2.3.1長短期記憶網絡的註意力74

2.3.2點積相似性75

2.4Transformer模型77

2.4.1傳統編碼器解碼器框架下的Transformer網絡結構77

2.4.2嵌入向量與位置編碼82

2.4.3殘差直連結構及前置歸一化層82

2.4.4Transformer的核心結構單元：多頭註意力機制與逐位置前饋

神經網絡84

2.4.5學習機制：層堆疊自監督學習與基於誤差反向傳播的監督微調87〖1〗〖2〗ChatGPT的基本原理與核心算法〖1〗目錄2.4.6Transformer的主要特性87

2.4.7與遞歸神經網絡的聯系與區別88

2.5應用領域：從NLP擴展到CV89

2.5.1CV領域的Transformer90

2.5.2視覺目標檢測與分割任務： DETR91

2.5.3圖像分類任務： ViT93

2.5.4三維點雲處理任務： Point Transformer96

2.5.5對比式語言圖像預訓練模型： CLIP101

2.5.6其他視覺任務及展望107

2.6本章小結107

第3章GPT系列預訓練大型語言模型109

3.1引言109

3.2大型語言模型的Transformer框架112

3.2.1前綴（編碼器）解碼器架構的Transformer框架113

3.2.2編碼器架構的Transformer框架114

3.2.3解碼器架構的Transformer框架115

3.3混合式預訓練大型語言模型118

3.3.1T5模型118

3.3.2GLM模型119

3.4判別式預訓練大型語言模型121

3.4.1BERT模型121

3.4.2RoBERTa模型123

3.5GPT系列生成式預訓練大型語言模型124

3.5.1GPT1：利用生成式預訓練改善語言理解126

3.5.2GPT2：無監督多任務學習的語言模型129

3.5.3GPT3：少樣本學習的大型語言模型132

3.5.4GPT4：圖文多模態大型語言模型137

3.6本章小結141

第4章ChatGPT的大規模預訓練與微調143

4.1引言143

4.2大型語言模型的大規模預訓練145

4.2.1預訓練任務與模型選擇145

4.2.2大規模預訓練方法149

4.2.3生成式Transformer大型語言模型的對比式自監督學習152

4.3ChatGPT預訓練模型的微調154

4.3.1強化學習基礎154

4.3.2預訓練大型語言模型的指令調優與RLHF調優170

4.3.3初始動作器： SFT模型的監督訓練173

4.3.4初始評判器： RM模型的監督訓練174

4.3.5A2C框架下的PPOptx強化學習：策略更新與價值對齊175

4.4性能評估183

4.4.1與人類意圖及價值觀對齊的性能評估183

4.4.2定量評測184

4.5ChatGPT規模化與工程化中的關鍵技術186

4.5.1大規模高質量數據資源的準備187

4.5.2大規模分佈式預訓練與微調所需的AI算力支撐190

4.6本章小結192

第5章ChatGPT的應用194

5.1引言194

5.2提示工程195

5.2.1預訓練提示微調範式195

5.2.2零樣本提示與少樣本提示196

5.3上下文學習提示196

5.3.1語言模型的元學習196

5.3.2上下文學習提示198

5.4思維鏈提示199

5.4.1思維鏈提示的兩種方式199

5.4.2少樣本思維鏈提示200

5.4.3零樣本思維鏈提示202

5.4.4自動少樣本思維鏈提示204

5.5思維樹提示207

5.5.1思維樹提示的基本思想207

5.5.2思維樹：大型語言模型深思熟慮的問題求解方法208

5.5.3分析與討論210

5.6智能湧現能力212

5.6.1智能湧現能力的定義213

5.6.2湧現能力發生的幾種情形214

5.6.3湧現能力的分析與展望217

5.7本章小結218

ChatGPT 的基本原理與核心算法

鄧誌東

買這商品的人也買了...

相關主題

商品描述

作者簡介

目錄大綱

類似商品