ChatGPT的基本原理與核心算法

鄧志東

  • 出版商: 清華大學
  • 出版日期: 2025-03-01
  • 定價: $414
  • 售價: 8.5$352
  • 語言: 簡體中文
  • ISBN: 7302682631
  • ISBN-13: 9787302682639
  • 相關分類: ChatGPT
  • 下單後立即進貨 (約4週~6週)

  • ChatGPT的基本原理與核心算法-preview-1
  • ChatGPT的基本原理與核心算法-preview-2
  • ChatGPT的基本原理與核心算法-preview-3
ChatGPT的基本原理與核心算法-preview-1

相關主題

商品描述

"能夠模仿人類語言智能與思維,具有世界一般性知識的ChatGPT,開啟了通用人工智能的新時代,正成為引爆第四次工業革命的火種。本書是第一本體系化介紹ChatGPT基本原理與核心算法的教材及專業圖書。全書共分5章: 第1章為人工神經網絡基礎;第2章詳細剖析了Transformer及其緣起,分析了視覺領域的Transformer算法;第3章綜述了各種大型語言模型框架,分享了創建GPT系列模型的思想之旅;第4章重點介紹了ChatGPT的預訓練方法與微調算法,系統地闡述了強化學習基礎與基於人類反饋的強化學習;第5章為ChatGPT的應用,包括上下文學習提示與思維鏈提示,並討論了智能涌現。本書體系嚴謹、系統性強、邏輯嚴密、內容豐富,不僅深入淺出、圖文並茂、特色鮮明,而且具有引領性、前瞻性和思想啟迪性。 本書可作為高等院校人工智能、智能科學與技術、電腦科學與技術、大數據、自動駕駛、新一代機器人及相關專業高年級本科生與研究生教材,也可供上述專業的研究人員、算法工程師及從事AI產品研發、產業發展與決策咨詢等的工程技術人員、投資者、戰略研究者和廣大科技工作者參考。"

目錄大綱

目錄

第1章人工神經網絡基礎1

1.1引言1

1.2人工神經元模型3

1.2.1基準神經元模型: MP模型3

1.2.2第一代神經元模型: WSN模型4

1.2.3第二代神經元模型: RBF模型7

1.2.4第三代神經元模型: 發放模型7

1.3人工神經網絡模型8

1.3.1神經網絡的基本概念與方法8

1.3.2前饋神經網絡模型18

1.3.3深度捲積神經網絡模型25

1.3.4反饋神經網絡模型37

1.3.5遞歸神經網絡模型49

1.4本章小結50

第2章從LSTM到Transformer51

2.1引言51

2.2遞歸神經網絡: 編碼器解碼器框架52

2.2.1從前饋神經網絡到遞歸神經網絡53

2.2.2Elman網絡: 經典遞歸神經網絡56

2.2.3長短期記憶網絡60

2.2.4遞歸神經網絡的編碼器解碼器框架71

2.3遞歸神經網絡的註意力與點積相似性74

2.3.1長短期記憶網絡的註意力74

2.3.2點積相似性75

2.4Transformer模型77

2.4.1傳統編碼器解碼器框架下的Transformer網絡結構77

2.4.2嵌入向量與位置編碼82

2.4.3殘差直連結構及前置歸一化層82

2.4.4Transformer的核心結構單元: 多頭註意力機制與逐位置前饋

神經網絡84

2.4.5學習機制: 層堆疊自監督學習與基於誤差反向傳播的監督微調87〖1〗〖2〗ChatGPT的基本原理與核心算法〖1〗目錄2.4.6Transformer的主要特性87

2.4.7與遞歸神經網絡的聯系與區別88

2.5應用領域: 從NLP擴展到CV89

2.5.1CV領域的Transformer90

2.5.2視覺目標檢測與分割任務: DETR91

2.5.3圖像分類任務: ViT93

2.5.4三維點雲處理任務: Point Transformer96

2.5.5對比式語言圖像預訓練模型: CLIP101

2.5.6其他視覺任務及展望107

2.6本章小結107

第3章GPT系列預訓練大型語言模型109

3.1引言109

3.2大型語言模型的Transformer框架112

3.2.1前綴(編碼器)解碼器架構的Transformer框架113

3.2.2編碼器架構的Transformer框架114

3.2.3解碼器架構的Transformer框架115

3.3混合式預訓練大型語言模型118

3.3.1T5模型118

3.3.2GLM模型119

3.4判別式預訓練大型語言模型121

3.4.1BERT模型121

3.4.2RoBERTa模型123

3.5GPT系列生成式預訓練大型語言模型124

3.5.1GPT1: 利用生成式預訓練改善語言理解126

3.5.2GPT2: 無監督多任務學習的語言模型129

3.5.3GPT3: 少樣本學習的大型語言模型132

3.5.4GPT4: 圖文多模態大型語言模型137

3.6本章小結141

第4章ChatGPT的大規模預訓練與微調143

4.1引言143

4.2大型語言模型的大規模預訓練145

4.2.1預訓練任務與模型選擇145

4.2.2大規模預訓練方法149

4.2.3生成式Transformer大型語言模型的對比式自監督學習152

4.3ChatGPT預訓練模型的微調154

4.3.1強化學習基礎154

4.3.2預訓練大型語言模型的指令調優與RLHF調優170

4.3.3初始動作器: SFT模型的監督訓練173

4.3.4初始評判器: RM模型的監督訓練174

4.3.5A2C框架下的PPOptx強化學習: 策略更新與價值對齊175

4.4性能評估183

4.4.1與人類意圖及價值觀對齊的性能評估183

4.4.2定量評測184

4.5ChatGPT規模化與工程化中的關鍵技術186

4.5.1大規模高質量數據資源的準備187

4.5.2大規模分佈式預訓練與微調所需的AI算力支撐190

4.6本章小結192

第5章ChatGPT的應用194

5.1引言194

5.2提示工程195

5.2.1預訓練提示微調範式195

5.2.2零樣本提示與少樣本提示196

5.3上下文學習提示196

5.3.1語言模型的元學習196

5.3.2上下文學習提示198

5.4思維鏈提示199

5.4.1思維鏈提示的兩種方式199

5.4.2少樣本思維鏈提示200

5.4.3零樣本思維鏈提示202

5.4.4自動少樣本思維鏈提示204

5.5思維樹提示207

5.5.1思維樹提示的基本思想207

5.5.2思維樹: 大型語言模型深思熟慮的問題求解方法208

5.5.3分析與討論210

5.6智能涌現能力212

5.6.1智能涌現能力的定義213

5.6.2涌現能力發生的幾種情形214

5.6.3涌現能力的分析與展望217

5.7本章小結218