自然語言處理中的分布外泛化
張勝,劉姍姍,朱先強
- 出版商: 電子工業
- 出版日期: 2026-05-01
- 售價: $768
- 語言: 簡體中文
- 頁數: 336
- ISBN: 7121526255
- ISBN-13: 9787121526251
-
相關分類:
Natural Language Processing
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書聚焦於自然語言處理模型在分布外數據上泛化能力的提升這一關鍵挑戰。全書從理論基礎、技術方法和現實應用三個維度系統地展開論述。理論層面,清晰闡釋了分布外泛化的核心概念及其機器學習原理;技術層面,詳細剖析了包括數據增強、對抗訓練、因果推斷等在內的分布外泛化增強方法,並深入分析了大語言模型特有的分布外泛化問題及其伴隨的社會公平性挑戰;應用層面,針對自然語言處理中的時序遷移、任務遷移和語言遷移三大應用場景,探討了模型面臨的泛化瓶頸,並提出了切實可行的優化方案。本書旨在為相關領域的研究者與從業者提供兼具學術前沿洞見與工程實踐指導的系統性參考,助力應對人工智能模型分布外泛化的核心挑戰。
目錄大綱
第1章 緒論 1
1.1 分布外泛化的研究背景與意義 1
1.1.1 研究背景 1
1.1.2 研究意義 3
1.2 國內外研究進展及現狀 4
1.2.1 分布外泛化 4
1.2.2 領域遷移 6
1.2.3 算法公平性 13
1.2.4 研究現狀小結 14
1.3 全書主要內容及組織結構 15
本章參考文獻 17
第2章 機器學習的基礎理論 30
2.1 機器學習的分類 30
2.1.1 有監督學習 30
2.1.2 無監督學習 33
2.1.3 半監督學習 33
2.1.4 強化學習 35
2.2 神經網絡模型 37
2.2.1 全連接神經網絡 37
2.2.2 卷積神經網絡 48
2.2.3 循環神經網絡 50
2.2.4 自註意力神經網絡 55
2.3 本章小結 58
本章參考文獻 58
第3章 自然語言處理的基礎 63
3.1 文本表示與語言模型 63
3.1.1 獨熱表示 63
3.1.2 分布式詞向量表示 64
3.1.3 神經網絡語言模型 64
3.1.4 Word2Vec模型 66
3.1.5 基於上下文語義的表示 68
3.1.6 句向量模型 69
3.2 預訓練語言模型 71
3.2.1 GPT系列 71
3.2.2 BERT系列 74
3.2.3 ELECTRA系列 77
3.2.4 LLaMA系列 78
3.2.5 Claude系列 78
3.2.6 Gemini系列 79
3.2.7 通義千問系列 80
3.2.8 ChatGLM系列 81
3.2.9 Baichuan系列 82
3.2.10 DeepSeek系列 82
3.3 自然語言處理常見任務 84
3.3.1 工具性自然語言處理任務 84
3.3.2 應用性自然語言處理任務 86
3.4 本章小結 91
本章參考文獻 91
第4章 分布外泛化的相關理論 99
4.1 分布外泛化相關概念 99
4.1.1 泛化 100
4.1.2 分布外泛化 102
4.1.3 數據集偏移 104
4.1.4 深度學習中的捷徑學習 105
4.2 多領域學習 107
4.2.1 多任務學習 107
4.2.2 遷移學習 108
4.2.3 元學習 110
4.3 領域自適應與領域泛化 114
4.3.1 領域自適應 114
4.3.2 領域泛化 115
4.4 分布外泛化的相關總結 116
4.4.1 不同學習類型比較 116
4.4.2 相近概念辨析 117
4.4.3 分布外泛化問題產生的原因 118
4.4.4 本書的研究限定與前提 119
4.5 本章小結 119
本章參考文獻 119
第5章 常見分布外泛化增強方法 123
5.1 基於樣本權重的增強方法 123
5.2 基於數據增強的方法 124
5.2.1 單詞級數據增強方法 124
5.2.2 句子級數據增強方法 125
5.2.3 基於混合的數據增強方法 126
5.2.4 遠程監督學習方法 127
5.3 基於先預訓練後微調的增強方法 127
5.3.1 常見預訓練任務模型 128
5.3.2 常見微調方法 130
5.3.3 遷移的正則化設計 132
5.4 基於知識蒸餾的增強方法 133
5.5 基於不變性預測的增強方法 134
5.6 基於特征對齊的增強方法 136
5.6.1 子空間對齊方法 136
5.6.2 協方差對齊方法 137
5.6.3 基於最大均值差異的方法 138
5.6.4 基於領域分離網絡的方法 141
5.7 基於生成對抗網絡的增強方法 142
5.7.1 基於領域對抗神經網絡方法 144
5.7.2 基於動態對抗自適應網絡方法 146
5.8 基於分布魯棒性優化的增強方法 147
5.8.1 沃瑟斯坦魯棒性 147
5.8.2 KL-散度魯棒性 148
5.8.3 分布魯棒性優化的優缺點 149
5.9 基於因果推斷的增強方法 149
5.10 本章小結 151
本章參考文獻 152
第6章 大語言模型的分布外泛化 157
6.1 大語言模型語境學習與分布外泛化 157
6.1.1 零樣本學習 158
6.1.2 少樣本提示學習 159
6.1.3 思維鏈提示學習 161
6.1.4 大海撈針測試 162
6.1.5 基於增強檢索生成的方法 163
6.1.6 基於自我反思的方法 165
6.2 大語言模型微調與分布外泛化 166
6.2.1 適配器微調 166
6.2.2 低秩自適應 168
6.2.3 前綴微調 168
6.3 大語言模型的對齊 169
6.3.1 人類反饋強化學習 170
6.3.2 近端策略優化算法 172
6.4 大語言模型的智能體建模與具身智能 172
6.4.1 大語言模型智能體建模 172
6.4.2 大語言模型驅動的具身智能 177
6.5 大語言模型泛化性能分析 179
6.6 本章小結 181
本章參考文獻 182
第7章 算法公平性問題 185
7.1 公平性的定義及類別 185
7.2 自然語言處理任務的公平性問題 187
7.3 大語言模型的公平性問題 189
7.4 算法公平性問題產生的原因 190
7.5 案例分析:預訓練語言模型的社會語言學分析 191
7.5.1 社會語言學偏差探究任務 192
7.5.2 探究評估任務實驗設置 192
7.5.3 分析一:人類社會語言學差異分析 196
7.5.4 分析二:預訓練語言模型社會語言學公平性分析 197
7.5.5 分析三:預訓練語言模型與人類間的社會語言學差異分析 198
7.5.6 分析小結 200
7.6 提升算法公平性的典型方法 201
7.6.1 數據增強法 201
7.6.2 組別權重法 201
7.6.3 正則化約束 202
7.6.4 對抗學習 203
7.6.5 對比學習 203
7.6.6 強化學習 204
7.7 本章小結 204
本章參考文獻 204
第8章 時序遷移下的模型分布外泛化增強方法 210
8.1 在線系統中的時序遷移 210
8.2 時序遷移的形式化定義 211
8.3 基於動態知識蒸餾的跨時段自動問答方法 212
8.3.1 自動問答與大模型泛化相關的工作 212
8.3.2 基於知識蒸餾的模型分布外泛化增強架構 215
8.3.3 學生模型:基於多尺度註意力交互網絡的在線中文醫療問答 216
8.3.4 教師模型:基於自註意力機制的大語言模型 223
8.3.5 蒸餾衰減系數與優化目標 223
8.3.6 動態采樣蒸餾方法 225
8.3.7 多學生模型集成學習 225
8.3.8 實驗 226
8.3.9 分析討論 232
8.4 本章小結 235
本章參考文獻 236
第9章 任務遷移下的模型分布外泛化增強方法 241
9.1 多任務學習中的任務遷移 241
9.2 任務遷移的形式化定義 243
9.3 多任務學習的損失函數及采樣策略 243
9.3.1 多任務學習的損失函數 244
9.3.2 多任務學習的采樣策略 245
9.4 基於最壞情況感知的多任務自動課程學習方法 248
9.4.1 基於最壞情況感知的自動課程學習架構 249
9.4.2 最壞情況感知的最小化算法 249
9.4.3 多任務學習模型 252
9.4.4 多任務模型的遷移學習 255
9.4.5 實驗 255
9.5 本章小結 264
本章參考文獻 264
第10章 語言遷移下的模型分布外泛化增強方法 267
10.1 自然語言處理中的語言遷移 267
10.2 語言遷移的形式化定義 268
10.3 面向有限標記樣本的跨語言文章重新排序方法 269
10.3.1 跨語言文章重新排序任務定義 270
10.3.2 基於擴展預訓練的跨語言文章重新排序模型 271
10.3.3 基於數據增強的跨語言文章重新排序模型 275
10.3.4 實驗與案例分析 277
10.4 基於知識蒸餾和對抗學習的跨語言文章重新排序方法 284
10.4.1 理論分析 285
10.4.2 基於知識蒸餾和對抗學習的跨語言文章重新排序模型 287
10.4.3 實驗結果與分析 290
10.4.4 小結 295
10.5 基於最差組別感知的跨語言情感分類方法 296
10.5.1 語言遷移的形式化定義 297
10.5.2 基於自動課程學習的模型架構 298
10.5.3 最差組別感知的最小化算法 298
10.5.4 情感分類模型 301
10.5.5 跨語言遷移學習 302
10.5.6 實驗設置 302
10.5.7 實驗結果 304
10.5.8 分析 305
10.6 本章小結 312
本章參考文獻 312
第11章 總結與展望 318
11.1 全書總結 318
11.2 研究展望 320
11.2.1 分布外泛化與模型可解釋性 320
11.2.2 分布外泛化與模型安全性 321
11.2.3 分布外泛化測評基準的構建 322
11.2.4 分布外泛化在管理科學與工程領域的潛在應用前景 323
本章參考文獻 324
