概率圖模型:原理與技術
[美]Daphne Koller [以色列]Nir Friedman 著, 王飛躍、韓素青 譯
相關主題
商品描述
概率圖模型將概率論與圖論相結合,是當前非常熱門的一個機器學習研究方向。本書詳細論述了有向圖模型(又稱貝葉斯網)和無向圖模型(又稱馬爾可夫網)的表示、推理和學習問題,全面總結了人工智能這一前沿研究領域的最新進展。為了便於讀者理解,書中包含了大量的定義、定理、證明、算法及其偽代碼,穿插了大量的輔助材料,如示例(examples)、技巧專欄(skill boxes)、實例專欄(case study boxes)、概念專欄(concept boxes)等。另外,在第 2章介紹了概率論和圖論的核心知識,在附錄中介紹了信息論、算法復雜性、組合優化等補充材料,為學習和運用概率圖模型提供了完備的基礎。 本書可作為高等學校和科研單位從事人工智能、機器學習、模式識別、信號處理等方向的學生、教師和研究人員的教材和參考書。
目錄大綱
目 錄
致謝 29
插圖目錄 31
算法目錄 39
專欄目錄 41
第 1章引言 .. 1
1.1動機 . 1
1.2結構化概率模型 . 2
1.2.1 概率圖模型 . 3
1.2.2 表示、推理、學習 . 5
1.3概述和路線圖 . 6
1.3.1 各章的概述 . 6
1.3.2 讀者指南 . 9
1.3.3 與其他學科的聯系 ... 10
1.4歷史註記 ... 12
第 2章 基礎知識 15
2.1概率論 ... 15
2.1.1 概率分佈 ... 15
2.1.2 概率中的基本概念 ... 17
2.1.3 隨機變量與聯合分佈 ... 19
2.1.4 獨立性與條件獨立性 ... 22
2.1.5 查詢一個分佈 ... 25
2.1.6 連續空間 ... 27
2.1.7 期望與方差 ... 30
2.2圖 ... 33
2.2.1 節點與邊 ... 33
2.2.2 子圖... 34
2.2.3 路徑與跡 ... 35
2.2.4 圈與環 ... 36
2.3相關文獻 ... 37
2.4習題 ... 38
第Ⅰ部分表示 第 3章貝葉斯網表示 45
3.1獨立性性質的利用 ... 45
3.1.1 隨機變量的獨立性 ... 45
3.1.2 條件參數化方法 ... 46
3.1.3 樸素貝葉斯模型 ... 48
3.2貝葉斯網 ... 51
3.2.1 學生示例回顧 ... 51
3.2.2 貝葉斯網的基本獨立性 ... 55
3.2.3 圖與分佈 ... 59
3.3圖中的獨立性 ... 68
3.3.1 d-分離 ... 68
3.3.2 可靠性與完備性 ... 71
3.3.3 d-分離算法 ... 73
3.3.4 I-等價 75
3.4從分佈到圖 ... 77
3.4.1 昀小 I-map 78
3.4.2 P-map 80
3.4.3 發現 P-map* . 82
3.5小結 ... 91
3.6相關文獻 ... 92
3.7習題 ... 95
第 4章無向圖模型 .. 103
4.1誤解示例 . 103
4.2參數化 . 106
4.2.1 因子. 106
4.2.2 吉布斯分佈與馬爾可夫網 . 107
4.2.3 簡化的馬爾可夫網 . 110
4.3馬爾可夫網的獨立性 . 113
4.3.1 基本獨立性 . 113
4.3.2 獨立性回顧 . 116
4.3.3 從分佈到圖 . 119
4.4參數化回顧 . 121
4.4.1 細粒度參數化方法 . 121
4.4.2 過參數化 . 127
4.5貝葉斯網與馬爾可夫網 . 132
4.5.1 從貝葉斯網到馬爾可夫網 . 132
4.5.2 從馬爾可夫網到貝葉斯網 . 136
4.5.3 弦圖. 138
4.6部分有向模型 . 140
4.6.1 條件隨機場 . 141
4.6.2 鏈圖模型 *... 146
4.7總結與討論 . 149
4.8相關文獻 . 150
4.9習題 . 151
第 5章局部概率模型 .. 155
5.1 CPD表 155
5.2確定性 CPD 156
5.2.1 表示. 156
5.2.2 獨立性 . 157
5.3特定上下文 CPD 160
5.3.1 表示. 160
5.3.2 獨立性 . 168
5.4因果影響的獨立性 . 172
5.4.1 Noisy-or模型 . 172
5.4.2 廣義線性模型 . 175
5.4.3 一般公式化表示 . 179
5.4.4 獨立性 . 180
5.5連續變量 . 181
5.5.1 混合模型 . 185
5.6條件貝葉斯網 . 187
5.7總結 . 189
5.8相關文獻 . 189
5.9習題 . 191
第 6章基於模板的表示 .. 195
6.1引言 . 195
6.2時序模型 . 196
6.2.1 基本假設 . 196
6.2.2 動態貝葉斯網 . 198
6.2.3 狀態-觀測模型 ... 203
6.3模板變量與模板因子 . 208
6.4對象-關系領域的有向概率模型 211
6.4.1 Plate模型 211
6.4.2 概率關系模型 . 217
6.5無向表示 . 223
6.6結構不確定性 * ... 227
6.6.1 關系不確定性 . 227
6.6.2 對象不確定性 . 230
6.7小結 . 235
6.8相關文獻 . 236
6.9習題 . 237
第 7章高斯網絡模型 .. 241
7.1多元高斯分佈 . 241
7.1.1 基本參數化方法 . 241
7.1.2 高斯分佈的運算 . 243
7.1.3 高斯分佈的獨立性 . 244
7.2高斯貝葉斯網 . 245
7.3高斯馬爾可夫隨機場 . 248
7.4小結 . 251
7.5相關文獻 . 251
7.6習題 . 252
第 8章指數族 .. 255
8.1引言 . 255
8.2指數族 . 255
8.2.1 線性指數族 . 257
8.3因式化的指數族( factored exponential families)... 260
8.3.1 乘積分佈( product distributions) 260
8.3.2 貝葉斯網 . 261
8.4熵和相對熵 . 263
8.4.1 熵. 263
8.4.2 相對熵 . 266
8.5投影 . 267
8.5.1 比較. 268
8.5.2 M-投影 270
8.5.3 I-投影 .. 275
8.6小結 . 275
8.7相關文獻 . 276
8.8習題 . 276
第Ⅱ部分推理 第 9章精確推理:變量消除 .. 281
9.1復雜性分析 . 281
9.1.1 精確推理分析 . 282
9.1.2 近似推理分析 . 284
9.2變量消除:基本思路 . 286
9.3變量消除 . 290
9.3.1 基本消除 . 290
9.3.2 證據處理 . 295
9.4復雜度與圖結構:變量消除 . 298
9.4.1 簡單分析 . 298
9.4.2 圖論分析 . 299
9.4.3 尋找消除順序 *... 302
9.5條件作用 * ... 308
9.5.1 條件作用算法 . 308
9.5.2 條件作用與變量消除 . 309
9.5.3 圖論分析 . 313
9.5.4 改進的條件作用算法 . 314
9.6用結構 CPD推理*.. 316
9.6.1 因果影響的獨立性 . 316
9.6.2 上下文特定的獨立性 . 319
9.6.3 討論. 326
9.7總結和討論 . 327
9.8相關文獻 . 328
9.9習題 . 329
第 10章精確推理:團樹 337
10.1 變量消除與團樹 ... 337
10.1.1 聚類圖 . 337
10.1.2 團樹. 338
10.2 消息傳遞:和積 ... 340
10.2.1 團樹中的變量消除 . 341
10.2.2 團樹校準 . 346
10.2.3 將校準團樹作為一個分佈 . 352
10.3 消息傳遞:置信更新 ... 355
10.3.1 使用除法的消息傳遞 . 356
10.3.2 和-積與置信-更新消息的等價性 .. 359
10.3.3 回答查詢 . 360
10.4 構建一個團樹 ... 364
10.4.1 源自變量消除的團樹 . 364
10.4.2 源自弦圖的團樹 . 365
10.5 小結 ... 367
10.6 相關文獻 ... 368
10.7 習題 ... 369
第 11章作為優化的推理 373
11.1引言 ... 373
11.1.1 再議精確推理 * ... 374
11.1.2 能量泛函 . 376
11.1.3 優化能量泛函 . 377
11.2作為優化的精確推理 ... 378
11.2.1 不動點刻畫 . 379
11.2.2 推理優化 . 382
11.3基於傳播的近似 ... 382
11.3.1 一個簡單的例子 . 383
11.3.2 聚類圖置信傳播 . 387
11.3.3 聚類圖置信傳播的性質 . 391
11.3.4 收斂性分析 * ... 393
11.3.5 構建聚類圖 . 395
11.3.6 變分分析 . 401
11.3.7 其他熵近似 * ... 404
11.3.8 討論. 417
11.4近似消息傳播 *.. 419
11.4.1 因子分解的消息 . 419
11.4.2 近似消息計算 . 422
11.4.3 近似消息推理 . 425
11.4.4 期望傳播 . 431
11.4.5 變分分析 . 434
11.4.6 討論. 436
11.5結構化的變分近似 ... 437
11.5.1 平均場近似 . 438
11.5.2 結構化的近似 . 445
11.5.3 局部變分法 * ... 456
11.6總結與討論 ... 460
11.7相關文獻 ... 462
11.8習題 ... 464
第 12章基於粒子的近似推理 475
12.1 前向採樣 ... 476
12.1.1 從貝葉斯網中採樣 . 476
12.1.2 誤差分析 . 478
12.1.3 條件概率查詢 . 479
12.2 似然加權與重要性採樣 ... 480
12.2.1 似然加權:直覺 . 480
12.2.2 重要性採樣 . 482
12.2.3 貝葉斯網的重要性採樣 . 486
12.2.4 重要性採樣回顧 . 492
12.3 馬爾可夫鏈的蒙特卡羅方法 ... 492
12.3.1 吉布斯採樣算法 . 493
12.3.2 馬爾可夫鏈 . 494
12.3.3 吉布斯採樣回顧 . 499
12.3.4 馬爾可夫鏈的一個更廣泛的類 * ... 502
12.3.5 馬爾可夫鏈的使用 . 505
12.4 坍塌的粒子 ... 512
12.4.1 坍塌的似然加權 *... 513
12.4.2 坍塌的 MCMC ... 517
12.5 確定性搜索方法 * . 522
12.6 小結 ... 525
12.7 相關文獻 ... 527
12.8 習題 ... 529
第 13章最大後驗概率推理 537
13.1 綜述 ... 537
13.1.1 計算復雜性 . 537
13.1.2 解決方法綜述 . 538
13.2 (邊緣) MAP的變量消除.. 540
13.2.1 昀大-積變量消除 ... 540
13.2.2 找到昀可能的賦值 . 542
13.2.3 邊緣 MAP的變量消除* 545
13.3 團樹中的昀大 -積.. 547
13.3.1 計算昀大 -邊緣 ... 548
13.3.2 作為再參數化的信息傳遞 . 549
13.3.3 昀大-邊緣解碼 ... 550
13.4 多圈聚類圖中的昀大 -積置信傳播 .. 553
13.4.1 標準昀大 -積消息傳遞 ... 553
13.4.2 帶有計數的昀大 -積 BP* 557
13.4.3 討論. 560
13.5 作為線性優化問題的 MAP* 562
13.5.1 整數規劃的公式化 . 562
13.5.2 線性規劃鬆弛 . 564
13.5.3 低溫極限 . 566
13.6 對 MAP使用圖割. 572
13.6.1 使用圖割的推理 . 572
13.6.2 非二元變量 . 575
13.7 局部搜索算法 * . 579
13.8 小結 ... 580
13.9 相關文獻 ... 582
13.10習題 . 584
第 14章混合網絡中的推理 589
14.1 引言 ... 589
14.1.1 挑戰. 589
14.1.2 離散化 . 590
14.1.3 概述. 591
14.2 高斯網絡中的變量消除 ... 592
14.2.1 標準型 . 592
14.2.2 和-積算法 ... 595
14.2.3 高斯置信傳播 . 596
14.3 混合網絡 ... 598
14.3.1 面臨的困難 . 599
14.3.2 混合高斯網絡的因子運算 . 601
14.3.3 CLG網絡的 EP .. 604
14.3.4 一個“準確的” CLG算法* .. 609
14.4 非線性依賴 ... 613
14.4.1 線性化 . 614
14.4.2 使用高斯近似的期望傳播 . 620
14.5 基於粒子的近似方法 ... 624
14.5.1 在連續空間中採樣 . 625
14.5.2 貝葉斯網中的前向採樣 . 626
14.5.3 馬爾可夫鏈 -蒙特卡羅方法 626
14.5.4 坍塌的粒子 . 627
14.5.5 非參數消息傳遞 . 628
14.6 總結與討論 ... 629
14.7 相關文獻 ... 630
14.8 習題 ... 631
第 15章時序模型中的推理 635
15.1 推理任務 ... 636
15.2 精確推理 ... 637
15.2.1 狀態觀測模型的濾波 . 637
15.2.2 作為團樹傳播的濾波 . 638
15.2.3 DBN中的團樹推理 ... 639
15.2.4 復雜情況探討 . 640
15.3 近似推理 ... 644
15.3.1 核心思想 . 645
15.3.2 因子分解的置信狀態方法 . 646
15.3.3 粒子濾波 . 648
15.3.4 確定性搜索方法 . 658
15.4 混合 DBN.. 659
15.4.1 連續模型 . 659
15.4.2 混合模型 . 667
15.5 小結 ... 671
15.6 相關文獻 ... 672
15.7 習題 ... 674
第 Ⅲ部分學習
第 16章圖模型學習:概述 681
16.1 動機 ... 681
16.2 學習目標 ... 682
16.2.1 密度估計 . 682
16.2.2 具體的預測任務 . 684
16.2.3 知識發現 . 685
16.3 優化學習 ... 686
16.3.1 經驗風險與過擬合 . 686
16.3.2 判別式與生成式訓練 . 693
16.4 學習任務 ... 695
16.4.1 模型限制 . 695
16.4.2 數據的可觀測性 . 696
16.4.3 學習任務的分類 . 697
16.5 相關文獻 ... 698
第 17章參數估計 699
17.1 昀大似然估計( MLE) 699
17.1.1 圖釘的例子 . 699
17.1.2 昀大似然準則 . 701
17.2 貝葉斯網的 MLE.. 704
17.2.1 一個簡單的例子 . 704
17.2.2 全局似然分解 . 706
17.2.3 CPD表 707
17.2.4 高斯貝葉斯網 *... 709
17.2.5 作為 M-投影的昀大似然估計* . 713
17.3 貝葉斯參數估計 ... 714
17.3.1 圖釘例子的回顧 . 714
17.3.2 先驗分佈與後驗分佈 . 719
17.4 貝葉斯網中的貝葉斯參數估計 ... 723
17.4.1 參數獨立性與全局分解 . 723
17.4.2 局部分解 . 727
17.4.3 貝葉斯網學習的先驗分佈 . 729
17.4.4 MAP估計* . 732
17.5 具有共享參數的學習模型 ... 735
17.5.1 全局參數共享 . 736
17.5.2 局部參數共享 . 741
17.5.3 具有共享參數的貝葉斯推斷 . 742
17.5.4 層次先驗 *... 744
17.6 泛化分析 * . 750
17.6.1 漸近性分析 . 750
17.6.2 PAC界 751
17.7 小結 ... 757
17.8 相關文獻 ... 758
17.9 習題 ... 759
第 18章貝葉斯網中的結構學習 767
18.1 引言 ... 767
18.1.1 問題定義 . 767
18.1.2 方法概述 . 769
18.2 基於約束的方法 ... 769
18.2.1 總體框架 . 769
18.2.2 獨立性檢驗 . 771
18.3 結構得分 ... 774
18.3.1 似然得分 . 774
18.3.2 貝葉斯得分 . 778
18.3.3 單個變量的邊緣似然 . 780
18.3.4 貝葉斯網的貝葉斯得分 . 782
18.3.5 理解貝葉斯得分 . 785
18.3.6 先驗性 . 787
18.3.7 得分等價性 *... 790
18.4 結構搜索 ... 791
18.4.1 學習樹結構網絡 . 791
18.4.2 給定順序 . 793
18.4.3 一般圖 . 794
18.4.4 用等價類學習 *... 804
18.5 貝葉斯模型平均 * . 807
18.5.1 基本理論 . 807
18.5.2 基於給定序的模型平均 . 809
18.5.3 一般的情況 . 811
18.6 帶有附加結構的學習模型 ... 815
18.6.1 帶有局部結構的學習 . 816
18.6.2 學習模板模型 . 819
18.7 總結與討論 ... 821
18.8 相關文獻 ... 822
18.9 習題 ... 825
第 19章部分觀測數據 833
19.1 基礎知識 ... 833
19.1.1 數據的似然和觀測模型 . 833
19.1.2 觀測機制的解耦 . 837
19.1.3 似然函數 . 840
19.1.4 可識別性 . 843
19.2 參數估計 ... 846
19.2.1 梯度上升方法 . 846
19.2.2 期望昀大化( EM)... 852
19.2.3 比較:梯度上升與 EM.. 870
19.2.4 近似推理 *... 876
19.3 使用不完備數據的貝葉斯學習 *.. 880
19.3.1 概述. 880
19.3.2 MCMC採樣 ... 881
19.3.3 變分貝葉斯學習 . 887
19.4 結構學習 ... 890
19.4.1 結構得分 . 891
19.4.2 結構搜索 . 898
19.4.3 結構 EM.. 902
19.5 帶有隱變量的學習模型 ... 907
19.5.1 隱變量的信息內容 . 908
19.5.2 確定基數 . 909
19.5.3 引入隱變量 . 912
19.6 小結 ... 914
19.7 相關文獻 ... 915
19.8 習題 ... 917
第 20章學習無向模型 927
20.1 概述 ... 927
20.2 似然函數 ... 928
20.2.1 一個例子 . 928
20.2.2 似然函數的形式 . 930
20.2.3 似然函數的性質 . 930
20.3 昀大(條件)似然參數估計 ... 932
20.3.1 昀大似然估計 . 933
20.3.2 條件訓練模型 . 934
20.3.3 用缺失數據學習 . 937
20.3.4 昀大熵和昀大似然 *... 939
20.4 參數先驗與正則化 ... 941
20.4.1 局部先驗 . 942
20.4.2 全局先驗 . 944
20.5 用近似推理學習 ... 945
20.5.1 信念傳播 . 945
20.5.2 基於 MAP的學習* 950
20.6 替代目標 ... 953
20.6.1 偽似然及其推廣 . 953
20.6.2 對比優化準則 . 957
20.7 結構學習 ... 962
20.7.1 使用獨立性檢驗的結構學習 . 962
20.7.2 基於得分的學習:假設空間 . 964
20.7.3 目標函數 . 965
20.7.4 優化任務 . 968
20.7.5 評估模型的改變 . 975
20.8 小結 ... 978
20.9 相關文獻 ... 981
20.10習題 . 984
第 Ⅳ部分行為與決策 第 21章因果關系 993
21.1 動機與概述 ... 993
21.1.1 條件作用與乾預 . 993
21.1.2 相關關系和因果關系 . 996
21.2 因果關系模型 ... 998
21.3 結構性因果關系的可識別性 . 1000
21.3.1 查詢簡化規則 ... 1001
21.3.2 迭代的查詢簡化 ... 1003
21.4 機制與響應變量 * ... 1009
21.5 函數因果模型中的部分可識別性 * 1013
21.6 虛擬查詢 * ... 1017
21.6.1 成對的網絡 ... 1017
21.6.2 虛擬查詢的界 ... 1020
21.7 學習因果模型 . 1021
21.7.1 學習沒有混合因素的因果模型 ... 1022
21.7.2 從乾預數據中學習 ... 1025
21.7.3 處理隱變量 *. 1029
21.7.4 學習功能因果關系模型 *.. 1032
21.8 小結 . 1033
21.9 相關文獻 . 1034
21.10習題 ... 1035
第 22章效用和決策 .. 1039
22.1 基礎:期望效用昀大化 . 1039
22.1.1 不確定性情況下的決策制定 ... 1039
22.1.2 理論證明 *. 1041
22.2 效用曲線 . 1044
22.2.1 貨幣效用 ... 1044
22.2.2 風險態度 ... 1046
22.2.3 合理性 ... 1047
22.3 效用的獲取 . 1048
22.3.1 效用獲取過程 ... 1048
22.3.2 人類生命的效用 ... 1049
22.4 復雜結果的效用 . 1050
22.4.1 偏好和效用獨立性 *. 1051
22.4.2 加法獨立性特性 ... 1053
22.5 小結 . 1060
22.6 相關文獻 . 1061
22.7 習題 . 1063
第 23章結構化決策問題 .. 1065
23.1 決策樹 . 1065
23.1.1 表示... 1065
23.1.2 逆向歸納算法 ... 1067
23.2 影響圖 . 1068
23.2.1 基本描述 ... 1068
23.2.2 決策規則 ... 1070
23.2.3時間與記憶 ... 1071
23.2.4 語義與昀優性準則 ... 1072
23.3 影響圖的逆向歸納 . 1075
23.3.1 影響圖的決策樹 ... 1075
23.3.2 求和-昀大化-求和規則 1077
23.4 期望效用的計算 . 1079
23.4.1 簡單的變量消除 ... 1079
23.4.2 多個效用變量:簡單的方法 ... 1080
23.4.3 廣義變量消除 *. 1081
23.5 影響圖中的昀優化 . 1086
23.5.1 昀優化一個單一的決策規則 ... 1086
23.5.2 迭代優化算法 ... 1087
23.5.3 策略關聯與全局昀優性 *. 1089
23.6 忽略無關的信息 * ... 1097
23.7 信息的價值 . 1100
23.7.1 單一觀察 ... 1100
23.7.2 多重觀察 ... 1103
23.8 小結 . 1105
23.9 相關文獻 . 1106
23.10習題 ... 1108
第 24章結束語 .. 1113
附錄 A背景材料 1117
A.1信息論 .. 1117
A.1.1 壓縮和熵 . 1117
A.1.2 條件熵與信息 . 1119
A.1.3 相對熵和分佈距離 . 1120
A.2收斂界 .. 1123
A.2.1 中心極限定理 . 1124
A.2.2 收斂界 . 1125
A.3算法與算法復雜性 .. 1126
A.3.1 基本圖算法 .. 1126
A.3.2 算法復雜性分析 .. 1127
A.3.3 動態規劃 .. 1129
A.3.4 復雜性理論 .. 1130
A.4組合優化與搜索 .. 1134
A.4.1 優化問題 .. 1134
A.4.2 局部搜索 .. 1134
A.4.3 分支限界搜索 .. 1141
A.5連續昀優化 .. 1142
A.5.1 連續函數昀優解的刻畫 .. 1142
A.5.2 梯度上升方法 .. 1144
A.5.3 約束優化 .. 1148
A.5.4 凸對偶性 .. 1152
參考文獻 1155
符號索引 1191
主題索引 1195