數據挖掘算法與應用(Python實現)(第2版)

孫家澤、路龍賓

  • 出版商: 清華大學
  • 出版日期: 2026-03-01
  • 售價: $419
  • 語言: 簡體中文
  • 頁數: 313
  • ISBN: 7302709769
  • ISBN-13: 9787302709763
  • 相關分類: Data-mining
  • 下單後立即進貨 (約4週~6週)

  • 數據挖掘算法與應用(Python實現)(第2版)-preview-1
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-2
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-3
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-4
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-5
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-6
  • 數據挖掘算法與應用(Python實現)(第2版)-preview-7
數據挖掘算法與應用(Python實現)(第2版)-preview-1

相關主題

商品描述

"隨著人工智能的飛速發展,特別是大語言模型的廣泛應用,結合教學實踐的反饋,本書在第1版基礎上進行全面修訂,系統介紹數據挖掘經典算法和機器學習主流算法,並為經典算法、應用案例和實驗題目均提供相關實驗數據和Python代碼實現,特別是大模型在數據挖掘中的應用。通過經典算法、大模型應用、Python實現和實際項目應用“四位一體”,強化數據挖掘和機器學習算法的理解和掌握,對經典算法做到“精”和“通”。全書共13章,大致分為3部分,第1部分(第1~6章)介紹數據挖掘的基礎知識(數據挖掘過程、數據探索和數據預處理)和經典算法(關聯規則、聚類、分類等);第2部分(第7~9章)介紹機器學習的經典算法(集成學習、神經網絡與深度學習、強化學習);第3部分(第10~13章)是算法應用部分,介紹4個真實案例,包括大語言模型及微調技術、阿裏百煉平臺和華為雲ModelArts平臺的大語言模型微調技術及情感識別分類應用等。   本書作為高等院校信息類以及相關專業的高年級本科生和研究生教材,也可供對數據挖掘、機器學習和大語言模型感興趣的工程技術人員閱讀參考。 "

目錄大綱

     第1章  數據挖掘導論??/?1

           1.1  為什麼進行數據挖掘 2

           1.1.1  數據挖掘起源 2

           1.1.2  數據挖掘是數據處理的高級階段 4

           1.2  什麼是數據挖掘 5

           1.2.1  廣義技術角度定義 5

           1.2.2  狹義技術角度定義 6

           1.2.3  商業角度定義 6

           1.2.4  數據挖掘、機器學習、人工智能的關系 7

           1.3  挖掘什麼類型數據 8

           1.3.1  數據庫數據 8

           1.3.2  數據倉庫 9

           1.3.3  事務數據 10

           1.3.4  其他類型數據 10

           1.4  挖掘到什麼知識 12

           1.4.1  廣義知識 12

           1.4.2  關聯知識 13

           1.4.3  聚類知識 14

           1.4.4  分類知識 14

           1.4.5  預測型知識 15

           1.4.6  偏差型知識 15

           1.4.7  有價值的知識 16

           1.5  數據挖掘方法 16

           1.5.1  統計學 16

           1.5.2  機器學習 17

           1.5.3  智能優化方法 19

           1.6  數據挖掘過程 20

           1.6.1  Fayyad數據挖掘模型 20

           1.6.2  數據挖掘工作量 22

           1.6.3  數據挖掘人員分類 22

1.7  數據挖掘應用 22

1.7.1  數據挖掘在市場營銷的應用 23

1.7.2  數據挖掘在軟件工程中的應用 24

1.8  數據挖掘隱私權保護 26

1.8.1  隱私權侵犯的表現 27

1.8.2  保護隱私權的對策 28

1.8.3  隱私加密 29

1.9  課程學習 30

1.9.1  數據挖掘學習 30

1.9.2  開源數據挖掘工具 31

1.9.3  經典測試數據集 32

1.9.4  著名國際會議和期刊 33

實驗 34

習題 36

第2章?數據探索與預處理??/?37

2.1  數據屬性類型 37

2.1.1  標稱屬性 38

2.1.2  序數屬性 38

2.1.3  數值屬性 38

2.1.4  離散屬性與連續屬性 39

2.2  數據的統計描述 39

2.2.1  中心趨勢度量:均值、中位數和眾數 39

2.2.2  度量數據散布 41

2.3  統計描述圖形 42

2.4  數據相似性度量 47

2.4.1  數據矩陣與相異性矩陣 47

2.4.2  標稱屬性的相異性度量 48

2.4.3  二元屬性的相異性度量 48

2.4.4  數值屬性的相異性 50

2.4.5  序數屬性的鄰近性度量 52

2.5  數據清洗 53

2.5.1  缺失值 53

2.5.2  噪聲數據處理 57

2.5.3  異常值處理 60

2.6  數據集成 62

2.6.1  實體識別問題 62

2.6.2  冗余和相關分析 62

2.6.3  數據值沖突的檢測與處理 65

2.7  數據變換 65

2.7.1  數據變換策略概述 65

2.7.2  數據規範化 66

2.8  數據歸約 67

2.8.1  數值歸約 68

2.8.2  屬性歸約 70

實驗 76

習題 78

第3章?關聯規則挖掘??/?79

3.1  基本概念 79

3.2  Apriori算法 81

3.2.1  Apriori算法概述 82

3.2.2  Apriori算法的例子 86

3.2.3  Apriori算法總結 88

3.3  關聯規則評價 89

實驗 91

習題 92

第4章?聚類分析??/?94

4.1  聚類分析概述 94

4.2  基於劃分的方法 94

4.2.1  K-means算法 95

4.2.2  K-medoids算法 98

4.3  基於層次的方法 99

4.3.1  AGNES算法 101

4.3.2  DIANA算法 102

4.4  基於密度的方法 103

4.5  聚類圖數據 106

4.5.1  聚類圖數據度量 106

4.5.2  復雜網絡 109

4.6  聚類評估 111

4.6.1  估計聚類趨勢 112

4.6.2  確定簇數 113

4.6.3  測定聚類質量 113

實驗 120

習題 120

 

 

第5章?線性模型??/?122

5.1  基本形式 122

5.2  線性回歸 123

5.3  線性分類 126

5.4  多分類策略 129

實驗 131

習題 132

第6章?分類??/?133

6.1  基本概念 133

6.1.1  什麼是分類 133

6.1.2  分類的過程 134

6.1.3  分類器常見構造方法 136

6.2  基於距離的分類——KNN分類 136

6.2.1  KNN算法步驟 137

6.2.2  KNN算法的優缺點 138

6.3  貝葉斯分類 138

6.3.1  貝葉斯理論 138

6.3.2  樸素貝葉斯分類 140

6.3.3  樸素貝葉斯分類算法的優缺點 141

6.4  支持向量機 142

6.4.1  SVM基本概念 142

6.4.2  感知機模型 142

6.4.3  支持向量機數學模型 143

6.4.4  SVM算法實例 147

6.4.5  SVM算法優缺點 148

6.5  決策樹 149

6.5.1  相關定義 149

6.5.2  ID3算法原理 151

6.5.3  ID3算法實例 152

6.5.4  ID3優缺點 155

6.5.5  C4.5算法原理 156

6.5.6  C4.5算法實例 156

6.5.7  C4.5算法的優缺點 161

6.5.8  兩種算法的比較 161

6.6  分類算法評價 162

6.6.1  常用術語 162

6.6.2  評價指標 163

6.6.3  分類器性能的表示 164

6.6.4  分類器性能的評估方法 167

實驗 168

習題 169

第7章?集成學習??/?171

7.1  基本概念 171

7.1.1  集成是什麼 171

7.1.2  集成學習過程 172

7.2  Bagging與隨機森林 173

7.2.1  Bagging 173

7.2.2  隨機森林 174

7.3  Boosting與AdaBoost 181

7.3.1  Boosting 181

7.3.2  AdaBoost 182

7.4  集成多樣性與評價 196

7.4.1  集成多樣性 196

7.4.2  評價 198

實驗 198

習題 198

第8章?神經網絡與深度學習??/?199

8.1  神經網絡 199

8.1.1  神經元 200

8.1.2  激活函數 200

8.1.3  網絡結構 202

8.1.4  神經網絡算法的訓練過程 203

8.1.5  神經網絡架構類型 207

8.2  卷積神經網絡 208

8.2.1  卷積及卷積層 208

8.2.2  匯聚層 211

8.2.3  幾種典型的卷積神經網絡 212

8.3  循環神經網絡 218

8.3.1  基礎的循環神經網絡 218

8.3.2  基於門控的循環神經網絡 220

8.3.3  RNN的幾種常見結構 223

8.4  自註意力機制Transformer模型 224

8.4.1  自註意力機制 224

8.4.2  Transformer模型 226

實驗 229

習題 230

第9章?強化學習??/?231

9.1  強化學習概述 231

9.1.1  強化學習在機器學習中的地位 231

9.1.2  強化學習的智能體——環境交互 232

9.1.3  強化學習的發展與應用 232

9.2  馬爾可夫決策過程 233

9.3  動態規劃 239

9.3.1  策略疊代算法 240

9.3.2  價值疊代算法 240

9.4  蒙特卡洛 241

9.5  時間差分算法 241

9.6  強化學習算法舉例 242

9.6.1  Q-Learning算法 242

9.6.2  SARSA算法 245

9.6.3  DQN算法 247

實驗 249

習題 250

第10章?大語言模型及微調技術??/?251

10.1  大語言模型基本概念 251

10.2  大語言模型與生成式人工智能的關系 251

10.3  大模型發展歷程 252

10.4  大模型微調技術 252

10.5  阿裏百煉平臺 255

10.5.1  阿裏百煉介紹 255

10.5.2  接入阿裏百煉 255

10.5.3  模型微調及部署 256

10.6  華為雲ModelArts平臺 258

10.7  情感識別分類應用 260

10.7.1  數據源 260

10.7.2  數據預處理 260

10.7.3  模型微調及部署 262

實驗 273

第11章?基於LLM的航空公司價值客戶分析??/?275

11.1  背景與挖掘目標 275

11.2  分析方法與過程 275

11.2.1  數據抽取 277

11.2.2  數據探索分析 278

11.2.3  數據預處理 279

11.2.4  模型構建 282

11.2.5  模型檢驗 284

11.3  拓展思考 285

小結 286

第12章?泰坦尼克號乘客生存預測??/?287

12.1  背景與挖掘目標 287

12.2  分析方法與過程 287

12.2.1  數據抽取 288

12.2.2  數據探索與分析 288

12.2.3  數據預處理 291

12.2.4  模型構建 294

12.2.5  模型檢驗 296

實驗 297

第13章?關聯規則電影推薦??/?299

13.1  數據源 299

13.2  數據探索 300

13.2.1  異常值分析 301

13.2.2  周期性分析 302

13.2.3  統計量分析 303

13.3  數據預處理 304

13.3.1  數據加載 304

13.3.2  缺失值處理 305

13.3.3  異常值處理 306

13.4  數據挖掘 306

13.5  算法評估 307

13.6  主要代碼 309

13.6.1  頻繁項集生成代碼 309

13.6.2  關聯規則生成代碼 311

13.6.3  電影推薦代碼 312

實驗 313

  

  

IV

數據挖掘算法與應用(Python實現)(第2版)

  

V

目??錄