數據挖掘( 2版)
劉鵬
- 出版商: 電子工業
- 出版日期: 2023-05-01
- 定價: $528
- 售價: 8.5 折 $449
- 語言: 簡體中文
- 頁數: 308
- 裝訂: 平裝
- ISBN: 7121455021
- ISBN-13: 9787121455025
-
相關分類:
Python、程式語言、大數據 Big-data
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$250Maven 應用實戰
-
$294$279 -
$352Apache Kafka 2.0 入門與實踐
-
$454數據中台:讓數據用起來
-
$454超大流量分佈式系統架構解決方案:人人都是架構師2.0
-
$474$450 -
$352數據倉庫, 4/e (Building the Data Warehouse, 4/e)
-
$1,000$780 -
$414$393 -
$505編程的邏輯:如何用面向對象方法實現復雜業務需求
-
$505標簽類目體系:面向業務的數據資產設計方法論
-
$454大數據分析師面試筆試寶典
-
$768$730 -
$556價值驅動:數據分析價值邏輯與實戰方法
相關主題
商品描述
本書是《數據挖掘》的2版,系統地介紹了數據挖掘的理論、方法與應用,包括數據特徵分析及預處理、
經典數據挖掘算法(分類、回歸、聚類、關聯規則和集成學習等)、大數據新常態下催生的數據分析方法
( 系統、鏈接分析與網頁排序、互聯網信息抽取、日誌挖掘與查詢分析等)理論與方法。
在此基礎上,除1章外,每章均有基於Python語言的實例應用。
目錄大綱
1章緒論1
1.1 數據挖掘的基本概念1
1.1.1 數據挖掘的概念1
1.1.2 大數據環境下的數據挖掘2
1.1.3 數據挖掘的特性3
1.1.4 數據挖掘的任務和功能3
1.1.5 數據挖掘的對象4
1.1.6 數據挖掘的過程5
1.2 數據挖掘的起源及發展6
1.3 數據挖掘的常用工具9
1.3.1 商用工具9
1.3.2 開源工具10
1.4 數據挖掘的應用12
習題15
參考文獻16
2章數據特徵分析及預處理17
2.1 數據類型17
2.1.1 屬性與度量17
2.1.2 數據集的類型18
2.2 數據特徵分析19
2.2.1 描述數據集中趨勢的度量19
2.2.2 描述數據離散程度的度量21
2.2.3 數據相關性分析24
2.3 數據預處理28
2.3.1 數據清洗28
2.3.2 數據集成34
2.3.3 數據規範化34
2.3.4 數據規約38
2.3.5 數據離散化45
2.4 數據的相似性47
2.4.1 數值屬性的相似性度量47
2.4.2 標稱屬性的相似性度量49
2.4.3 組合異種屬性的相似性度量50
2.4.4 文本的相似性度量52
2.4.5 離散序列的相似性度量53
習題55
參考文獻56
3章分類57
3.1 分類概述58
3.1.1 分類的基本概念58
3.1.2 分類的過程58
3.1.3 分類器性能的評估方法59
3.2 決策樹61
3.2.1 決策樹的基本概念62
3.2.2 決策樹的用途和特性62
3.2.3 決策樹的工作原理63
3.2.4 決策樹的構建步驟64
3.2.5 決策樹算法原理65
3.3 貝葉斯分類76
3.3.1 貝葉斯定理76
3.3.2 樸素貝葉斯分類77
3.3.3 貝葉斯分析80
3.3.4 貝葉斯決策80
3.3.5 貝葉斯估計81
3.4 支持向量機81
3.4.1 支持向量機的主要思想82
3.4.2 支持向量機的基礎理論82
3.4.3 支持向量機的原理87
3.5 實戰:Python支持向量機分類92
習題95
參考文獻95
4章回歸98
4.1 回歸的基本概念99
4.1.1 回歸分析的定義99
4.1.2 回歸分析的步驟99
4.1.3 回歸分析要注意的問題100
4.2 一元回歸分析100
4.2.1 一元回歸分析的模型設定100
4.2.2 回歸參數的小二乘估計102
4.2.3 基本假設下OLS估計的統計性質104
4.2.4 誤差方差估計105
4.2.5 回歸係數檢驗(t檢驗) 106
4.2.6 擬合優度和模型檢驗(F檢驗) 107
4.3 多元線性回歸分析108
4.3.1 多元線性回歸模型108
4.3.2 多元線性回歸模型的假定110
4.3.3 多元線性回歸模型的參數估計110
4.3.4 顯著性檢驗112
4.3.5 回歸變量的選擇與逐步回歸114
4.4 邏輯回歸分析116
4.4.1 邏輯回歸模型116
4.4.2 logit變換117
4.4.3 估計回歸係數118
4.4.4 Logistic分佈118
4.4.5 列聯表的Logistic回歸模型119
4.5 其他回歸分析120
4.5.1 多項式回歸120
4.5.2 逐步回歸120
4.5.3 嶺回歸120
4.5.4 套索回歸121
4.5.5 彈性網絡122
4.6 實戰:獲得大有效率時的藥物用量122
習題127
參考文獻128
5章聚類129
5.1 聚類基本概念129
5.2 劃分聚類方法131
5.2.1 k-平均算法132
5.2.2 k-中心點算法134
5.3 層次聚類方法137
5.3.1 層次聚類方法的分類137
5.3.2 BIRCH算法141
5.4 密度聚類方法144
5.5 實戰:Python聚類分析147
5.5.1 Python實現k-均值劃分聚類147
5.5.2 Python實現BIRCH層次聚類150
5.5.3 Python實現DBSCAN密度聚類152
習題153
參考文獻154
6章關聯規則155
6.1 基本概念155
6.1.1 啤酒與尿布的經典案例155
6.1.2 關聯規則的概念155
6.1.3 頻繁項集的產生159
6.2 Apriori算法:通過限制候選產生髮現頻繁項集160
6.2.1 Apriori算法的頻繁項集產生160
6.2.2 Apriori算法描述162
6.3 FP-growth算法164
6.3.1 構造FP樹165
6.3.2 挖掘FP樹167
6.3.3 FP-growth算法169
6.4 其他關聯規則算法170
6.4.1 約束性關聯規則170
6.4.2 增量式關聯規則171
6.4.3 多層關聯規則172
6.5 實戰:購物籃關聯規則挖掘174
6.5.1 背景與挖掘目標174
6.5.2 分析方法與過程174
6.5.3 總結176
習題177
參考文獻177
7章集成學習180
7.1 集成學習的概念180
7.1.1 集成學習的構建180
7.1.2 集成學習的優勢181
7.2 Bagging算法與隨機森林算法183
7.2.1 Bagging算法基本思想183
7.2.2 Bagging算法流程185
7.2.3 隨機森林算法185
7.3 Boosting算法187
7.3.1 Boosting算法流程187
7.3.2 Boosting系列算法188
7.4 結合策略189
7.4.1 投票方法189
7.4.2 疊加方法190
7.5 多樣性190
7.5.1 多樣性的概念190
7.5.2 多樣性的作用191
7.5.3 多樣性的度量192
7.5.4 多樣性的構建195
7.6 實戰案例196
7.6.1 鳶尾花數據集197
7.6.2 集成學習算法198
7.6.3 集成學習在鳶尾花數據集上的應用200
7.7 本章小結205
習題205
參考文獻205
8章系統206
8.1 系統概述206
8.1.1 什麼是系統206
8.1.2 系統評測指標207
8.1.3 系統中的冷啟動210
8.2 基於內容的213
8.2.1 物品表示214
8.2.2 物品相似度217
8.2.3 用戶對物品的評分218
8.2.4 基於向量空間模型的218
8.3 協同過濾222
8.3.1 協同過濾的基本概念222
8.3.2 基於用戶的協同過濾226
8.3.3 基於物品的協同過濾228
8.3.4 隱語義模型和矩陣因子分解模型230
8.4 基於標籤的237
8.4.1 數據標註與關鍵詞提取238
8.4.2 標籤分類239
8.4.3 基於標籤的系統原理240
8.5 實戰:搭建一個電影系統243
8.5.1 數據準備與導入243
8.5.2 電影熱度值計算244
8.5.3 電影相似度計算244
8.5.4 標籤下的電影統計248
習題250
參考文獻250
9章互聯網數據挖掘253
9.1 鏈接分析與網頁排序253
9.1.1 PageRank 253
9.1.2 PageRank的快速計算259
9.1.3 面向主題的PageRank 260
9.1.4 時間序列分析260
9.1.5 排序背後的機理探討262
9.1.6 重新思考時間序列263
9.2 互聯網信息抽取264
9.2.1 互聯網信息深度挖掘概述264
9.2.2 典型應用模型構建264
9.2.3 挖掘、存儲與網絡技術分析265
9.2.4 數據信息採集管理266
9.2.5 信息抽取方法與知識發現267
9.2.6 智能決策269
9.2.7 行業案例研究270
9.3 日誌挖掘與查詢分析272
9.3.1 互聯網日誌分析概述272
9.3.2 挖掘分析技術方法274
9.3.3 工具比較275
9.3.4 海量數據挖掘過程展現與分析276
9.3.5 行業應用舉例277
9.4 Python實戰案例280
9.4.1 PageRank Python實現280
9.4.2 跨境電商運營潛在市場選擇282
9.4.3 天池“ ”日誌數據挖掘示例286
習題290
參考文獻290