大數據分析與挖掘
雲本勝,張良均
- 出版商: 電子工業
- 出版日期: 2024-02-01
- 定價: $384
- 售價: 8.5 折 $326 (限時優惠至 2024-12-31)
- 語言: 簡體中文
- 頁數: 364
- ISBN: 712147364X
- ISBN-13: 9787121473647
-
相關分類:
大數據 Big-data、Data Science
立即出貨
買這商品的人也買了...
-
$480$379 -
$258$245 -
$332了不起的 Markdown
-
$354$336 -
$880$748 -
$520$406 -
$414$393 -
$611金融中的機器學習
-
$600$570 -
$509深度學習入門與 TensorFlow 實踐
-
$620$465 -
$607利用 Python 實現概率、統計及機器學習方法(原書第2版)
-
$1,014$963 -
$774$735 -
$303Python深度元學習算法
-
$419$398 -
$600$570 -
$458R語言數據分析從入門到精通
-
$834$792 -
$1,015資料分析與預測演算法:基於 R語言
-
$305算法設計與實踐
-
$454深度學習與大模型基礎(簡體書)
-
$301最優化理論與智能算法
-
$300$270 -
$620$490
相關主題
商品描述
本書以大數據分析與挖掘的常用技術與真實案例相結合的方式,按照“概念和原理講解、案例分析、能力拓展——Python 軟件應用”的層次進行闡述,深入淺出地介紹大數據分析與挖掘的重要內容。全書共 11 章,第 1 章作為全書的緒論,介紹了大數據分析與挖掘的基本概念、行業應用等;第2 章介紹了 Python 的安裝、編程基礎以及常用的數據分析工具;第 3 章介紹了數據的類型、質量和相似度與相異度;第 4 章介紹了數據探索的常用方法,包括質量分析、描述性統計分析、可視化分析和多維數據分析;第 5 章介紹了數據預處理的常用方法,包括數據清洗、數據集成、數據歸約和數據變換與離散化;第 6 章介紹了回歸與分類的方法,包括多元線性回歸、邏輯回歸、決策樹分類、樸素貝葉斯分類等;第 7 章介紹了聚類的方法,包括 K-Means 算法、DBSCAN 算法等;第 8 章介紹了關聯規則,包括 Apriori 算法和 FP-Growth 算法等;第 9 章介紹了時間序列,包括平穩時間序列分析和非平穩時間序列分析等;第 10 章介紹了離群點檢測,包括基於統計學、鄰近性、聚類、分類的離群點檢測方法;第 11 章介紹了大數據分析與挖掘的前沿知識。本書大部分章節包含真實案例和課後習題,通過練習和操作實踐,幫助讀者鞏固所學的內容。本書可作為高校數據科學與大數據技術或人工智能相關專業教材,也可作為數據挖掘愛好者的自學用書。
目錄大綱
目 錄
第1章 緒論 001
1.1 大數據分析與挖掘的基本概念 002
1.2 大數據分析與挖掘的行業應用 002
1.3 大數據分析與挖掘的基本任務 004
1.4 大數據分析與挖掘的建模過程 004
1.4.1 明確任務 005
1.4.2 數據採集 005
1.4.3 數據探索 006
1.4.4 數據預處理 006
1.4.5 挖掘建模 007
1.4.6 模型評價 007
1.5 大數據分析與挖掘的建模工具 007
小結 009
習題 009
第2章 Python簡介 011
2.1 Python安裝 012
2.2 Python編程基礎 015
2.2.1 基本命令 016
2.2.2 數據類型 019
2.2.3 運算符 023
2.2.4 函數 027
2.3 Python數據分析工具 029
小結 033
習題 034
第3章 數據 036
3.1 數據類型 037
3.1.1 數據集的類型 037
3.1.2 屬性的定義 039
3.1.3 屬性的分類 040
3.2 數據質量 041
3.3 數據的相似度與相異度度量 042
3.3.1 屬性之間的相似度與相異度 042
3.3.2 數據對象之間的相異度 045
3.3.3 數據對象之間的相似度 049
3.3.4 度量方法的選取 054
小結 055
習題 055
第4章 數據探索 058
4.1 數據質量分析 059
4.1.1 缺失值分析 059
4.1.2 異常值分析 060
4.1.3 一致性分析 063
4.2 數據描述性統計分析 064
4.2.1 集中趨勢度量 065
4.2.2 離散程度度量 066
4.2.3 多元數據統計分析 069
4.3 數據可視化分析 070
4.3.1 可視化技術 070
4.3.2 高維數據可視化 076
4.4 多維數據分析 082
4.4.1 多維數組 082
4.4.2 數據立方體 083
4.4.3 切片與切塊 084
4.4.4 上捲與下鑽 085
4.5 Python數據探索案例分析 086
4.5.1 公共自行車租賃系統數據集 086
4.5.2 數據探索分析 087
小結 092
習題 092
第5章 數據預處理 095
5.1 數據清洗 096
5.1.1 缺失值處理 096
5.1.2 異常值處理 098
5.2 數據集成 100
5.2.1 實體識別 100
5.2.2 數據合並 101
5.2.3 冗餘屬性識別 104
5.3 數據歸約 106
5.3.1 抽樣 106
5.3.2 採樣 106
5.3.3 屬性子集選擇 108
5.4 數據變換與離散化 110
5.4.1 數據規範化 110
5.4.2 簡單函數變換 112
5.4.3 屬性構造 113
5.4.4 連續屬性離散化 114
5.5 Python數據預處理案例分析 116
5.5.1 案例背景 116
5.5.2 城市春運出行數據說明 116
5.5.3 數據預處理 117
小結 125
習題 126
第6章 回歸與分類 128
6.1 基本概念 130
6.1.1 回歸概述 131
6.1.2 分類概述 131
6.2 回歸分析 131
6.2.1 一元線性回歸 132
6.2.2 多元線性回歸 134
6.2.3 多項式回歸 142
6.2.4 邏輯回歸 145
6.3 決策樹分類 148
6.3.1 決策樹基本原理 148
6.3.2 建立決策樹 149
6.3.3 決策樹算法 151
6.3.4 隨機森林算法 155
6.4 樸素貝葉斯分類 157
6.4.1 樸素貝葉斯模型基本原理 157
6.4.2 樸素貝葉斯模型代碼實現 160
6.5 K最近鄰分類 161
6.5.1 K最近鄰分類基本原理 162
6.5.2 K最近鄰分類代碼實現 163
6.6 支持向量機 164
6.6.1 支持向量機基本原理 164
6.6.2 數據線性可分的情況 165
6.6.3 數據線性不可分的情況 166
6.7 神經網絡 169
6.7.1 神經網絡基本概念 169
6.7.2 BP神經網絡算法 170
6.8 回歸與分類的評估方法 174
6.8.1 回歸的評估方法 174
6.8.2 分類的評估方法 175
6.8.3 提高類不平衡數據的分類準確率 178
6.9 集成學習技術 178
6.9.1 集成學習方法概述 178
6.9.2 Bagging 179
6.9.3 Stacking 179
6.9.4 Boosting 180
6.10 Python回歸與分類案例分析 182
6.10.1 回歸案例分析 182
6.10.2 分類案例分析 185
小結 188
習題 189
第7章 聚類 193
7.1 基本概念 194
7.2 劃分聚類 194
7.2.1 K-Means算法 195
7.2.2 K-中心點算法 200
7.3 層次聚類 206
7.3.1 凝聚的層次聚類 207
7.3.2 分裂的層次聚類 207
7.3.3 簇間距離度量方法 208
7.3.4 不同距離度量的層次聚類 210
7.4 基於密度的聚類方法 214
7.4.1 基於中心方法的密度定義 215
7.4.2 DBSCAN算法 216
7.5 概率模型聚類 222
7.5.1 模糊簇 222
7.5.2 概率模型聚類步驟 223
7.5.3 期望最大化算法 223
7.6 聚類評估 226
7.6.1 估計聚類趨勢 226
7.6.2 確定正確的簇的個數 228
7.6.3 聚類質量評估 229
7.7 Python聚類案例分析 232
7.7.1 數據說明 232
7.7.2 數據預處理 233
7.7.3 構建聚類模型 236
小結 239
習題 239
第8章 關聯規則 243
8.1 基本概念 244
8.1.1 基本元素的概念 244
8.1.2 閉頻繁項集和極大頻繁項集 249
8.2 Apriori算法 252
8.2.1 Apriori算法簡介 252
8.2.2 改進的Apriori算法 256
8.3 FP-Growth算法 257
8.3.1 FP-Growth算法的實現過程 257
8.3.2 使用FP-Growth算法實現新聞網站點擊數據頻繁項集挖掘 261
8.4 關聯規則評估方法 262
8.4.1 關聯規則興趣度評估 262
8.4.2 關聯規則相關度評估 264
8.4.3 其他評估度量方法 264
8.5 多維關聯規則挖掘 265
8.6 多層關聯規則挖掘 266
8.7 Python關聯規則案例分析 268
8.7.1 基於Apriori算法實現電影觀看規則挖掘 268
8.7.2 基於FP-Growth算法實現商品購買規則挖掘 274
小結 278
習題 278
第9章 時間序列 282
9.1 時間序列基本概念 283
9.1.1 特徵統計量 283
9.1.2 時間序列的特點 284
9.2 時間序列預處理 285
9.2.1 平穩性 285
9.2.2 白噪聲 287
9.3 平穩時間序列分析 288
9.3.1 AR模型 288
9.3.2 MA模型 289
9.3.3 ARMA模型 289
9.3.4 平穩時間序列建模 290
9.4 非平穩時間序列分析 291
9.4.1 差分運算 291
9.4.2 ARIMA模型 292
9.5 Python時間序列案例分析 300
9.5.1 背景與目標 300
9.5.2 數據預處理 301
9.5.3 分析建模 303
小結 305
習題 306
第10章 離群點檢測 309
10.1 離群點概述 310
10.2 離群點檢測方法 311
10.2.1 基於統計學的方法 311
10.2.2 基於鄰近性的方法 317
10.2.3 基於聚類的方法 321
10.2.4 基於分類的方法 324
10.3 高維數據中的離群點檢測 327
10.3.1 擴充的傳統離群點檢測 327
10.3.2 發現子空間中的離群點 328
10.3.3 高維離群點建模 329
10.4 Python離群點檢測案例分析 330
10.4.1 背景與目標 330
10.4.2 使用LOF算法進行離群點檢測 330
10.4.3 繪制離群點檢測圖 331
小結 333
習題 334
第11章 大數據分析與挖掘的發展前沿 336
11.1 復雜的大數據挖掘 337
11.1.1 復雜的數據 337
11.1.2 復雜的挖掘方式 338
11.2 大數據挖掘與人工智能 340
11.2.1 深度學習 340
11.2.2 知識圖譜 341
11.2.3 遷移學習 344
11.2.4 強化學習 345
11.2.5 聯邦學習 347
小結 348
習題 348
參考文獻 350