Spark機器學習技術及應用
遲殿委,侯愛玲
- 出版商: 清華大學
- 出版日期: 2025-05-01
- 售價: $330
- 語言: 簡體中文
- ISBN: 7302688842
- ISBN-13: 9787302688846
-
相關分類:
Spark、Machine Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"本書是基於Spark ML和Scala語言編寫的機器學習實戰書籍,基於目前新版本的Spark框架展開,內容包括機器學習準備、機器學習核心應用、綜合項目提升三部分。首先是機器學習準備部分,包括第1~4章,分別介紹了大數據與Spark的基礎知識、Spark安裝和開發環境配置、Scala編程基礎、Spark數據結構基礎。然後是機器學習核心應用部分,包括第5~10章,分別介紹了Spark機器學習基礎、線性回歸及應用、分類算法及應用、數據降維及應用、聚類算法及應用、關聯規則挖掘算法及應用。最後的綜合項目提升部分包括第11和第12兩章,分別通過綜合實戰項目案例進行鞏固提升。 本書配套較豐富的實戰案例,並為案例提供了詳細的操作步驟。另外,本書配套了程序源代碼和PPT等。本書可作為從事大數據分析和人工智能工作的工程師的參考用書,也可作為高等學校計算機科學與技術、軟件工程、數據科學與大數據技術、智能科學與技術、人工智能等專業的大數據課程教材。 "
目錄大綱
目錄
第1章大數據與Spark/1
1.1什麼是大數據/1
1.2大數據的來源和數據分析的關鍵要素/2
1.3Spark概述/3
1.4Spark 機器學習庫/4
1.5Spark前景/6
小結/6
第2章Spark 3.5安裝和開發環境配置/7
2.1Spark的運行模式概述 /7
2.2單機模式下Spark環境安裝與配置/9
2.2.1Java 8安裝/9
2.2.2Scala安裝/12
2.2.3IntelliJ IDEA開發環境安裝/14
2.2.4Scala插件的安裝/15
2.2.5編寫Java程序/18
2.2.6編寫Scala程序/21
2.2.7Spark 3.5單機版安裝/23
2.3wordCount實例/26
2.3.1Spark 3.5實現wordCount/26
2.3.2MapReduce實現wordCount/28
小結/30
第3章Scala編程基礎/31
3.1基礎語法/31
3.2函數/34
3.3控制語句/36
3.4函數式編程/39
3.5模式匹配/44
3.6類和對象/46
3.7Scala 異常處理/49
3.8Trait(特征)/51
3.9Scala文件I/O/52
小結/53
第4章Spark數據結構基礎/54
4.1RDD概述/54
4.1.1常見的轉換算子/55
4.1.2常見的行動算子/59
4.2DataFrame概述/62
4.2.1DataFrame簡介/62
4.2.2DataFrame的特性/63
4.2.3DataFrame與DataSet的差異/64
4.2.4DataFrame的缺點/65
4.3DataFrame工作機制/65
4.3.1DataFrame本質/65
4.3.2寬依賴與窄依賴/65
4.4DataFrame實戰詳解/66
4.4.1創建 DataFrame/66
4.4.2提前計算的cache()方法/69
4.4.3用於列篩選的select()和selectExpr()方法/70
4.4.4DataFrame的收集行collect()方法/71
4.4.5DataFrame計算行數count()方法/72
4.4.6DataFrame限制輸出limit()方法/73
4.4.7除去數據集中重復項的distinct()方法/73
4.4.8過濾數據的filter()方法/74
4.4.9以整體數據為單位操作數據的flatMap()方法/75
4.4.10以單個數據為目標進行操作的map()方法/75
4.4.11分組數據的groupBy()和agg()方法/76
4.4.12刪除數據集中某列的drop()方法/77
4.4.13隨機采樣方法和隨機劃分方法/77
4.4.14排序類型操作的sort()和orderBy()方法/79
4.4.15DataFrame和DataSet以及RDD之間的相互轉換/80
小結/80
第5章Spark機器學習基礎/81
5.1機器學習概述/81
5.1.1機器學習介紹/81
5.1.2機器學習架構和分類/82
5.2ML基本數據類型/85
5.2.1數據類型/85
5.2.2機器學習工作流程之管道技術/86
5.2.3管道中的主要概念/86
5.3ML數學基礎/87
5.3.1統計指標/87
5.3.2統計量基本數據/87
5.3.3距離計算/89
5.3.4兩組數據相關系數計算/90
5.3.5分層抽樣/93
5.3.6假設檢驗/94
5.3.7隨機數/96
小結/96
第6章線性回歸及應用/97
6.1線性回歸理論/97
6.2回歸算法的評價指標/99
6.3梯度下降算法/99
6.3.1算法理解/100
6.3.2SGD算法理論/101
6.3.3SGD算法實戰/101
6.4過擬合/102
6.4.1過擬合產生的原因/103
6.4.2常見線性回歸正則化方法/103
6.5線性回歸實戰/104
6.5.1線性回歸程序/104
6.5.2廣義線性回歸/106
小結/108第7章分類算法及應用/109
7.1邏輯回歸理論與應用/109
7.1.1算法理論知識/109
7.1.2二分類算法實戰/110
7.1.3多分類算法實戰/112
7.2SVM理論及應用/115
7.2.1算法理論知識/115
7.2.2SVM算法實戰/117
7.3樸素貝葉斯分類及應用/120
7.3.1算法理論/120
7.3.2樸素貝葉斯實戰應用/121
7.4決策樹分類及應用/124
7.4.1算法理論/124
7.4.2ID3算法基礎/125
7.4.3決策樹算法實戰/128
小結/131
第8章數據降維及應用/132
8.1數據降維概述/132
8.2PCA降維算法/133
8.2.1PCA算法理論/133
8.2.2PCA算法實戰/135
8.3SVD算法/136
8.3.1SVD理論/136
8.3.2SVD實戰應用/137
小結/138
第9章聚類算法及應用/139
9.1聚類理論基礎/139
9.2Kmeans算法基礎及應用/140
9.2.1Kmeans算法理論/140
9.2.2Kmeans算法實戰/141
9.3高斯混合聚類/143
9.3.1高斯聚類理論/143
9.3.2高斯混合聚類應用/145
9.4快速疊代聚類/146
9.4.1快速疊代聚類理論基礎/146
9.4.2PIC實戰/146
小結/148
第10章關聯規則挖掘算法及應用/149
10.1關聯規則挖掘算法理論/149
10.1.1大數據關聯規則挖掘常識/149
10.1.2經典的Apriori算法/150
10.1.3FPgrowth算法/151
10.2關聯規則挖掘算法實戰/153
小結/155
第11章文本分類項目實戰/156
11.1詞向量化技術/156
11.1.1文本向量化理論/156
11.1.2Word2Vec詞向量化實例/158
11.2多層感知器/159
11.3文本分類實戰/160
小結/162
第12章電影分析項目實戰 /163
12.1項目介紹/163
12.1.1數據集介紹/163
12.1.2需求分析/164
12.2數據統計分析模塊實現/164
12.2.1公共代碼開發/164
12.2.2需求1實現及結果/167
12.2.3需求2實現及結果/170
12.2.4需求3實現及結果/173
12.3機器學習影片推薦模塊實現/175
12.3.1協同過濾概述/176
12.3.2關於物品間相似度計算/177
12.3.3關於ALS算法中的最小二乘法/178
12.3.4基於ALS算法影片推薦實戰/178
小結/183