Spark大數據分析實戰
張偉洋
買這商品的人也買了...
-
Cassandra 技術手冊, 2/e (Cassandra: The Definitive Guide, 2/e)$580$458 -
Spark SQL 親自動手做:大數據時代的資料庫處理 (熱銷版)$580$493 -
$354ASP.NET Core 微服務實戰 在雲環境中開發、測試和部署跨平臺服務 (Building Microservices with ASP.NET Core: Develop, Test, and Deploy Cross-Platform Services in the Cloud) -
$352架構師應該知道的 37件事 -
$505MySQL 高可用實踐 -
$594網絡攻防實戰研究:MySQL數據庫安全 -
MySQL 故障排除與效能調校完全攻略 (上)$600$468 -
MySQL 故障排除與效能調校完全攻略 (下)$680$530 -
30天與 Docker 做好朋友:跟鯨魚先生一同探索開發者的大平台(iT邦幫忙鐵人賽系列書)(修訂版)$600$468 -
DevOps: 企業級 CI/CD 實戰$534$507 -
$426Apache ShardingSphere權威指南
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
VIP 95折
深度學習:基礎與概念$1,128$1,072 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
目錄大綱
目 錄
第1章 Spark開發準備——Scala基礎 1
1.1 什麼是SCALA 1
1.2 安裝SCALA 2
1.2.1 在Windows中安裝Scala 2
1.2.2 在CentOS 7中安裝Scala 3
1.3 SCALA基礎 4
1.3.1 變量聲明 4
1.3.2 數據類型 5
1.3.3 表達式 7
1.3.4 循 環 8
1.3.5 方法與函數 10
1.4 集 合 14
1.4.1 數 組 14
1.4.2 List 16
1.4.3 Map映射 17
1.4.4 元 組 19
1.4.5 Set 20
1.5 類和對象 21
1.5.1 類的定義 21
1.5.2 單例對象 22
1.5.3 伴生對象 22
1.5.4 get和set方法 23
1.5.5 構造器 25
1.6 抽象類和特質 28
1.6.1 抽象類 28
1.6.2 特 質 30
1.7 使用ECLIPSE創建SCALA項目 31
1.7.1 安裝Scala for Eclipse IDE 31
1.7.2 創建Scala項目 33
1.8 使用INTELLIJ IDEA創建SCALA項目 33
1.8.1 在IDEA中安裝Scala插件 34
1.8.2 創建Scala項目 37
第2章 初識Spark 40
2.1 大數據開發總體架構 40
2.2 什麼是SPARK 42
2.3 SPARK主要組件 43
2.4 SPARK運行時架構 45
2.4.1 YARN集群架構 45
2.4.2 Spark Standalone架構 49
2.4.3 Spark On YARN架構 50
2.5 SPARK集群搭建與測試 53
2.5.1 Spark Standalone模式的集群搭建 53
2.5.2 Spark On YARN模式的集群搭建 55
2.5.3 Spark HA的搭建 56
2.6 SPARK應用程序的提交 60
2.7 SPARK SHELL的使用 63
第3章 Spark RDD彈性分佈式數據集 66
3.1 什麼是RDD 66
3.2 創建RDD 67
3.2.1 從對象集合創建RDD 67
3.2.2 從外部存儲創建RDD 68
3.3 RDD的算子 69
3.3.1 轉化算子 69
3.3.2 行動算子 77
3.4 RDD的分區 78
3.4.1 分區數量 79
3.4.2 自定義分區器 88
3.5 RDD的依賴 93
3.5.1 窄依賴 94
3.5.2 寬依賴 94
3.5.3 Stage劃分 95
3.6 RDD的持久化 97
3.6.1 存儲級別 98
3.6.2 查看緩存 100
3.7 RDD的檢查點 102
3.8 共享變量 104
3.8.1 廣播變量 104
3.8.2 累加器 106
3.9 案例分析:SPARK RDD實現單詞計數 107
3.10 案例分析:SPARK RDD實現分組求TOPN 116
3.11 案例分析:SPARK RDD實現二次排序 120
3.12 案例分析:SPARK RDD計算成績平均分 124
3.13 案例分析:SPARK RDD倒排索引統計每日新增用戶 126
3.14 案例分析:SPARK RDD讀寫HBASE 130
3.14.1 讀取HBase表數據 131
3.14.2 寫入HBase表數據 134
3.15 案例分析:SPARK RDD數據傾斜問題解決 143
3.15.1 數據傾斜的常用解決方法 144
3.15.2 使用隨機key進行雙重聚合 145
3.15.3 WebUI查看Spark歷史作業 149
第4章 Spark內核源碼分析 151
4.1 SPARK集群啟動原理分析 151
4.2 SPARK應用程序提交原理分析 162
4.3 SPARK作業工作原理分析 175
4.3.1 MapReduce的工作原理 175
4.3.2 Spark作業工作的原理 177
4.4 SPARK檢查點原理分析 191
第5章 Spark SQL結構化數據處理引擎 196
5.1 什麼是SPARK SQL 196
5.2 DATAFRAME和DATASET 197
5.3 SPARK SQL的基本使用 198
5.4 SPARK SQL數據源 201
5.4.1 基本操作 201
5.4.2 Parquet文件 206
5.4.3 JSON數據集 209
5.4.4 Hive表 211
5.4.5 JDBC 213
5.5 SPARK SQL內置函數 214
5.5.1 自定義函數 216
5.5.2 自定義聚合函數 218
5.5.3 開窗函數 220
5.6 案例分析:使用SPARK SQL實現單詞計數 223
5.7 案例分析:SPARK SQL與HIVE整合 228
5.7.1 整合Hive的步驟 228
5.7.2 操作Hive的幾種方式 231
5.8 案例分析:SPARK SQL讀寫MYSQL 233
5.9 案例分析:SPARK SQL每日UV統計 238
5.10 案例分析:SPARK SQL熱點搜索詞統計 241
5.11 綜合案例:SPARK SQL智慧交通數據分析 244
5.11.1 項目介紹 244
5.11.2 數據準備 246
5.11.3 統計正常卡口數量 249
5.11.4 統計車流量排名前3的卡口號 249
5.11.5 統計車輛高速通過的卡口TOP5 250
5.11.6 統計每個卡口通過速度最快的前3輛車 254
5.11.7 車輛軌跡分析 255
第6章 Kafka分佈式消息系統 256
6.1 什麼是KAFKA 256
6.2 KAFKA架構 257
6.3 主題與分區 259
6.4 分區副本 260
6.5 消費者組 262
6.6 數據存儲機制 264
6.7 集群環境搭建 266
6.8 命令行操作 268
6.8.1 創建主題 268
6.8.2 查詢主題 269
6.8.3 創建生產者 269
6.8.4 創建消費者 270
6.9 JAVA API操作 271
6.9.1 創建Java工程 271
6.9.2 創建生產者 271
6.9.3 創建消費者 273
6.9.4 運行程序 275
6.10 案例分析:KAFKA生產者攔截器 277
第7章 Spark Streaming實時流處理引擎 285
7.1 什麼是SPARK STREAMING 285
7.2 SPARK STREAMING工作原理 286
7.3 輸入DSTREAM和RECEIVER 287
7.4 第一個SPARK STREAMING程序 288
7.5 SPARK STREAMING數據源 290
7.5.1 基本數據源 290
7.5.2 高級數據源 292
7.5.3 自定義數據源 293
7.6 DSTREAM操作 297
7.6.1 無狀態操作 297
7.6.2 狀態操作 299
7.6.3 窗口操作 300
7.6.4 輸出操作 302
7.6.5 緩存及持久化 303
7.6.6 檢查點 304
7.7 案例分析:SPARK STREAMING按批次累加單詞數量 306
7.8 案例分析: SPARK STREAMING整合KAFKA計算實時單詞數量 311
7.9 案例分析:SPARK STREAMING實時用戶日誌黑名單過濾 318
7.10 綜合案例:微博用戶行為分析 322
第8章 Structured Streaming結構化流處理引擎 325
8.1 什麼是STRUCTURED STREAMING 325
8.2 STRUCTURED STREAMING單詞計數 326
8.3 STRUCTURED STREAMING編程模型 328
8.4 STRUCTURED STREAMING查詢輸出 330
8.5 STRUCTURED STREAMING窗口操作 334
8.5.1 事件時間 334
8.5.2 窗口聚合單詞計數 335
8.5.3 延遲數據和水印 339
8.6 案例分析:STRUCTURED STREAMING整合KAFKA實現單詞計數 343
第9章 GraphX圖計算引擎 347
9.1 什麼是GRAPHX 347
9.2 第一個GRAPHX程序 348
9.3 GRAPHX數據結構 352
9.4 GRAPHX圖操作 352
9.4.1 基本操作 352
9.4.2 屬性操作 355
9.4.3 結構操作 357
9.4.4 連接操作 359
9.4.5 聚合操作 362
9.5 案例分析:使用GRAPHX計算社交網絡中粉絲的平均年齡 363



