Spark大數據分析入門與實戰(Scala版)

陳靜,張兵,李方

  • 出版商: 電子工業
  • 出版日期: 2025-06-01
  • 售價: $264
  • 語言: 簡體中文
  • 頁數: 168
  • ISBN: 7121507269
  • ISBN-13: 9787121507267
  • 相關分類: Spark大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

相關主題

商品描述

《Spark大數據分析入門與實戰(Scala版)》是一本系統且實用的大數據技術學習指南,全面覆蓋了Spark的核心知識和應用場景。全書圍繞“項目驅動、任務導向”的理念,設計了7個學習情境,分別涉及Spark環境搭建、Scala程序編寫與數據處理、Spark RDD和Spark SQL的綜合應用、流數據處理及機器學習模型的實現,逐步引導讀者掌握從數據加載、清洗到分析和模型構建的完整流程。本書的亮點在於註重實踐,通過大量實戰案例,包括電商數據分析、用戶行為預測等典型場景,幫助讀者將理論知識轉化為實際能力。同時,書中提供了詳盡的Windows開發環境配置指南、配套代碼、數據集等資源,使讀者能夠快速上手,降低學習門檻。本書特別適合高職高專學生學習,內容編排符合高職高專學生的學習特點,以易理解、可操作為原則,通過循序漸進的案例教學和項目實踐,幫助學生在實踐中鞏固知識、提升技能。此外,無論您是大數據技術、計算機應用技術、人工智能技術應用等相關專業的學生,還是希望拓展技能的技術從業者,這本書都將成為您學習Spark和大數據技術的理想參考教材,也是大數據技術愛好者自學的良好選擇。

目錄大綱

學習情境1 初識Spark與環境部署
任務1.1 Spark概述
1.1.1 認識大數據
1.1.2 Spark的發展
1.1.3 Spark的特點
1.1.4 Spark的應用
任務1.2 Spark運行機制
1.2.1 Spark生態系統
1.2.2 Spark的運行架構與流程
1.2.3 Spark與Hadoop比較
任務1.3 Spark安裝與配置
1.3.1 Spark部署模式
1.3.2 Spark本地模式與環境搭建
任務1.4 體驗第1個Spark程序
1.4.1 運行Spark-Shell程序
1.4.2 編寫WordCount程序
學習小結
學習考核
拓展任務
評價反饋
學習情境2 編寫Scala程序分析IP地址
任務2.1 初識Scala
2.1.1 Scala簡介
2.1.2 Scala特性
2.1.3 運行Scala
任務2.2 定義函數轉換IP地址
2.2.1 數據類型
2.2.2 變量與常量
2.2.3 Scala中的運算符
2.2.4 表達式
2.2.5 數組
2.2.6 函數
2.2.7 使用函數將IP地址轉換為長整數
任務2.3 計算訪問者歸屬地
2.3.1 if條件語句
2.3.2 循環語句
2.3.3 定義二分法查找函數
任務2.4 整理IP地址規則
2.4.1 元組
2.4.2 List
2.4.3 Set
2.4.4 Map
2.4.5 高階函數
2.4.6 文件的讀寫
2.4.7 定義函數整理IP規則
2.4.8 計算IP地址歸屬地
任務2.5 編寫IP地址歸屬地信息查詢程序
2.5.1 類與對象
2.5.2 Scala模式匹配
學習小結
學習考核
拓展任務
評價反饋
學習情境3 Spark RDD分析某電商網站訪問日誌
任務3.1 根據訪問日誌創建RDD
3.1.1 認識RDD
3.1.2 創建RDD
任務3.2 分析某電商網站訪問量最多的用戶ID
3.2.1 轉換算子
3.2.2 行動算子
3.2.3 鍵值對RDD
任務3.3 識別該電商網站加載慢的頁面
任務3.4 獲取該電商網站活躍用戶的詳細信息
3.4.1 讀/寫文本文件
3.4.2 讀/寫CSV、TSV格式文件
學習小結
學習考核
拓展任務
評價反饋
學習情境4 Spark編程進階——分析電子商務網站熱門品類
任務4.1 搭建開發環境
4.1.1 下載安裝Intellij IDEA
4.1.2 用Intellij IDEA搭建Spark開發環境(Windows)
任務4.2 分析電子商務網站熱門品類
4.2.1 數據說明
4.2.2 需求分析
4.2.3 IDEA下編寫程序
4.2.4 運行程序
任務4.3 結合顧客信息分析支付方式偏好
4.3.1 需求分析
4.3.2 IDEA下編寫程序
4.3.3 運行程序
學習小結
學習考核
拓展任務
評價反饋
學習情境5 Spark SQL分析電子商務網站轉化率
任務5.1 認識Spark SQL
5.1.1 Spark SQL簡介
5.1.2 Spark SQL與Shell交互
任務5.2 掌握DataFrame基礎操作
5.2.1 DataFrame概述
5.2.2 DataFrame的創建與保存
5.2.3 Dataset基礎
5.2.4 DataFrame的常用操作
5.2.5 SQL語法風格
5.2.6 RDD轉換為DataFrame
任務5.3 分析電子商務網站轉化率
5.3.1 數據說明
5.3.2 需求分析
5.3.3 IDEA下編寫程序
5.3.4 運行程序
任務5.4 分析電商用戶購物行為
5.4.1 數據說明
5.4.2 需求分析
5.4.3 IDEA下編寫程序
5.4.4 運行程序
學習小結
學習考核
拓展任務
評價反饋
學習情境6 Spark Streaming實時計算電子商務網站瀏覽量
任務6.1 初識Spark Streaming
6.1.1 DStream編程模型簡介
6.1.2 第一個Spark Streaming程序
6.1.3 編寫Spark Streaming程序的基本步驟
6.1.4 讀取基礎數據源到DStream中
6.1.5 DStream轉換操作
任務6.2 實時計算電子商務網站瀏覽量
6.2.1 數據說明
6.2.2 需求分析
6.2.3 IDEA下編寫程序
6.2.4 運行程序
學習小結
學習考核
拓展任務
評價反饋
學習情境7:Spark ML——電子商務網站用戶行為預測
任務7.1 認識Spark ML
7.1.1 機器學習概述
7.1.2 機器學習的應用場景
7.1.3 Spark ML簡介
7.1.4 Spark ML的一個簡單示例
任務7.2 構建電商平臺用戶行為預測模型
7.2.1 數據說明
7.2.2 需求分析
7.2.3 在IDEA中編寫程序
7.2.4 運行程序
學習小結
學習考核
拓展任務
評價反饋
參考書籍