Spark SQL 大數據分析快速上手
遲殿委 王澤慧 黃茵茵
買這商品的人也買了...
-
$351量化交易學習指南 基於R語言 -
$907Python 數學實驗與建模 -
$418線性代數應該這樣學, 3/e -
$580文本機器學習 -
$861分佈式人工智能:基於 TensorFlow、RTOS 與群體智能體系 -
$504移動通信大數據分析 — 數據挖掘與機器學習實戰 -
$469深度學習與圍棋 -
$249數據科學博弈論 (Game Theory for Data Science: Eliciting Truthful Information) -
$445數據分析實用教程 -
$294復雜系統建模與模擬 — 基於 Python 語言 -
$216App Inventor創意趣味編程進階 -
$227大數據技術與機器學習 Python 實戰 -
$404數亦有道 Python 數據科學指南 -
$402數據分析方法論和業務實戰(全彩) -
大數據技術及架構圖解實戰派$876$832 -
$279大數據運維圖解教程 -
$504智能藥物研發 — 新藥研發中的人工智能 -
利用 Python 實現概率、統計及機器學習方法(原書第2版)$714$678 -
$300醫學影像深度學習 -
臨床診療人工智能 — 可解釋、可通用的臨床決策支持系統$468$444 -
數據分析實戰 — 90個精彩案例帶你快速入門$354$336 -
$402深度學習 -
$295數據清洗, 2/e -
讓 AI 好好說話!從頭打造 LLM (大型語言模型) 實戰秘笈$680$537 -
Spark 大數據分析與應用 (Python 版)$288$273
簡體書拿來曬2本75折 詳見活動內容 »
-
VIP 95折
編譯原理, 2/e (Compilers : Principles, Techniques, and Tools, 2/e)$534$507 -
VIP 95折
深度學習之 TensorFlow:入門、原理與進階實戰$594$564 -
85折
$402Essential C++ (簡體中文版) -
VIP 95折
TCP/IP 詳解 (捲1):協議 (TCP/IP Illustrated, Volume 1 : The Protocols, 2/e)$774$735 -
85折
$402Go 並發編程實戰, 2/e -
VIP 95折
機器人學導論, 4/e (Introduction to Robotics: Mechanics and Control, 4/e)$474$450 -
85折
$402深入淺出 Vue.js -
85折
$351實用機器學習 (Real-world Machine Learning) -
85折
$504深度探索 C++ 對像模型 (Inside the C++ Object Model) -
85折
$300區塊鏈項目開發指南 -
85折
$402原子教你玩 STM32 (庫函數版第2版) -
85折
$402Spring Security 實戰 -
85折
$611嵌入式 Linux 基礎教程, 2/e (Embedded Linux Primer: A Practical Real-World Approach, 2/e) -
85折
$504MySQL 技術內幕-InnoDB 存儲引擎, 2/e -
85折
$448PADS 9.5 實戰攻略與高速 PCB 設計 -
85折
$244基於 Bootstrap 和 Knockout.js 的 ASP.NET MVC 開發實戰 (ASP.Net MVC 5 with Bootstrap and Knockout.Js: Building Dynamic, Responsive Web Applications) -
85折
$265深入淺出 USB 系統開發 : 基於 ARM Cortex-M3 -
85折
$402Redis 設計與實現 -
VIP 95折
FPGA 原理和結構$354$336 -
VIP 95折
TCP/IP 網絡編程$474$450 -
50折
$207區塊鏈技術進階與實戰 -
85折
$657STM32F0 實戰:基於 HAL 庫開發 -
85折
$1,009自然語言處理綜論, 2/e (Speech and Language Processing, 2/e) -
85折
$351R 語言編程藝術 (The Art of R Programming: A Tour of Statistical Software Design) -
85折
$453Spring Cloud 微服務實戰
商品描述
"《Spark SQL大數據分析快速上手》內容基於Spark新版本展開,符合企業目前開發需要。《Spark SQL大數據分析快速上手》全面講解Spark SQL相關知識和實戰應用,各章均提供較為豐富的案例及其詳細的操作步驟,並配套示例源碼、數據集、PPT課件和教學大綱。 《Spark SQL大數據分析快速上手》共10章。第1~3章為Spark SQL的基礎準備部分,內容包括Spark SQL的發展和簡介、Spark的典型數據容器及關系、Spark概述與環境搭建、Spark典型數據結構RDD;第4~7章為Spark SQL的基礎應用部分,內容包括Spark SQL入門實戰(包括Scala編程基礎)、SQL基礎語法、操作多數據源、Spark SQL性能調優等;第8~10章分別通過影評數據分析、商品統計數據分析、咖啡銷售數據分析等3個實戰項目進行鞏固提升。 《Spark SQL大數據分析快速上手》內容翔實、示例豐富,既可作為Spark初學者、大數據分析人員、大數據應用開發人員的自學手冊,也可作為高等院校或高職高專院校電腦、軟件工程、數據科學與大數據技術、智能科學與技術、人工智能等專業大數據課程的教材。"
作者簡介
遲殿委,南昌大學計算機軟件與理論專業碩士,系統架構設計師。有多年企業軟件研發經驗和豐富的JavaEE、大數據技術培訓經驗,熟練掌握JavaEE與大數據全棧技術框架,擅長JavaEE系統架構設計、大數據分析與挖掘。著有圖書《Hadoop大數據分析技術》 《Hadoop+Spark大數據分析實戰》《Spring Boot企業級開發實戰(視頻教學版)》《深入淺出Java編程》《Spring Boot+Spring Cloud微服務開發》。
目錄大綱
目 錄
第 1 章 Spark SQL概述 1
1.1 Spark SQL簡介 1
1.1.1 什麼是Spark SQL 1
1.1.2 Spark SQL的特點 2
1.2 Spark數據容器 4
1.2.1 什麼是DataFrame 4
1.2.2 什麼是DataSet 5
1.2.3 Spark SQL與DataFrame 6
1.2.4 DataFrame與RDD的差異 6
第 2 章 Spark概述及環境搭建 8
2.1 Spark概述 8
2.1.1 關於Spark 8
2.1.2 Spark的基本概念 9
2.1.3 Spark集群相關知識 11
2.2 Linux環境搭建 16
2.2.1 VirtualBox虛擬機的安裝 16
2.2.2 安裝Linux操作系統 18
2.2.3 SSH工具與使用 24
2.2.4 Linux的統一設置 26
2.3 Hadoop完全分佈式環境搭建 28
2.4 Spark的安裝與配置 33
2.4.1 本地模式安裝 34
2.4.2 偽分佈模式安裝 36
2.4.3 完全分佈模式安裝 39
2.4.4 Spark on YARN 41
2.5 Spark的任務提交 45
2.5.1 使用spark-submit提交 45
2.5.2 spark-submit參數說明 46
第 3 章 Spark的典型數據結構RDD 49
3.1 什麼是RDD 49
3.2 RDD的主要屬性 50
3.3 RDD的特點 51
3.4 RDD的創建與處理過程 54
3.4.1 RDD的創建 55
3.4.2 RDD的處理過程 55
3.4.3 RDD的算子 56
第 4 章 Spark SQL入門實戰 65
4.1 DataFrame和DataSet實戰體驗 65
4.1.1 SparkSession 65
4.1.2 DataFrame應用 66
4.1.3 DataSet應用 72
4.1.4 DataFrame和DataSet之間的交互 74
4.2 Scala開發環境搭建及其基礎編程 74
4.2.1 開發環境搭建 75
4.2.2 Scala基礎編程 78
4.3 Spark SQL實戰入門體驗 94
第 5 章 Spark SQL語法基礎及應用 101
5.1 Hive安裝與元數據存儲配置 101
5.1.1 安裝Hive 101
5.1.2 配置MySQL存儲元數據 104
5.2 Spark SQL DML語句 107
5.2.1 插入數據 107
5.2.2 加載數據 110
5.3 Spark SQL查詢語句 111
5.4 Spark SQL函數操作 115
5.4.1 內置函數及使用 115
5.4.2 自定義函數 126
第 6 章 Spark SQL數據源 131
6.1 Spark SQL數據加載、存儲概述 131
6.1.1 通用load/save函數 131
6.1.2 手動指定選項 133
6.1.3 在文件上直接進行SQL查詢 133
6.1.4 存儲模式 133
6.1.5 持久化到表 134
6.1.6 桶、排序、分區操作 135
6.2 Spark SQL常見結構化數據源 135
6.2.1 Parquet文件 135
6.2.2 JSON 數據集 140
6.2.3 Hive表 141
6.2.4 其他關系數據庫中的數據表 144
第 7 章 Spark SQL性能調優 148
7.1 Spark執行流程 148
7.2 Spark內存管理 149
7.3 Spark的一些概念 150
7.4 Spark開發原則 151
7.5 Spark調優方法 157
7.6 數據傾斜調優 168
7.7 Spark執行引擎Tungsten簡介 172
7.8 Spark SQL解析引擎Catalyst簡介 173
第 8 章 Spark SQL影評大數據分析項目實戰 177
8.1 項目介紹 177
8.2 項目實現 179
8.2.1 引入依賴 179
8.2.2 公共類開發 184
8.2.3 需求1的實現 187
8.2.4 需求2的實現 191
8.2.5 需求3的實現 194
第 9 章 Spark SQL商品統計分析項目實戰 198
9.1 項目介紹 198
9.2 項目實現 201
9.2.1 引入依賴 201
9.2.2 環境測試 202
9.2.3 Spark SQL初始化數據 203
9.2.4 Spark SQL商品數據分析 206
第 10 章 Spark SQL咖啡銷售數據分析項目實戰 211
10.1 項目介紹 211
10.2 數據預處理與數據分析 212
10.2.1 查看咖啡銷售量排名 213
10.2.2 觀察咖啡銷售量的分佈情況 214
10.3 數據可視化 218



