PySpark大數據分析與應用

Name: PySpark大數據分析與應用
Price: 418 TWD
Availability: OnlineOnly
Author: 戴剛，張良均
ISBN: 7115634904

戴剛，張良均

預覽內頁

出版商: 人民郵電
出版日期: 2024-04-01
定價: $419
售價: $418
語言: 簡體中文
頁數: 275
裝訂: 平裝
ISBN: 7115634904
ISBN-13: 9787115634900
相關分類: Spark、Python、大數據 Big-data

下單後立即進貨 (約4週~6週)

商品描述

本書以Python作為開發語言，系統介紹PySpark開發環境搭建流程及基於PySpark進行大數據分析的相關知識。本書條理清晰、重點突出，理論敘述循序漸進、由淺入深。本書共7章，第1?5章包括PySpark 大數據分析概述、PySpark安裝配置、基於PySpark的DataFrame操作、基於PySpark的流式數據處理、基於PySpark的機器學習庫，內容介紹註重理論與實踐相結合，通過典型示例強化PySpark在大數據分析中的實際應用；第6、7章通過基於PySpark的網絡招聘信息的職業類型劃分和基於PySpark的信用貸款風險分析兩個完整的案例實戰，結合前5章的PySpark編程知識，實現完整的大數據分析過程。本書大部分章包含實訓和課後習題，讀者通過練習和操作實踐，能夠鞏固所學的內容。

本書可作為高校數據科學或大數據相關專業的教材，也可作為機器學習愛好者的自學用書。

作者簡介

戴剛，重慶大學電腦科學與技術博士，美國匹茲堡大學訪問學者，重慶交通大學經濟與管理學院副教授，碩士生導師。主持1項教育部產學研合作項目，主研國家自然科學基金2項，國家科技支持計劃1項目，中國移動（重慶分公司）科技公關項目1項，省部級科研項目2項，在國際期刊、國際會議及國內權威學術期刊發辮學術論文7篇。熟悉Java、Python、大數據及相關軟件架構，具有豐富的軟件開發經驗。從事教育教學工作十多年，有扎實的專業素養和豐富的教學經驗。

目錄大綱

第 1章PySpark大數據分析概述 1

1.1　大數據分析概述　1

1.1.1　大數據的概念　2

1.1.2　大數據分析的概念　3

1.1.3　大數據分析的流程　4

1.1.4　大數據分析的應用場景　6

1.1.5　大數據技術體系　6

1.2　Spark大數據技術框架　10

1.2.1　Spark 簡介　10

1.2.2　Spark 特點　11

1.2.3　Spark運行架構與流程　11

1.2.4　Spark RDD　14

1.2.5　Spark 生態圈　20

1.3　PySpark大數據分析　21

1.3.1　PySpark 簡介　21

1.3.2　PySpark 子模塊　22

小結　25

課後習題　26

第　2章 PySpark安裝配置　27

2.1　搭建單機模式的PySpark開發

環境　28

2.1.1　安裝 JDK　28

2.1.2　安裝 Anaconda　28

2.1.3　安裝 Hadoop　30

2.1.4　安裝 MySQL　36

2.1.5　安裝 Hive　37

2.1.6　配置 PySpark 模塊　43

2.1.7　運行 Jupyter Notebook　44

2.2　搭建分佈式模式的PySpark開發

環境　45

2.2.1　安裝配置虛擬機　46

2.2.2　安裝 Java　53

2.2.3　搭建Hadoop分佈式集群　58

2.2.4　安裝MySQL數據庫　62

2.2.5　安裝Hive數據倉庫工具　63

2.2.6　搭建Spark完全分佈式集群　66

2.2.7　安裝 PyCham　69

2.2.8　安裝Python解釋器及PySpark 模塊　69

2.3　Python函數式編程　69

2.3.1　Python常用數據結構　70

2.3.2　Python函數式編程基礎　75

小結　76

課後習題　76

第　3 章基於 PySpark 的 DataFrame 操作　78

3.1　Spark SQL 概述　78

3.1.1　Spark SQL起源與發展歷程　79

3.1.2　Spark SQL 主要功能　79

3.1.3　Spark SQL數據核心抽象 DataFrame　80

3.2　pyspark.sql 模塊　82

3.2.1　pyspark. sql 模塊簡介　82

3.2.2　pyspark. sql 模塊核心類　83

3.3　DataFrame 基礎操作　85

3.3.1　創建 DataFrame 對象　86

332　DataFrame 操作　93

3.3.3　DataFrame 輸出操作　113

小結　114

實訓　114

實訓1網站搜索熱詞統計分析　114

實訓2大數據崗位招聘信息統計分析　…115

課後習題　116

第4章　基於PySpark的流式數據

處理　118

4.1　Spark Streaming 概述　119

4.1.1　流計算簡介　119

4.1.2　Spark Streaming 基本概念　121

4.1.3　Spark Streaming 工作原理　121

4.1.4　Spark Streaming 運行機制　122

4.2　pyspark.streaming 模塊　123

4.2.1　pyspark. streaming 模塊簡介　123

4.2.2　pyspark. streaming 模塊核心類　124

4.2.3　DStream 基礎操作　126

4.3　Structured Streaming 結構化流處理　146

4.3.1　Structured Streaming 概述　146

4.3.2　Structured Streaming 編程模型　147

4.3.3　Structured Streaming 基礎操作　148

4.3.4　Structured Streaming 編程步驟　152

小結　155

實訓　155

實訓1使用Spark　Streaming實現菜品價格

實時計算　155

實訓2使用Spark　Streaming實時判別車輛所屬地　156

課後習題　156

第5章　基於PySpark的機器

學習庫　158

5.1　MLlib 算法　159

5.1.1　機器學習　159

5.1.2　MLlib　159

5.1.3　pyspark.ml 模塊　159

5.2　使用pyspark.ml模塊的轉換器處理

和轉換數據　162

5.2.1　數據加載及數據集劃分　162

5.2.2　數據降維　164

5.2.3　數據標準化　166

5.2.4　數據類型轉換　171

5.3　pyspark.ml模塊的評估器和模型評估　175

5.3.1　使用PySpark構建並評估分類模型　175

5.3.2　使用PySpark構建並評估回歸模型　182

5.3.3　使用PySpark構建並評估聚類模型　186

5.3.4　使用PySpark構建並評估智能推薦

模型　189

小結　195

實訓　195

實訓1使用隨機森林模型預測是否批準　用戶申請　195

實訓2使用回歸模型實現房價預測………196

課後習題　197

第6章　案例分析：基於PySpark的網絡招聘信息的職業類型劃分 ……199

6.1　需求與架構分析　200

6.1.1　業務需求分析與技術選型　200

6.1.2　系統架構分析　200

6.2　數據探索　201

6.2.1　數據說明　202

6.2.2　數據讀取　202

6.2.3　重復數據與空值探索　204

6.2.4　異常數據探索　205

6.3　數據預處理　207

6.3.1　數據清洗　207

6.3.2　中文分詞與去停用詞　208

6.3.3　詞特徵向量化　210

6.4　模型構建與評估　213

6.4.1　LDA算法簡介　214

6.4.2　LDA模型構建與評估　215

6.4.3　構建LDA模型　217

6.5　製作詞雲圖　220

小結　225

第7章　案例分析：基於PySpark的

信用貸款風險分析　226

7.1　需求與架構分析　227

7.1.1　業務需求分析　227

7.1.2　系統架構分析　227

7.2　數據探索　228

7.2.1　數據說明　228

7.2.2　建立數據倉庫並導入數據　230

7.2.3　用戶信息完善情況與逾期率的關系

探索　233

7.2.4　用戶信息修改情況與逾期率的關系

探索　236

7.2.5　用戶借款月份與逾期率的關系

探索　240

7.3　數據預處理　243

7.3.1　計算用戶信息缺失個數及借款月份

構建新特徵　243

7.3.2　用戶更新信息重建　245

7.3.3　用戶登錄信息重建　250

7.3.4　分類數據預處理　255

7.3.5　字符串字段編碼處理　259

7.3.6　分類數據重編碼　263

7.3.7　缺失值處理　265

7.4　模型構建與評估　267

7.4.1　瞭解 GBTs 算法　267

7.4.2　構建 GBTs 模型　268

7.4.3　評估 GBTs 模型　271

7.5　部署和提交PySpark應用程序…271

7.5.1　打包PySpark應用程序　271

7.5.2　提交PySpark應用程序　274

小結　275

參考文獻　276

PySpark大數據分析與應用

戴剛，張良均

商品描述

作者簡介

目錄大綱

類似商品