雲計算與大數據技術
張冰峰
- 出版商: 電子工業
- 出版日期: 2024-06-01
- 定價: $414
- 售價: 8.5 折 $352
- 語言: 簡體中文
- 頁數: 304
- ISBN: 7121480220
- ISBN-13: 9787121480225
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
本書分為兩大部分,第一部分是雲計算及雲服務關鍵技術,第二部分是大數據應用開發實踐技術。第一部分介紹大數據應用的基礎—雲計算,其中第1章主要介紹雲計算的基礎知識;第2~4章介紹雲服務實現的關鍵技術,包括虛擬化技術、數據存儲與管理技術、網絡虛擬化技術;第5章介紹開源的雲服務產品管理工具,重點介紹OpenStack。第二部分以大數據技術為主線,第6章介紹大數據的基礎知識;第7章以搭建開源大數據分析平臺為需求,介紹大數據分析平臺與技術棧;第8~15章以大數據應用實踐流程為主線,按分層技術棧介紹數據採集工具與消息隊列、Hadoop分佈式系統基礎架構、Spark計算平臺、Spark平臺的安裝部署與實踐、Flink計算平臺與實踐、NoSQL數據庫、Hive數據倉庫與實踐、數據可視化;第16章給出了綜合實踐的案例。 本書配套在線課程"雲計算與大數據技術”已在"學堂在線”和"智慧樹”在線平臺上線,同步提供實踐實驗手冊和錄屏實操視頻,方便讀者將理論和實踐相結合。本書配套PPT等教學資源可在華信教育資源網(www.hxedu.com.cn)免費下載。 本書可作為本科和高職院校電腦、軟件、大數據相關專業的教材,也可為對雲計算與大數據技術感興趣的初學者提供參考。
目錄大綱
第一部分 雲計算及雲服務關鍵技術
第1章 雲計算概述 2
1.1 雲計算簡介 2
1.1.1 雲計算的定義 2
1.1.2 雲計算的演進過程 3
1.1.3 雲計算的特點 6
1.1.4 雲計算的應用 7
1.1.5 雲計算安全 7
1.2 雲計算的產業生態 9
1.2.1 雲服務的分類 9
1.2.2 雲計算的產業鏈 12
1.2.3 雲服務提供商及產品 13
1.3 雲計算的關鍵技術 15
1.3.1 分佈式編程模型 16
1.3.2 虛擬化技術 16
1.3.3 數據存儲技術 16
1.3.4 數據管理技術 17
1.3.5 雲計算平臺管理工具 17
第2章 虛擬化概述 19
2.1 虛擬化簡介 19
2.1.1 什麽是虛擬化 19
2.1.2 虛擬化技術的特點 20
2.1.3 虛擬化與雲計算 20
2.2 虛擬化模式 21
2.2.1 虛擬機監控器 21
2.2.2 虛擬化模式的分類 21
2.3 服務器虛擬化 23
2.3.1 CPU虛擬化 23
2.3.2 內存虛擬化 26
2.3.3 I/O設備虛擬化 31
2.4 存儲虛擬化 34
2.4.1 存儲虛擬化的定義 34
2.4.2 存儲虛擬化分類 35
2.5 網絡虛擬化 35
2.6 虛擬化軟件 36
第3章 數據存儲與管理技術 37
3.1 集中式存儲與分佈式存儲 37
3.1.1 常見存儲分類 37
3.1.2 集中式存儲 38
3.1.3 分佈式存儲 39
3.2 分佈式文件系統 40
3.2.1 網絡文件系統 40
3.2.2 分佈式文件系統的實現 41
3.3 分佈式對象存儲 41
3.3.1 Swift對象存儲 41
3.3.2 Haystack對象存儲 42
3.4 分佈式數據庫 43
3.4.1 數據庫架構模型 43
3.4.2 大規模並行處理數據庫 44
3.4.3 分佈式數據庫的發展和產品 45
3.5 雲存儲 46
3.5.1 雲存儲的實現 46
3.5.2 公有雲存儲服務 46
3.5.3 私有雲存儲服務 47
第4章 網絡虛擬化技術 49
4.1 網絡虛擬化概述 49
4.1.1 常見的網絡虛擬化 49
4.1.2 虛擬化環境下的物理網絡 50
4.1.3 虛擬化環境下的虛擬網絡 51
4.1.4 虛擬交換機 52
4.2 雲計算與網絡虛擬化 55
4.2.1 雲計算與網絡虛擬化的關系 55
4.2.2 SDN與NFV的關系 56
4.3 SDN的系統架構與特點 57
4.3.1 SDN的系統架構 57
4.3.2 SDN的特點 58
?
4.4 OpenFlow協議 58
4.4.1 OpenFlow協議簡介 58
4.4.2 OpenFlow協議架構 59
4.4.3 OpenFlow交換機組成 60
4.5 網絡功能虛擬化 61
4.5.1 網絡功能虛擬化簡介 61
4.5.2 NFV架構 62
4.5.3 NFV管理和編排 62
4.6 Overlay技術 63
4.6.1 Overlay簡介 63
4.6.2 Overlay構建 65
4.6.3 Overlay主要技術標準 67
第5章 雲服務產品管理工具 69
5.1 雲服務產品IaaS雲方案 69
5.1.1 IaaS雲需求 69
5.1.2 IaaS雲方案的設計 70
5.1.3 IaaS雲方案的實施部署 70
5.2 雲計算組件 73
5.2.1 VMware 73
5.2.2 Citrix 73
5.2.3 微軟 74
5.3 雲計算管理工具 75
5.3.1 SaaS雲計算管理工具 75
5.3.2 PaaS雲計算管理工具 77
5.3.3 IaaS雲計算管理工具 79
5.4 OpenStack架構與組件 80
5.4.1 OpenStack邏輯架構 81
5.4.2 OpenStack物理架構 82
5.4.3 OpenStack組件 86
第二部分 大數據應用開發實踐技術
第6章 大數據概述 90
6.1 認知大數據 90
6.1.1 大數據的定義 90
6.1.2 大數據的特點 90
6.1.3 大數據系統架構 91
6.1.4 大數據的應用 92
6.2 大數據關鍵技術 93
6.3 大數據與雲計算 96
6.3.1 大數據與雲計算的關系 96
6.3.2 雲服務平臺上的大數據服務 96
6.4 大數據與人工智能 97
6.4.1 大數據與人工智能的關系 97
6.4.2 雲服務平臺上的人工智能服務 98
6.5 大數據與物聯網 100
6.5.1 物聯網 100
6.5.2 大數據與物聯網和雲計算的關系 100
6.5.3 雲服務平臺上的物聯網服務 101
第7章 大數據分析平臺與技術棧 103
7.1 大數據分析平臺 103
7.2 大數據分析平臺的選擇 104
7.3 開源大數據分析平臺的搭建 106
7.3.1 底層操作系統 106
7.3.2 分佈式計算平臺 106
7.3.3 數據接入和預處理工具 107
7.3.4 數據存儲工具 108
7.3.5 數據分析和挖掘工具 108
7.3.6 數據分析結果可視化及輸出 109
7.4 大數據分析平臺搭建可選擇的工具 109
第8章 數據採集工具與消息隊列 111
8.1 數據採集概述 111
8.1.1 大數據來源 111
8.1.2 數據採集途徑 111
8.2 日誌採集工具Flume 114
8.2.1 Flume簡介 114
8.2.2 Flume NG的基本架構 114
8.3 數據遷移工具Sqoop 115
8.3.1 Sqoop簡介 115
8.3.2 Sqoop架構 115
8.4 流數據採集框架Kafka 116
8.4.1 Kafka簡介 116
8.4.2 Kafka架構 117
8.5 消息隊列 118
8.5.1 消息隊列簡介 118
8.5.2 消息隊列的作用 119
8.5.3 常見的消息隊列 121
第9章 Hadoop分佈式系統基礎架構 125
9.1 Hadoop系統簡介 125
9.2 Hadoop生態圈 125
9.2.1 Hadoop生態系統 125
9.2.2 Hadoop版本 126
9.3 HDFS概述 129
9.3.1 分佈式文件系統 129
9.3.2 HDFS簡介 130
9.3.3 HDFS架構 130
9.3.4 HDFS讀寫文件流程 131
9.3.5 HDFS的Block副本放置策略和可靠性策略 133
9.4 MapReduce計算框架 134
9.4.1 MapReduce架構 134
9.4.2 MapReduce的執行流程 135
9.4.3 MapReduce的Shuffle機制 137
9.5 YARN概述 138
9.5.1 YARN簡介 138
9.5.2 YARN的特點 138
9.5.3 YARN的基本框架 139
9.5.4 YARN的工作流程 140
9.6 Hadoop的部署與實踐 141
9.6.1 配置SSH免密碼登錄 142
9.6.2 安裝Hadoop 143
9.6.3 修改配置文件 144
9.6.4 Hadoop的啟動和關閉 146
第10章 Spark計算平臺 148
10.1 Spark概述 148
10.1.1 Spark簡介 148
10.1.2 Spark的特點 148
10.1.3 Spark計算平臺的生態 149
10.1.4 Spark的應用場景 150
10.2 Spark架構 150
10.3 Spark的部署模式 152
10.4 Spark的運行流程 152
10.4.1 Spark的Job提交流程 153
10.4.2 Spark任務調度 154
10.5 Spark數據處理模型RDD 154
10.5.1 RDD的概念與特點 154
10.5.2 RDD分區的基本知識 155
10.5.3 RDD基本操作 157
10.5.4 RDD基本操作範例 159
10.5.5 RDD運行過程 161
10.5.6 WordCount詞頻統計案例 162
10.6 Spark與Scala 163
第11章 Spark平臺的安裝部署與實踐 164
11.1 Scala編程語言 164
11.1.1 Scala簡介 164
11.1.2 Scala下載與安裝 164
11.1.3 Scala環境變量設置 167
11.1.4 啟動Scala 169
11.1.5 在IDEA中配置Scala 170
11.1.6 Scala語言編程基礎 175
11.2 Spark的安裝與部署 184
11.2.1 Spark的安裝環境 184
11.2.2 Spark Linux版本下載 184
11.2.3 Scala Linux版本下載 187
11.2.4 上傳Scala和Spark安裝包 187
11.2.5 安裝與配置Scala和Spark 189
11.2.6 啟動Spark服務 191
11.2.7 Spark Web UI 192
11.3 Spark編程實踐 194
11.3.1 基於HDFS文件進行數據統計 194
11.3.2 Spark SQL操作外部數據源 195
第12章 Flink計算平臺與實踐 196
12.1 Flink簡介 196
12.1.1 Flink及其特點 196
12.1.2 Spark和Flink的比較 196
12.1.3 Flink的分層抽象API 197
12.1.4 Flink應用場景 198
12.2 Flink軟件棧 200
12.3 Flink程序 201
12.3.1 Flink程序的執行流程 201
12.3.2 Flink程序和數據流 202
12.3.3 Flink程序流理解 204
12.4 Flink運行時架構 205
12.4.1 Flink運行時架構簡介 205
12.4.2 Flink任務提交流程 206
12.5 Flink時間處理機制 207
12.5.1 Flink的3種時間 207
12.5.2 Flink時間窗口 208
12.5.3 Watermark 211
12.6 Flink狀態和容錯機制 215
12.6.1 Flink狀態 215
12.6.2 Flink容錯機制 217
12.6.3 Exactly-Once語義 221
12.7 Flink的安裝、配置和啟動 222
12.7.1 Flink的安裝和部署模式 222
12.7.2 Flink安裝包的下載和上傳 224
12.7.3 Flink的配置 225
12.7.4 Flink的啟動 227
第13章 NoSQL數據庫 231
13.1 NoSQL數據庫簡介 231
13.1.1 NoSQL數據庫的產生背景 231
13.1.2 NoSQL數據庫的特點 231
13.1.3 常見的NoSQL數據庫 232
13.2 NoSQL數據庫的分類 232
13.2.1 鍵值數據庫 232
13.2.2 列式數據庫 234
13.2.3 文檔數據庫 236
13.2.4 圖數據庫 238
第14章 Hive數據倉庫與實踐 241
14.1 Hive數據倉庫 241
14.1.1 Hive簡介 241
14.1.2 Hive的工作流程 241
14.1.3 Hive的數據模型 243
14.2 Hive的安裝和部署 246
14.2.1 Hive的安裝環境 246
14.2.2 Hive安裝包的上傳與安裝 247
14.2.3 配置環境變量 248
14.2.4 在MySQL中創建hive數據庫 248
14.2.5 配置Hive 249
14.2.6 Jar包處理 252
14.2.7 基於HDFS創建元數據目錄 254
14.2.8 初始化Hive元數據 255
14.3 Hive客戶端連接 256
14.3.1 啟動Hadoop服務 256
14.3.2 Hive CLI 256
14.3.3 啟動HiveServer2 257
14.3.4 使用beeline客戶端測試HiveServer2 258
14.3.5 啟動Metastore服務 259
14.4 Hive操作 260
14.4.1 數據庫操作 260
14.4.2 數據表操作 261
第15章 數據可視化 265
15.1 數據可視化簡介 265
15.1.1 什麽是數據可視化 265
15.1.2 數據可視化的特點 266
15.2 數據可視化的常用工具 266
15.2.1 零編程類 267
15.2.2 開發工具類 271
15.2.3 專業圖表類 272
15.3 數據可視化的常用方式 274
15.3.1 面積及尺寸可視化 274
15.3.2 顏色可視化 276
15.3.3 地域空間可視化 277
15.3.4 圖形可視化 277
15.3.5 概念可視化 277
第16章 綜合實踐 278
16.1 公開數據集網站和數據集 278
16.2 MovieLens數據集介紹 279
16.3 業務需求 280
16.4 技術方案 281
16.5 系統實現 282
16.5.1 下載數據集 283
16.5.2 上傳數據 283
16.5.3 導入數據 284
16.5.4 Spark數據分析 286
參考文獻 291
?