Hadoop大數據技術原理與應用(第2版)
黑馬程序員
- 出版商: 清華大學
- 出版日期: 2023-07-01
- 定價: $359
- 售價: 8.5 折 $305
- 語言: 簡體中文
- ISBN: 7302633967
- ISBN-13: 9787302633969
-
相關分類:
Hadoop、大數據 Big-data
下單後立即進貨 (約4週~6週)
相關主題
商品描述
目錄大綱
目錄
第1章初識Hadoop1
1.1大數據概述1
1.1.1什麽是大數據1
1.1.2大數據的數據類型2
1.1.3大數據的特徵2
1.1.4研究大數據的意義3
1.2大數據的應用場景3
1.2.1醫療行業的應用3
1.2.2金融行業的應用4
1.2.3零售行業的應用4
1.3Hadoop概述5
1.3.1Hadoop的前世今生5
1.3.2Hadoop的優點6
1.3.3Hadoop的缺點6
1.3.4Hadoop的生態體系6
1.3.5Hadoop架構變遷8
1.4本章小結10
1.5課後習題10
第2章部署Hadoop11
2.1安裝準備11
2.1.1創建虛擬機11
2.1.2克隆虛擬機21
2.1.3配置虛擬機23
2.1.4安裝JDK31
2.2Hadoop集群部署模式33
2.3基於偽分佈式模式部署
Hadoop34
2.4基於完全分佈式模式部署
Hadoop40
2.5案例——詞頻統計47
2.6本章小結50
2.7課後習題51
第3章HDFS分佈式文件系統52
3.1文件系統的分類52
3.2HDFS簡介54
3.2.1HDFS架構54
3.2.2HDFS的特點56
3.3HDFS的文件讀寫流程57
3.4HDFS的健壯性59
3.5HDFS的Shell操作60
3.5.1HDFS Shell介紹60
3.5.2案例——通過Shell腳本定
時採集數據到HDFS …68
3.6HDFS的Java API操作72
3.6.1HDFS的Java API
介紹72
3.6.2案例——使用Java API
操作HDFS73
3.7Federation機制82
3.7.1Federation機制的實現
原理82
3.7.2Federation機制的
特點84
3.7.3Federation機制的
實現84
3.8Erasure Coding 88
3.9本章小結91
3.10課後習題92目錄Hadoop大數據技術原理與應用(第2版)第4章MapReduce分佈式計算框架…93
4.1MapReduce概述93
4.2MapReduce編程模型94
4.3MapReduce工作原理96
4.3.1MapReduce工作過程 … 96
4.3.2MapTask工作原理97
4.3.3ReduceTask工作
原理 98
4.3.4Shuffle工作原理99
4.4MapReduce編程組件100
4.4.1InputFormat組件100
4.4.2Mapper組件101
4.4.3Reducer組件103
4.4.4Partitioner組件104
4.4.5OutputFormat
組件106
4.5MapReduce驅動類107
4.6MapReduce性能優化策略 …110
4.7YARN資源管理框架112
4.7.1YARN基本架構112
4.7.2YARN工作流程113
4.8MapReduce經典案例——數據
去重114
4.8.1案例分析114
4.8.2案例實現116
4.9MapReduce經典案例——
TopN118
4.9.1案例分析118
4.9.2案例實現119
4.10MapReduce經典案例——
倒排索引121
4.10.1倒排索引介紹121
4.10.2案例分析122
4.10.3案例實現124
4.11本章小結129
4.12課後習題130
第5章ZooKeeper分佈式協調服務 … 131
5.1ZooKeeper簡介131
5.1.1ZooKeeper特性132
5.1.2ZooKeeper集群架構 …132
5.2ZooKeeper數據模型133
5.3ZooKeeper典型應用場景134
5.4ZooKeeper的Watcher機制 …135
5.5ZooKeeper的選舉機制136
5.6部署ZooKeeper集群138
5.6.1基於偽分佈式模式部署
ZooKeeper集群139
5.6.2基於完全分佈式模式部署
ZooKeeper集群142
5.7ZooKeeper的Shell操作146
5.8ZooKeeper的Java API操作 …153
5.8.1創建會話153
5.8.2操作ZooKeeper154
5.9本章小結160
5.10課後習題160
第6章Hadoop高可用集群161
6.1HDFS高可用集群161
6.2YARN高可用集群163
6.3部署Hadoop高可用集群164
6.4本章小結180
6.5課後習題180
第7章Hive數據倉庫181
7.1數據倉庫簡介181
7.1.1什麽是數據倉庫181
7.1.2數據倉庫系統結構182
7.1.3數據倉庫分層183
7.1.4數據倉庫模型184
7.2Hive簡介185
7.2.1Hive與傳統關系數據庫
的區別185
7.2.2Hive系統架構186
7.2.3Hive工作原理187
7.2.4Hive數據存儲模型 …188
7.3Hive的部署189
7.3.1內嵌模式189
7.3.2本地模式192
7.3.3遠程模式197
7.4Hive數據類型200
7.5數據庫操作202
7.5.1創建數據庫202
7.5.2查看數據庫信息203
7.5.3修改數據庫屬性204
7.5.4刪除數據庫204
7.6表操作205
7.6.1創建表205
7.6.2查看表208
7.6.3修改表209
7.6.4刪除表211
7.6.5修改分區212
7.7數據操作215
7.7.1導入數據215
7.7.2向分區導入數據218
7.7.3查詢數據221
7.7.4查詢插入228
7.7.5關聯查詢230
7.8本章小結233
7.9課後習題233
第8章Flume日誌採集系統235
8.1Flume概述235
8.2Flume日誌採集系統結構236
8.3Flume的部署238
8.4Flume的基本使用239
8.5Flume的採集方案242
8.5.1Flume Sources243
8.5.2Flume Channels245
8.5.3Flume Sinks247
8.6Flume攔截器251
8.7Flume的可靠性保證253
8.7.1負載均衡253
8.7.2故障恢復259
8.8案例——將日誌採集到
HDFS263
8.8.1案例分析264
8.8.2案例實現264
8.9本章小結271
8.10課後習題271
第9章Azkaban工作流管理器272
9.1工作流管理器概述272
9.2Azkaban概述273
9.3部署Azkaban274
9.3.1Azkaban部署模式274
9.3.2安裝Azkaban274
9.3.3配置Azkaban276
9.3.4啟動Azkaban279
9.4Azkaban的使用283
9.4.1Azkaban的常用
概念283
9.4.2案例演示——依賴任務
調度管理284
9.4.3案例演示——MapReduce
程序調度管理290
9.4.4案例演示——Hive腳本
任務調度管理295
9.5本章小結299
9.6課後習題299
第10章Sqoop數據遷移301
10.1Sqoop概述301
10.1.1Sqoop簡介301
10.1.2Sqoop原理302
10.2Sqoop安裝配置303
10.3Sqoop命令介紹305
10.4Sqoop數據的導入306
10.4.1數據準備307
10.4.2MySQL導入
HDFS 308
10.4.3增量導入310
10.4.4MySQL導入Hive …311
10.4.5MySQL過濾導入
HDFS312
10.5Sqoop數據的導出314
10.6本章小結315
10.7課後習題316
第11章綜合項目——網站流量日誌
數據分析系統31711.1系統概述317
11.1.1系統背景介紹317
11.1.2需求分析317
11.1.3系統架構318
11.2模塊開發319
11.3本章小結319