買這商品的人也買了...
-
$505圖解Spark:核心技術與案例實戰 -
$607海量數據處理與大數據技術實戰 -
iOS App 程式開發實務攻略:快速精通 SwiftUI$680$530 -
$236Hadoop 應用開發與案例實戰 (慕課版) -
$1,439Kubernetes 權威指南:從 Docker 到 Kubernetes 實踐全接觸, 5/e
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
本書以案例為驅動,系統介紹Hadoop大數據平臺技術及其應用,Hadoop生態圈組件的工作機制、管理與開發,以及基於Hadoop大數據平臺的大數據業務解決方案。全書共10章,包括Hadoop分佈式集群、偽分佈式集群的安裝與配置,Hadoop平臺開發工具的安裝與配置,大數據存儲與管理技術(分佈式文件系統、分佈式數據庫HBase)、大數據分析技術(MapReduce計算框架、數據倉庫Hive)、大數據遷移工具(Sqoop)、大數據採集工具(Flume),並利用Hadoop生態圈組件構建一個網站日誌分析項目的解決方案,完成整個大數據業務處理流程。本書適合作為高等院校大數據相關專業的教材,也適合作為Hadoop大數據平臺技術的初學者,以及初、中級Hadoop大數據平臺管理與開發人員的培訓教材。
作者簡介
孫風棟,大連東軟信息學院教授,主講Oracle數據庫管理與開發、數據庫原理與應用、大數據技術等課程,研究方向是數據庫系統及其應用、數據挖掘、大數據應用等。
目錄大綱
第1章大數據技術與Hadoop概述
1.1大數據技術概述
1.1.1大數據技術發展
1.1.2大數據基本特徵
1.1.3大數據關鍵技術
1.1.4大數據技術應用
1.2 Hadoop概述
1.2.1 Hadoop簡介
1.2.2 Hadoop核心組件
1.2.3 Hadoop生態圈組件
1.2.4 Hadoop架構
本章小結
思考題與習題
第2章Hadoop平臺和開發環境的安裝與配置
2.1 Hadoop平臺安裝準備
2.1.1 VMware安裝與配置
2.1.2 Ubuntu安裝與配置
2.1.3網絡配置
2.2 Hadoop偽分佈式集群安裝與配置
2 .2.1創建用戶hadoop
2.2.2修改主機名與域名映射
2.2.3 SSH免密碼登錄設置
2.2.4安裝Java環境
2.2.5偽分佈式集群安裝與配置
2. 3 Eclipse開發環境安裝與配置
2.3.1 Maven安裝與配置
2.3.2 Eclipse安裝與配置
2.3.3 Eclipse中Maven設置
本章小結
思考題與習題
第3章分佈式文件系統
3.1 HDFS概述
3.1.1 HDFS架構
3.1.2 HDFS設計目標
3.1.3 HDFS高可用架構
3.1.4 HDFS架構的優劣性
3.2 HDFS工作機制
3.2.1 HDFS數據存儲策略
3.2.2 HDFS數據讀取策略
3.2.3 HDFS數據錯誤與恢復
3.2.4 HDFS數據讀寫過程
3.3 HDFS Shell管理
3. 3.1 HDFS文件操作命令
3.3.2 HDFS系統管理命令
3.3.3 HDFS Shell操作實例
3.4 HDFS Java開發
3.4.1 HDFS Java程序設計基礎
3.4.2 HDFS程序設計流程
3.4.3常用HDFS Java API
3.4.4 HDFS開發實例
本章小結
思考題與習題
第4章MapReduce
4.1 MapReduce概述
4.1.1 MapReduce簡介
4.1.2 MapReduce計算模型
4.1 .3 MapReduce編程模型
4.2 MapReduce架構
4.2.1 MapReduce V1架構
4.2.2 MapReduce V2架構
4.3 MapReduce編程組件
4.3.1 MapReduce編程流程
4.3.2 InputFormat
4.3.3 InputSplit
4.3.4 RecordReader
4.3.5 Mapper
4.3. 6 Shuffle
4.3.7 Reducer
4.3.8 OutputFormat
4.3.9序列化與反序列化
4.4 WordCount程序設計實例
4.4.1準備輸入文件
4.4.2創建Maven工程
4. 4.3配置Maven工程
4.4.4程序設計
4.4.5工程打包、部署與運行
4.4.6定製WordCount程序設計
4.5 MapReduce開發典型案例
4.5.1數據去重
4. 5.2數據排序
4.5.3計算平均值
4.6網站瀏覽量統計分析
本章小結
思考題與習題
第5章分佈式數據庫HBase
5.1 HBase概述
5.1.1 HBase簡介
5.1. 2 HBase特性
5.1.3 HBase適用場景
5.2 HBase數據模型
5.2.1 HBase基本概念
5.2.2概念視圖
5.2.3物理視圖
5.3 HBase體系結構
5.4 HBase安裝與配置
5.4.1 HBase運行模式
5 .4.2 HBase安裝準備
5.4.3 HBase偽分佈式集群安裝與配置
5.5 HBase Shell
5.5.1 HBase Shell簡介
5.5.2 General命令組
5.5.3 DDL命令組
5 .5.4 DML命令組
5.5.5查詢過濾器
5.6 HBase程序設計
5.6.1 HBase Java API簡介
5.6.2 Hbase表管理程序設計
5.6.3 HBase數據操作程序設計
5.6.4 HBase Filter API
5.7 HBase與MapReduce融合
5.7.1 HBase與MapReduce融合概述
5.7.2 HBase MapReduce Java API
5.7.3 HBase MapReduce程序設計
5.8 HBase學生成績分析
5.8.1任務描述
5.8.2導入原始數據到HBase
5.8.3統計學生平均成績
本章小結
思考題與習題
第6章數據倉庫Hive
6.1 Hive基礎
6.1.1 Hive簡介
6.1.2 Hive系統架構
6.1.3 Hive工作原理
6.1.4 Hive數據存儲模型
6 .1.5 Hive數據類型
6.1.6 Hive數據存儲格式
6.2 Hive安裝與配置
6.2.1安裝MySQL
6.2.2 Hive安裝與配置過程
6.3 Beeline
6.3.1 Beeline簡介
6.3.2 Beeline基本操作
6.4 Hive DDL操作
6.4.1 Hive數據庫管理
6.4.2 Hive表管理
6.4.3視圖管理
6.5 Hive DML操作
6.6 Hive數據查詢
6.6.1 Hive SELECT基本語法
6.6.2無條件查詢
6.6.3有條件查詢
6.6.4查詢統計
6.6.5分組查詢
6.6.6子查詢
6.6.7連接查詢
6.6.8排序
6.6.9合併操作
6.6.10複合類型數據查詢
6.7 Hive內置函數
6.7.1數學函數
6.7.2集合函數
6.7.3類型轉換函數
6.7.4日期函數
6.7.5條件函數
6.7.6字符串函數
6.7.7內置聚合函數
6.7.8內置表生成函數
6.7.9窗口函數
6.7.10其他函數
6.7.11詞頻統計實例
6.8 Hive高級應用
6.8.1用戶自定義函數
6.8.2 Hive與HBase整合
6.9 Hive程序設計
本章小結
思考題與習題
第7章數據遷移工具Sqoop
7.1 Sqoop概述
7.2 Sqoop安裝與配置
7.3 Sqoop常用命令
7.4 Sqoop數據導入
7.4.1 Sqoop命令參數
7.4.2數據從MySQL導入HDFS
7.4.3數據從MySQL導入Hive
7.4.4數據從MySQL導入HBase
7.5 Sqoop數據導出
7.5.1 Sqoop export命令參數
7.5.2從HDFS導出數據到MySQL
7.5.3從Hive導出數據到MySQL
7.5.4中文亂碼問題
本章小結
思考題與習題
第8章數據採集工具Flume
8.1 Flume概述
8.1.1 Flume簡介
8.1.2 Flume架構
8.2 Flume安裝與配置
8.3 Flume組件
8.3.1 Source組件
8.3.2 Channel組件
8.3.3 Sink組件
8.3.4 Interceptor組件
8.3.5 Selector組件
8.3.6 Sink Processor
8.4 Flume數據採集案例與實施
8.4.1實時採集本地文件到HDFS
8.4.2多源與多目的地數據採集
本章小結
思考題與習題
第9章網站日誌分析
9.1需求分析
9.1.1網站日誌分析的必要性
9.1.2網站日誌數據說明
9.1.3網站日誌分析KPI指標
9.2方案設計
9.3數據採集
9.4數據預處理
9.5數據分析
9.6數據分析結果導出及可視化
本章小結
思考題與習題
第10章Hadoop與HBase分佈式集群安裝與配置
10.1 Hadoop分佈式集群安裝與配置
10.2 HBase分佈式集群安裝與配置
本章小結
思考題與習題
參考文獻
