大數據開發實戰
猿媛之家
- 出版商: 機械工業
- 出版日期: 2024-11-29
- 售價: $714
- 貴賓價: 9.5 折 $678
- 語言: 簡體中文
- 頁數: 301
- 裝訂: 平裝
- ISBN: 7111756932
- ISBN-13: 9787111756934
-
相關分類:
大數據 Big-data
立即出貨 (庫存=1)
相關主題
商品描述
本書深入探討了大數據技術的核心概念和實際應用。
從大數據的基礎架構Hadoop開始,逐步解析了分佈式協調服務Zookeeper、資料倉儲Hive、面向列的數據庫HBase等關鍵技術。
此外,也介紹了資料遷移工具Sqoop、資料擷取工具Flume、發布訂閱訊息系統Kafka等實用工具。
本書也深入解說了資料處理分析引擎Spark、全文搜尋引擎Elasticsearch及分佈式處理引擎Flink的工作原理與應用實例。
最後,透過電商推薦系統實戰和Flink實現電商用戶行為分析兩個案例,展示了大數據技術在實際業務中的應用。
本書附帶全書實例源代碼、電子版本教程(下載方式見封底),以及可掃碼觀看的長達13個小時的部分實例操作視頻,
幫助讀者更深入瞭解大數據技術的具體內容,非常適合對大數據技術有興趣的讀者,
尤其是想要深入瞭解大數據技術原理和應用的開發者和管理者閱讀。
作者簡介
韋宇傑,畢業於華南理工大學廣州學院,獲得了機械工程及自動化的學士學位,一位融合機械工程與自動化專業背景的資深程序員。 作為一名資深程序員,在大數據領域深耕多年,積累了豐富的實戰經驗。他精通從數據採集、清洗、存儲到分析的全鏈條技術,擅長運用最前沿的工具和框架解決覆雜的數據處理問題,讓龐大的數據集在他的手中煥發出前所未有的價值。他的職業生涯跨越了多個領域,不僅在大數據處理和系統開發方面表現出色,更在算法設計和模型構建上擁有深厚的專業知識。 在數據處理、算法設計以及系統優化方面積累了豐富的經驗。他曾參與華為的應用系統經營分析系統的研發工作,期間他充分發揮了自己的算法訓練和模型設計能力,為項目的成功貢獻了關鍵的技術支持。這段經歷不僅證明瞭他在大數據處理領域的實力,也彰顯了他在算法和模型構建方面的專業素養。 作為一位對技術充滿熱情的程序員,他深耕細作,苦練編程,善於總結,慢慢的形成了個人的編程風格,在數據處理、算法、系統佈局等方面有自己獨特的見解和處理方式。本書是作者多年工作經驗的總結,以最貼近實際的案例幫助讀者更容易,更輕松,更深入地瞭解大數據開發。
目錄大綱
前言
環境搭建影片教學二維碼清單
第1章大數據簡介
1.1大數據的概述
1.2大數據的特點
1.3大數據的應用領域
1.4目前企業應用的主流大數據技術
1.5大數據開發流程
第2章大數據基礎架構Hadoop
2.1Hadoop簡介
2.2Hadoop架構詳解
2.2.1分佈式儲存系統HDFS
2.2.2分佈式資源管理框架YARN
2.2.3離線計算框架MapReduce
2.3HDFS讀取、寫入檔案流程
2.3.1HDFS寫文件流程
2.3.2HDFS讀取文件流程
2.4HDFS的實戰操作
2.4.1HDFS上傳文件
2.4.2HDFS建立文件
2.4.3HDFS建立目錄
2.4.4HDFS重新命名文件
2.4.5HDFS刪除文件
2.5YARN原理
2.6YARN調度器詳解
2.7MapReduce工作原理
2.8MapReduce核心的原理Shuffle
2.8.1Map端
2.8.2Reduce端
2.9MapReduce常用三大組件
2.9.1MapReduce中的Partitioner
2.9.2MapReduce中的Sort
2.9.3MapReduce中的Combiner
2.10MapReduce計畫實戰
2.10.1清洗日誌
2.10.2統計電影最高評分
第3章分佈式協調服務Zookeeper
3.1ZooKeeper簡介
3.2ZooKeeper結構與工作原理
3.2.1ZooKeeper集群角色
3.2.2ZooKeeper的資料結構
3.2.3ZooKeeper的工作流程
3.2.4ZooKeeper的監聽器
3.3ZooKeeper實戰
3.3.1ZooKeeper建立持久節點
3.3.2ZooKeeper建立臨時節點
3.3.3ZooKeeper遞歸創建節點
3.3.4ZooKeeper讀取數據
3.3.5ZooKeeper更新數據
3.3.6ZooKeeper監聽節點
3.3.7ZooKeeper監聽子節點
3.3.8ZooKeeper實現服務註冊與發現
第4章資料倉儲Hive
4.1Hive簡介和特點
4.2Hive結構與原理
4.2.1Hive結構
4.2.2Hive運行的流程
4.2.3Hive的HQL轉換過程
4.3電商用戶行為分析
4.3.1項目背景及目的
4.3.2數據導入
4.3.3資料清洗
4.3.4數據分析
第5章面向列的數據庫HBase
5.1HBase簡介
5.2HBase架構
5.2.1HBase的組件
5.2.2HBase工作機制
5.3HBase資料模型
5.4HBase讀寫流程
5.4.1HBase寫入操作流程
5.4.2HBase讀取操作流程
5.5HBase的API範例
5.5.1HBase建立表
5.5.2HBase保持數據
5.5.3HBase更新數據
5.5.4HBase獲取數據
5.5.5HBase刪除數據
5.5.6使用HBase取得某一行數據
5.6HBase儲存訂單案例
第6章大數據開發實戰資料遷移工具Sqoop
6.1Sqoop架構和工作原理
6.1.1Sqoop導入原理
6.1.2Sqoop導出原理
6.2Sqoop將HDFS資料導入MySQL
6.3Sqoop將MySQL資料導入HDFS
第7章資料擷取工具Flume
7.1Flume簡介
7.2Flume構成和工作原理
7.2.1Flume構成
7.2.2Flume工作原理
7.3Flume實戰
7.3.1Flume監聽目錄實戰
7.3.2Flume一對多實戰
7.3.3Flume攔截器實戰
7.3.4Flume採集資料到HDFS
7.3.5Kafka對接Flume實戰
第8章發布訂閱訊息系統Kafka
8.1Kafka 簡介
8.2Kafka的訊息生產者
8.2.1Kafka生產者的運作流程
8.2.2Kafka生產者分區
8.2.3副本的同步複製和異步複製
8.2.4Kafka訊息發送確認機制
8.3Kafka的Broker保存訊息
8.3.1儲存方式與策略
8.3.2Topic建立與刪除
8.4Kafka的訊息消費者
8.4.1消費機制
8.4.2消費者組
8.5Kafka 的儲存機制
8.5.1Kafka主題Topic
8.5.2Kafka分片Partition
8.5.3Kafka日誌Segment File
8.6Kafka 實戰
8.6.1Kafka發送訊息
8.6.2Kafka自訂分區發送訊息
8.6.3Spring Boot整合Kafka發送訊息
第9章資料處理分析引擎Spark
9.1Spark 簡介
9.2Spark 運行原理
9.2.1Spark的基本概念
9.2.2Spark運行的原理
9.2.3Driver運行在Client
9.2.4Driver運行在Worker節點
9.3Spark算子RDD
9.3.1RDD的屬性
9.3.2RDD的依賴關係
9.3.3RDD的shuffle過程
9.3.4RDD的快取和檢查機制
9.4Spark SQL
9.4.1Spark SQL概念
9.4.2Spark SQL的架構
9.4.3DataSets和DataFrames
9.4.4Spark SQL範例
9.5Spark Streaming
9.5.1Spark Streaming介紹/9.5.2DStream轉換操作
9.5.3Spark Streaming視窗操作
9.5.4DStream輸入
9.5.5DStream 輸出
9.5.6DSFrame和SQL操作
9.5.7Spark Streaming檢查點
9.6Spark Streaming接收Flume資料實戰
9.7Spark Streaming接收Kafka資料實戰
第10章全文搜尋引擎Elasticsearch
10.1Elasticsearch簡介
10.2Elasticsearch架構和原理
10.2.1Elasticsearch核心概念
10.2.2Elasticsearch工作原理
10.2.3Elasticsearch倒排索引
10.3Elasticsearch實戰
10.3.1Elasticsearch索引創建
10.3.2Elasticsearch索引更新
10.3.3Elasticsearch索引查詢
10.3.4Elasticsearch索引刪除
10.3.5Elasticsearch保存文檔
10.3.6Elasticsearch更新文檔
10.3.7Elasticsearch精確查詢
10.3.8Elasticsearch模糊查詢
10.3.9Elasticsearch範圍查詢
10.3.10Elasticsearch布林查詢
10.3.11Elasticsearch聚合查詢
10.3.12Elasticsearch高亮查詢
10.4Elasticsearch實現搜尋系統
10.4.1搜尋系統項目環境準備
10.4.2Elasticsearch實現搜尋功能
第11章分佈式處理引擎Flink
11.1Flink 概述
11.2Flink基本元件與運行時架構
11.2.1Flink運行時架構
11.2.2Flink的分層
11.3Flink流程處理流程
11.3.1Flink環境設定(Environment)
11.3.2Flink源算子(Source)
11.3.3Flink支援的資料類型
11.3.4