大數據技能競賽知識點解析與實踐

李輝, 張瑩, 盧興民主編

  • 出版商: 機械工業
  • 出版日期: 2023-06-01
  • 定價: $594
  • 售價: 8.5$505
  • 語言: 簡體中文
  • 頁數: 372
  • 裝訂: 平裝
  • ISBN: 7111731123
  • ISBN-13: 9787111731122
  • 相關分類: 大數據 Big-data
  • 立即出貨 (庫存 < 3)

相關主題

商品描述

本書以大學生大數據技能競賽、“強國杯”大數據技術應用競賽為背景,
全面系統地講述了大數據技術的基本原理和應用。
本書共5章,主要介紹了Linux操作系統的常用命令和服務使用;
MySQL數據庫操作、數據操作管理、視圖、權限管理、備份與還原;
圍繞大數據框架講述了Hadoop技術、Hive數據倉庫等大數據組件架構的應用,
同時提供了故障排查、性能調優等平台運維管理方案,數據採集存儲和統計分析;數據挖掘與可視化等內容。

目錄大綱

前言
實驗環境配置說明
第1章Linux操作系統
1.1 主機名配置
1.1.1 設置主機名
1.1.2 Hosts映射
1.2 防火牆配置與管理
1.2.1 防火牆操作命令
1.2.2 配置防火牆規則
1.3 時間同步
1.3.1 同步網絡時間
1.3.2 同步服務器時間
1.4 定時任務管理
1.5 SSH遠程訪問
1.5.1 SSH協議
1.5.2 SSH連接工具
1.6 軟件包管理
1.6.1 軟件配置
1.6.2 下載安裝軟件
思考與練習
第2章數據庫技術
2.1 MySQL數據庫
2.1.1 MySQL的安裝
2.1.2 數據庫操作管理
2.1.3 數據表操作管理
2.1.4 數據操作管理
2.1.5 視圖
2.1.6 權限管理
2.1.7 備份與還原
2.1.8 SQL優化
2.2 非關係型數據庫NoSQL
2.2.1 HBase列式數據庫
2.2.2 Redis數據庫
2.2.3 MongoDB文件數據庫
思考與練習
第3章大數據平台技術
3.1 Hadoop分佈式大數據框架
3.1.1 搭建Hadoop偽分佈式集群
3.1.2 搭建Hadoop完全分佈式集群
3.1.3 命令行方式管理HDFS
3.1.4 使用開發工具連接Hadoop集群
3.1.5 Java API操作HDFS
3.1.6 分佈式計算框架之MapReduce
3.1.7 編寫MapReduce方法
3.1.8 配置Hadoop集群高可用(HA)
3.2 Hive數據倉庫
3.2.1 本地模式安裝Hive數據倉庫
3.2.2 Hive數據倉庫的常見屬性
3.2.3 Hive DDL操作
3.2.4 Hive DML操作
3.2.5 Hive中的數據查詢
3.2.6 Hive中的窗口函數
3.2.7 案例:國內主要城市房屋出租
情況統計分析
3.3 HBase數據庫
3.3.1 搭建HBase偽分佈式集群
3.3.2 HBase的Shell操作
3.3.3 HBase的Java API操作
3.3.4 使用HBase的過濾器
3.3.5 HBase與MapReduce的集成
3.3.6 HBase與Hive的集成
3.3.7 HBase與Sqoop的集成
3.4 Spark技術框架
3.4.1 集群安裝部署
3.4.2 Spark Shell
3.4.3 Spark SQL
3.4.4 Spark Streaming
3.4.5 Spark MLlib
3.4.6 Structured Streaming實時計算
3.5 大數據平台運維與管理
3.5.1 故障排查
3.5.2 性能調優
3.6 大數據框架應用
3.6.1 協調框架:ZooKeeper
3.6.2 數據收集:Flume
3.6.3 數據傳輸:Sqoop
3.6.4 任務調度工具:Azkaban
思考與練習
第4章數據採集與分析
4.1 報表數據處理
4.1.1 數據預處理
4.1.2 數據分析
4.2 網絡信息獲取技術
4.2.1 HTTP基本原理
4.2.2 網頁組成
4.2.3 網絡請求
4.2.4 正則表達式
4.2.5 XPath解析
4.2.6 Beautiful Soup
4.2.7 數據存儲
4.3 數據統計分析
4.3.1 描述性分析
4.3.2 探索性分析
4.3.3 缺失值分析
4.3.4 方差分析
4.3.5 T檢驗
4.3.6 卡方檢驗
思考與練習
第5章數據挖掘與數據可視化
5.1 數據挖掘
5.1.1 線性回歸
5.1.2 邏輯回歸
5.1.3 支持向量機
5.1.4 樸素貝葉斯
5.1.5 決策樹
5.1.6 時間序列分析
5.1.7 關聯分析
5.1.8 K-Means聚類
5.1.9 主成分分析
5.2 數據可視化
5.2.1 報表可視化
5.2.2 Matplotlib可視化
5.2.3 Seaborn可視化
5.2.4 ECharts實現數據可視化
5.2.5 D3實現數據可視化
5.2.6 FineBI實現數據可視化
5.2.7 Tableau實現數據可視化
5.3 業務分析報告撰寫
5.3.1 明確背景與目的
5.3.2 尋找合適數據
5.3.3 數據分析與圖表
5.3.4 報告結論與建議
5.3.5 邏輯結構清晰
思考與練習