數據倉庫與數據挖掘(微課視頻版)

郭洪延、白淳予

  • 數據倉庫與數據挖掘(微課視頻版)-preview-1
  • 數據倉庫與數據挖掘(微課視頻版)-preview-2
  • 數據倉庫與數據挖掘(微課視頻版)-preview-3
  • 數據倉庫與數據挖掘(微課視頻版)-preview-4
  • 數據倉庫與數據挖掘(微課視頻版)-preview-5
  • 數據倉庫與數據挖掘(微課視頻版)-preview-6
數據倉庫與數據挖掘(微課視頻版)-preview-1

相關主題

商品描述

"《數據倉庫與數據挖掘(微課視頻版)》旨在介紹企業實踐中數據倉庫、數據分析和數據挖掘常見技術,包括如何構建、管理和使用面向大數據的數據倉庫,如何使用常見工具對數據進行分析和展示,以及如何使用分類、聚類、回歸、關聯等算法進行數據挖掘。 全書共分3篇: 第1篇(第1~3章)為數據倉庫篇,著重介紹數據倉庫的基本概念、Hive的搭建和管理、基於Hive的SQL語言; 第2篇(第4~7章)為數據分析篇,著重討論了如何使用WPS等工具對常見表格進行處理、如何使用NumPy和Pandas等Python工具包對數據進行分析、如何使用以FineReport為代表的BI軟件進行報表開發; 第3篇(第8~13章)為數據挖掘篇,主要涵蓋了線性回歸、邏輯回歸、決策樹、隨機森林、SVM、XGBoost、KMeans、DBSCAN、協同過濾等常見數據挖掘算法的原理、實現和參數優化方法,並介紹了常見的數據預處理方法和神經網絡等人工智能技術。全書提供了大量應用案例,每章後均附有習題。 《數據倉庫與數據挖掘(微課視頻版)》適合作為高等院校人工智能、大數據、計算機等專業相關課程的教材,也可作為金融、醫學、管理學等學科研究人員使用數據挖掘進行科研的參考書。 "

目錄大綱

目錄

 

第1篇數據倉庫

 

第1章數據倉庫概述

 

1.1基本概念

 

1.1.1數據倉庫的定義

 

1.1.2數據倉庫與傳統數據庫

 

1.2數據倉庫的體系結構

 

1.3數據倉庫服務器

 

1.4多維數據模型

 

1.5OLAP、OLTP及與數據倉庫的關系 

 

1.6OLAP服務器

 

課後習題

 

第2章Hive

 

2.1Hive技術

 

2.1.1Hive的基本概念

 

2.1.2Hive的應用場景

 

2.1.3Hive與傳統數據倉庫的對比

 

2.1.4Hive的優缺點

 

2.2Hive的功能與架構

 

2.3Hive部署

 

2.3.1Hive部署方式

 

2.3.2基礎環境安裝

 

2.3.3安裝配置Hive

 

2.4Hive數據存儲模型

 

2.4.1數據存儲結構

 

2.4.2托管表和外部表

 

課後習題

 

第3章HiveQL操作

 

3.1Hive基本操作

 

3.1.1數據定義語言

 

3.1.2數據管理語言

 

3.1.3數據查詢語言

 

3.2HiveQL實例

 

課後習題

 

第2篇數據分析

 

第4章表格處理

 

4.1針對表格的操作

 

4.1.1數據分列

 

4.1.2使用Ctrl+E提取數據

 

4.1.3大小寫數字轉換

 

4.1.4快速定位缺失值

 

4.1.5凍結窗格

 

4.2常用函數

 

4.2.1數值運算函數

 

4.2.2字符處理函數

 

4.2.3邏輯運算函數

 

4.2.4VLOOKUP

 

4.2.5時間序列函數

 

4.3圖表

 

4.3.1生成圖表

 

4.3.2圖表的細節修改

 

課後習題

 

第5章Python與NumPy

 

5.1Python簡介

 

5.1.1Anaconda簡介

 

5.1.2Jupyter Notebook簡介

 

5.1.3Python語法簡介

 

5.2NumPy簡介

 

5.2.1初識數組

 

5.2.2數組的創建

 

5.2.3數組索引

 

5.2.4NumPy的常用方法和屬性

 

課後習題

 

第6章Pandas與Matplotlib

 

6.1Pandas

 

6.1.1Pandas中的Series

 

6.1.2Series的創建

 

6.1.3Series的索引

 

6.1.4Series的數據對齊

 

6.1.5處理空值

 

6.1.6Pandas中的DataFrame

 

6.1.7DataFrame的常用屬性

 

6.1.8DataFrame索引

 

6.1.9DataFrame的對位運算與對齊原則

 

6.1.10DataFrame處理缺失值

 

6.1.11DataFrame的常用方法

 

6.2時間序列

 

6.2.1生成一個時間序列

 

6.2.2時間序列的操作

 

6.2.3read_csv的高級應用

 

6.3Matplotlib

 

6.3.1使用Matplotlib畫折線圖

 

6.3.2圖形詳細信息

 

6.3.3其他圖

 

課後習題

 

第7章報表開發與設計

 

7.1報表的類型

 

7.2FineReport

 

7.2.1基本功能結構

 

7.2.2FineReport 特性

 

7.3開發環境準備

 

7.4快速開發一個報表

 

課後習題

 

第3篇數據挖掘

 

第8章線性回歸與邏輯回歸

 

8.1線性回歸

 

8.1.1線性回歸原理

 

8.1.2損失函數與損失函數的解法

 

8.1.3正則化與過擬合

 

8.1.4線性回歸的實現與模型評價

 

8.1.5重要參數和屬性

 

8.2邏輯回歸

 

8.2.1邏輯回歸原理

 

8.2.2邏輯回歸的實現方法與模型評價(混淆矩陣)

 

8.2.3重要參數和調參方法

 

課後習題

 

第9章決策樹與隨機森林

 

9.1決策樹

 

9.1.1決策樹的原理

 

9.1.2如何建立一棵決策樹

 

9.1.3sklearn中的決策樹實現

 

9.1.4決策樹調參

 

9.1.5決策樹的重要屬性和方法

 

9.2回歸樹

 

9.2.1回歸樹的工作原理

 

9.2.2回歸樹建樹過程

 

9.2.3回歸樹的實現

 

9.3隨機森林

 

9.3.1隨機森林工作原理

 

9.3.2隨機森林實現

 

9.3.3重要參數

 

9.3.4網格搜索

 

課後習題

 

第10章SVM與XGBoost

 

10.1SVM原理

 

10.1.1SVM基本概念

 

10.1.2SVM的損失函數

 

10.1.3拉格朗日對偶函數

 

10.1.4核函數

 

10.1.5軟間隔

 

10.1.6SVM代碼實現

 

10.1.7SVM主要參數

 

10.2XGBoost原理

 

10.2.1XGBoost的基本思路

 

10.2.2XGBoost的構建

 

10.2.3XGBoost實現回歸

 

10.2.4XGBoost實現分類

 

10.2.5XGBoost的重要參數

 

課後習題

 

第11章聚類

 

11.1聚類算法

 

11.1.1KMeans

 

11.1.2DBSCAN

 

11.2模型的保存和導入

 

11.3關聯算法

 

11.3.1Apriori算法

 

11.3.2協同過濾算法

 

課後習題

 

第12章數據預處理、特征選擇與降維

 

12.1數據預處理

 

12.1.1數據無量綱化

 

12.1.2缺失值處理

 

12.1.3編碼

 

12.1.4分段

 

12.2特征選擇

 

12.2.1過濾法

 

12.2.2嵌入法

 

12.2.3包裹法

 

12.3降維

 

12.3.1降維與特征選擇的區別

 

12.3.2PCA工作原理

 

12.3.3PCA實現

 

課後習題

 

第13章自然語言處理、知識圖譜與神經網絡

 

13.1自然語言處理

 

13.1.1自然語言處理的定義

 

13.1.2自然語言處理的作用

 

13.1.3自然語言識別技術

 

13.2知識圖譜

 

13.2.1知識圖譜的定義

 

13.2.2知識圖譜的作用

 

13.2.3知識圖譜的工具

 

13.3神經網絡

 

13.3.1神經網絡的定義

 

13.3.2神經網絡的作用

 

13.3.3神經網絡實現工具

 

課後習題