數據倉庫與數據挖掘(微課視頻版)
郭洪延、白淳予
- 出版商: 清華大學
- 出版日期: 2026-05-01
- 售價: $294
- 語言: 簡體中文
- ISBN: 7302715033
- ISBN-13: 9787302715030
-
相關分類:
Data-mining、Data-visualization、Machine Learning
下單後立即進貨 (約4週~6週)
相關主題
商品描述
"《數據倉庫與數據挖掘(微課視頻版)》旨在介紹企業實踐中數據倉庫、數據分析和數據挖掘常見技術,包括如何構建、管理和使用面向大數據的數據倉庫,如何使用常見工具對數據進行分析和展示,以及如何使用分類、聚類、回歸、關聯等算法進行數據挖掘。 全書共分3篇: 第1篇(第1~3章)為數據倉庫篇,著重介紹數據倉庫的基本概念、Hive的搭建和管理、基於Hive的SQL語言; 第2篇(第4~7章)為數據分析篇,著重討論了如何使用WPS等工具對常見表格進行處理、如何使用NumPy和Pandas等Python工具包對數據進行分析、如何使用以FineReport為代表的BI軟件進行報表開發; 第3篇(第8~13章)為數據挖掘篇,主要涵蓋了線性回歸、邏輯回歸、決策樹、隨機森林、SVM、XGBoost、KMeans、DBSCAN、協同過濾等常見數據挖掘算法的原理、實現和參數優化方法,並介紹了常見的數據預處理方法和神經網絡等人工智能技術。全書提供了大量應用案例,每章後均附有習題。 《數據倉庫與數據挖掘(微課視頻版)》適合作為高等院校人工智能、大數據、計算機等專業相關課程的教材,也可作為金融、醫學、管理學等學科研究人員使用數據挖掘進行科研的參考書。 "
目錄大綱
目錄
第1篇數據倉庫
第1章數據倉庫概述
1.1基本概念
1.1.1數據倉庫的定義
1.1.2數據倉庫與傳統數據庫
1.2數據倉庫的體系結構
1.3數據倉庫服務器
1.4多維數據模型
1.5OLAP、OLTP及與數據倉庫的關系
1.6OLAP服務器
課後習題
第2章Hive
2.1Hive技術
2.1.1Hive的基本概念
2.1.2Hive的應用場景
2.1.3Hive與傳統數據倉庫的對比
2.1.4Hive的優缺點
2.2Hive的功能與架構
2.3Hive部署
2.3.1Hive部署方式
2.3.2基礎環境安裝
2.3.3安裝配置Hive
2.4Hive數據存儲模型
2.4.1數據存儲結構
2.4.2托管表和外部表
課後習題
第3章HiveQL操作
3.1Hive基本操作
3.1.1數據定義語言
3.1.2數據管理語言
3.1.3數據查詢語言
3.2HiveQL實例
課後習題
第2篇數據分析
第4章表格處理
4.1針對表格的操作
4.1.1數據分列
4.1.2使用Ctrl+E提取數據
4.1.3大小寫數字轉換
4.1.4快速定位缺失值
4.1.5凍結窗格
4.2常用函數
4.2.1數值運算函數
4.2.2字符處理函數
4.2.3邏輯運算函數
4.2.4VLOOKUP
4.2.5時間序列函數
4.3圖表
4.3.1生成圖表
4.3.2圖表的細節修改
課後習題
第5章Python與NumPy
5.1Python簡介
5.1.1Anaconda簡介
5.1.2Jupyter Notebook簡介
5.1.3Python語法簡介
5.2NumPy簡介
5.2.1初識數組
5.2.2數組的創建
5.2.3數組索引
5.2.4NumPy的常用方法和屬性
課後習題
第6章Pandas與Matplotlib
6.1Pandas
6.1.1Pandas中的Series
6.1.2Series的創建
6.1.3Series的索引
6.1.4Series的數據對齊
6.1.5處理空值
6.1.6Pandas中的DataFrame
6.1.7DataFrame的常用屬性
6.1.8DataFrame索引
6.1.9DataFrame的對位運算與對齊原則
6.1.10DataFrame處理缺失值
6.1.11DataFrame的常用方法
6.2時間序列
6.2.1生成一個時間序列
6.2.2時間序列的操作
6.2.3read_csv的高級應用
6.3Matplotlib
6.3.1使用Matplotlib畫折線圖
6.3.2圖形詳細信息
6.3.3其他圖
課後習題
第7章報表開發與設計
7.1報表的類型
7.2FineReport
7.2.1基本功能結構
7.2.2FineReport 特性
7.3開發環境準備
7.4快速開發一個報表
課後習題
第3篇數據挖掘
第8章線性回歸與邏輯回歸
8.1線性回歸
8.1.1線性回歸原理
8.1.2損失函數與損失函數的解法
8.1.3正則化與過擬合
8.1.4線性回歸的實現與模型評價
8.1.5重要參數和屬性
8.2邏輯回歸
8.2.1邏輯回歸原理
8.2.2邏輯回歸的實現方法與模型評價(混淆矩陣)
8.2.3重要參數和調參方法
課後習題
第9章決策樹與隨機森林
9.1決策樹
9.1.1決策樹的原理
9.1.2如何建立一棵決策樹
9.1.3sklearn中的決策樹實現
9.1.4決策樹調參
9.1.5決策樹的重要屬性和方法
9.2回歸樹
9.2.1回歸樹的工作原理
9.2.2回歸樹建樹過程
9.2.3回歸樹的實現
9.3隨機森林
9.3.1隨機森林工作原理
9.3.2隨機森林實現
9.3.3重要參數
9.3.4網格搜索
課後習題
第10章SVM與XGBoost
10.1SVM原理
10.1.1SVM基本概念
10.1.2SVM的損失函數
10.1.3拉格朗日對偶函數
10.1.4核函數
10.1.5軟間隔
10.1.6SVM代碼實現
10.1.7SVM主要參數
10.2XGBoost原理
10.2.1XGBoost的基本思路
10.2.2XGBoost的構建
10.2.3XGBoost實現回歸
10.2.4XGBoost實現分類
10.2.5XGBoost的重要參數
課後習題
第11章聚類
11.1聚類算法
11.1.1KMeans
11.1.2DBSCAN
11.2模型的保存和導入
11.3關聯算法
11.3.1Apriori算法
11.3.2協同過濾算法
課後習題
第12章數據預處理、特征選擇與降維
12.1數據預處理
12.1.1數據無量綱化
12.1.2缺失值處理
12.1.3編碼
12.1.4分段
12.2特征選擇
12.2.1過濾法
12.2.2嵌入法
12.2.3包裹法
12.3降維
12.3.1降維與特征選擇的區別
12.3.2PCA工作原理
12.3.3PCA實現
課後習題
第13章自然語言處理、知識圖譜與神經網絡
13.1自然語言處理
13.1.1自然語言處理的定義
13.1.2自然語言處理的作用
13.1.3自然語言識別技術
13.2知識圖譜
13.2.1知識圖譜的定義
13.2.2知識圖譜的作用
13.2.3知識圖譜的工具
13.3神經網絡
13.3.1神經網絡的定義
13.3.2神經網絡的作用
13.3.3神經網絡實現工具
課後習題






