數據清洗(第2版)
黑馬程序員
買這商品的人也買了...
-
$480$379 -
$301軟件測試流程設計 從傳統到敏捷
-
$281自動化測試 主流工具入門與提高
-
$301混沌工程實戰 手把手教你實現系統穩定性
-
$659$626 -
$654$621 -
$414$393 -
$1,200$948 -
$714$678 -
$654$621 -
$607機器學習項目交付實戰
-
$479$455 -
$714$678 -
$1,200$948 -
$594$564 -
$458Python服務端測試開發實戰
-
$490$387 -
$774$735 -
$539$512 -
$800$632 -
$534$507 -
$780$616 -
$654$621 -
$419$398 -
$534$507
相關主題
商品描述
"本書以Kettle 9.2為基礎,全面介紹使用Kettle實現ETL的相關操作。全書共8章,分別講解數據清洗和ETL的概念,Kettle的安裝和使用,如何使用Kettle實現數據抽取、數據清洗、數據轉換和數據加載,並在最後綜合運用上述知識,構建一個電影租賃商店數據倉庫,以使讀者加深對Kettle和ETL的理解與掌握。 本書附有配套視頻、教學PPT、教學設計、測試題等資源,同時,為了幫助初學者更好地學習本書中的內容,還提供了在線答疑,歡迎讀者關註。 本書可以作為高等院校數據科學與大數據技術及相關專業的教材,也適合大數據開發初學者、ETL工程師以及數倉開發的從業者閱讀。 "
目錄大綱
目錄
第1章數據清洗概述1
1.1數據清洗的背景1
1.1.1數據質量概述1
1.1.2數據質量的評價指標2
1.1.3數據質量問題的分類3
1.2數據清洗的定義5
1.3數據清洗基本流程6
1.4數據清洗策略6
1.5數據清洗常用的方法7
1.6數據清洗面臨的挑戰9
1.7本章小結10
1.8課後習題10
第2章初識ETL12
2.1ETL的定義12
2.2ETL的體系結構13
2.3ETL關鍵步驟13
2.3.1抽取14
2.3.2轉換15
2.3.3加載15
2.4常見的ETL工具16
2.5本章小結17
2.6課後習題17
第3章Kettle19
3.1初識Kettle19
3.1.1Kettle簡介19
3.1.2Kettle的特點20
3.2Kettle的安裝與啟動20
3.3Kettle的轉換和作業23
3.3.1轉換23
3.3.2作業25
3.4Kettle的基本操作27
3.4.1轉換管理27
3.4.2作業管理39
3.4.3數據庫連接50
3.5本章小結55
3.6課後習題56
目錄數據清洗(第2版)第4章數據抽取57
4.1從文件中抽取數據57
4.1.1從CSV文件中抽取數據57
4.1.2從TSV文件中抽取數據61
4.1.3從JSON文件中抽取數據65
4.1.4從XML文件中抽取數據70
4.1.5從HDFS中抽取數據75
4.2從數據庫中抽取數據84
4.2.1從關系數據庫中抽取數據84
4.2.2從非關系數據庫中抽取數據87
4.3從Hive中抽取數據93
4.4從HTML頁面中抽取數據98
4.5本章小結105
4.6課後習題105
第5章數據清洗107
5.1重復值處理107
5.2缺失值處理112
5.2.1缺失值處理策略112
5.2.2刪除缺失值113
5.2.3填補缺失值117
5.3異常值處理123
5.3.1刪除異常值124
5.3.2替換異常值134
5.4本章小結141
5.5課後習題141
第6章數據轉換142
6.1數據規範化處理142
6.1.1數據規範化處理概述142
6.1.2數據規範化處理過程144
6.2多數據源合並149
6.2.1多數據源合並方法149
6.2.2多數據源合並過程150
6.3數據粒度轉換160
6.4數據的商務規則計算169
6.5本章小結176
6.6課後習題177
第7章數據加載178
7.1將數據加載到文本文件178
7.2將數據加載到數據庫188
7.2.1將數據加載到關系數據庫188
7.2.2將數據加載到非關系數據庫196
7.3將數據加載到Hive201
7.4本章小結211
7.5課後習題212
第8章綜合案例——構建電影租賃商店數據倉庫213
8.1案例概述213
8.1.1案例背景介紹213
8.1.2數據庫簡介213
8.1.3數據倉庫簡介219
8.2環境準備226
8.3案例實現231
8.3.1向維度表dim_date加載數據231
8.3.2向維度表dim_time加載數據240
8.3.3向維度表dim_staff加載數據247
8.3.4向維度表dim_customer加載數據253
8.3.5向維度表dim_store加載數據264
8.3.6向維度表dim_actor加載數據268
8.3.7向維度表dim_film加載數據272
8.3.8向橋接表dim_film_actor_bridge加載數據282
8.3.9向事實表fact_rental加載數據289
8.3.10定期向數據倉庫sakila_dwh加載數據301
8.4本章小結307