ETL數據整合與處理(Kettle)(第2版)(微課版)

鄭健,張良均

  • 出版商: 人民郵電
  • 出版日期: 2025-10-01
  • 售價: $359
  • 語言: 簡體中文
  • 頁數: 212
  • ISBN: 7115665478
  • ISBN-13: 9787115665478
  • 相關分類: 大數據 Big-data
  • 下單後立即進貨 (約4週~6週)

  • ETL數據整合與處理(Kettle)(第2版)(微課版)-preview-1
ETL數據整合與處理(Kettle)(第2版)(微課版)-preview-1

相關主題

商品描述

本書以使用Kettle工具實現ETL流程為目標,將ETL知識點與項目任務相結合,配合真實案例,按照ETL的流程,循序漸進地介紹ETL數據整合與處理的相關內容。全書共6個項目,項目1介紹ETL概念和ETL工具等;項目2以獲取食品銷售源數據為例,介紹獲取不同類型源數據的方法,並說明它們之間的差別;項目3以整合和處理某大型供應鏈集團的食品銷售數據為例,介紹從獲取多份源數據開始,使用排序、合並、剪切、拆分、刪除、過濾、替換和輸出等一系列與ETL流程相匹配的處理方法,整合和處理出一份符合項目階段目標要求的數據的方法,幫助讀者快速理解和掌握ETL;項目4以項目3的階段目標數據作為源數據,介紹進行數據計算和統計的方法,以及將統計結果輸出到不同類型的數據文件中的方式,幫助讀者從業務上理解數據計算和統計的要求,以及輸出結果的方法;項目5介紹Kettle的任務執行方式,構建任務流程,設定調度時間,自動執行項目3中整合和處理食品銷售數據的任務;項目6介紹無人售貨機項目,通過項目案例的形式,幫助讀者將所學知識融會貫通。

本書可以作為高校大數據相關專業的教材,也可以作為ETL愛好者的自學用書。

作者簡介

鄭健,武昌職業學院,擔任專職教師、如軟件技術、信息安全技術應用專業教研室主任。獲得軟件著作權2項,專利2項;2023年“湖北工匠杯”職業技能大賽-計算機軟件工程技術人員賽項一等獎,獲得“湖北省技術能手”稱號;2023年第五屆全國高校計算機能力挑戰賽評為“優秀指導教師”“優秀組織者”;第二十二屆武漢市職業技能大賽暨2021年武漢市職業院校技能大賽,指導學生獲得一等獎,並獲得“優秀指導教師”稱號;2021、2022、2023、2024年連續4年獲得新華三全國大學生數字技術大賽“優秀指導教師”。

目錄大綱

項目1 開啟ETL之旅 1

任務1.1 認識ETL 1

1.1.1 了解ETL 2

1.1.2 選擇ETL工具 4

任務1.2 配置Kettle運行環境 7

1.2.1 安裝JDK 8

1.2.2 安裝MySQL數據庫 10

1.2.3 配置Kettle 11

任務1.3 熟悉Kettle的基本操作 12

1.3.1 認識Kettle界面 12

1.3.2 了解轉換和任務 17

1.3.3 運行工程並查看執行結果 20

小結 22

實訓 22

實訓1 安裝MySQL數據庫 22

實訓2 安裝Kettle 23

課後習題 23

項目2 獲取食品銷售源數據 25

任務2.1 創建數據庫連接 25

2.1.1 新建數據庫連接 26

2.1.2 設置數據庫連接參數 26

2.1.3 測試和瀏覽數據庫連接 29

2.1.4 建立/停止共享數據庫連接 30

任務2.2 獲取數據庫的食品銷售數據 31

2.2.1 創建“表輸入”組件 31

2.2.2 設置組件參數 32

2.2.3 預覽獲取的數據 34

任務2.3 獲取CSV文件的食品銷售數據 35

2.3.1 創建“CSV文件輸入”組件 35

2.3.2 設置組件參數 35

2.3.3 預覽獲取的數據 38

任務2.4 獲取Excel文件的食品銷售數據 38

2.4.1 創建“Microsoft Excel input”組件 39

2.4.2 設置組件參數 39

2.4.3 預覽獲取的數據 47

小結 47

實訓 48

實訓1 獲取數據庫的日化銷售數據 48

實訓2 獲取CSV文件的日化銷售數據 48

實訓3 獲取Excel文件的日化銷售數據 49

課後習題 49

項目3 整合和處理食品銷售數據 51

任務3.1 處理多文件銷售數據 52

3.1.1 排序文件數據 52

3.1.2 連接銷售數據文件 56

3.1.3 字段選擇 59

3.1.4 刪除不規範的“銷售時間”字段 64

3.1.5 替換“包裝單位”字段的NULL值 67

任務3.2 合並銷售數據 70

3.2.1 合並數據 70

3.2.2 合並所有的銷售數據 74

任務3.3 剪切“平臺”字段的字符串 76

3.3.1 創建“剪切字符串”組件 77

3.3.2 設置組件參數 77

3.3.3 預覽結果數據 78

任務3.4 拆分“經營單位”字段 79

3.4.1 創建“拆分字段”組件 79

3.4.2 設置組件參數 79

3.4.3 預覽結果數據 81

任務3.5 刪除數據中的多余字段和重復記錄 82

3.5.1 刪除多余字段 82

3.5.2 刪除重復記錄 84

任務3.6 過濾並替換不規範的字段數據 87

3.6.1 設定條件過濾記錄 87

3.6.2 規範字段數據 93

任務3.7 輸出銷售數據到數據庫表 95

3.7.1 創建“表輸出”組件 95

3.7.2 設置組件參數 96

3.7.3 預覽結果數據 99

小結 99

實訓 100

實訓1 合並D平臺的日化銷售數據 100

實訓2 處理B、C平臺的日化銷售數據 101

實訓3 整合和處理A、B、C、D平臺的日化銷售數據 102

課後習題 102

項目4 統計食品銷售數據 106

任務4.1 計算訂單利潤和利潤率 106

4.1.1 創建計算訂單利潤和利潤率的組件 107

4.1.2 設置組件參數 108

4.1.3 預覽結果數據 109

任務4.2 計算單價 109

4.2.1 創建“計算器”組件 110

4.2.2 設置組件參數 110

4.2.3 預覽結果數據 111

任務4.3 聚合統計銷售額數據 112

4.3.1 聚合統計銷售額 112

4.3.2 輸出聚合統計結果 114

任務4.4 統計平臺食品銷售數據 119

4.4.1 分組統計 119

4.4.2 輸出結果到數據庫 123

任務4.5 統計分公司食品銷售數據 125

4.5.1 評出“優秀經營單位” 125

4.5.2 插入結果到數據庫 128

任務4.6 統計商品品牌食品銷售數據 131

4.6.1 創建“SQL文件輸出”組件 132

4.6.2 設置組件參數 133

4.6.3 預覽結果數據 136

任務4.7 對銷售額進行離散化統計 136

4.7.1 對銷售額大小進行分段 137

4.7.2 分段統計並輸出結果到Excel文件 139

小結 146

實訓 146

實訓1 計算日化銷售數據中各個訂單的利潤、利潤率 146

實訓2 統計平臺日化銷售數據 147

實訓3 統計分公司日化銷售數據 147

實訓4 統計各個商品品牌的日化銷售數據 148

課後習題 148

項目5 執行整合與處理食品銷售數據任務 151

任務5.1 開始任務 152

5.1.1 創建“Start”組件 152

5.1.2 設置組件參數 152

5.1.3 運行任務 153

任務5.2 檢查輸入源數據文件 155

5.2.1 檢查源數據文件是否存在 155

5.2.2 等待文件上傳 158

任務5.3 檢查輸出數據表 159

5.3.1 檢查輸出數據表是否存在 160

5.3.2 使用“SQL”組件生成輸出數據表 161

任務5.4 執行數據整合與處理轉換工程任務 164

5.4.1 創建“執行數據整合與處理工程”組件 164

5.4.2 設置組件參數 165

5.4.3 運行任務 169

任務5.5 添加日誌文件 169

5.5.1 創建“添加文件到結果文件中”組件 169

5.5.2 設置組件參數 170

5.5.3 運行任務 171

任務5.6 發送日誌郵件 172

5.6.1 創建“發送郵件”組件 172

5.6.2 設置組件參數 172

5.6.3 運行任務 176

任務5.7 結束任務 177

5.7.1 創建“成功”組件 177

5.7.2 設置組件參數 177

5.7.3 運行任務 178

小結 178

實訓 178

實訓1 執行日化銷售數據整合與處理任務 178

實訓2 執行統計日化銷售數據任務 179

課後習題 180

項目6 無人售貨機項目實戰 183

任務6.1 了解無人售貨機項目背景與目標 183

6.1.1 了解項目背景 184

6.1.2 熟悉項目目標 184

6.1.3 熟悉數據字段 184

任務6.2 統計客戶訂單數據 187

6.2.1 分析任務數據和數據處理需求 187

6.2.2 熟悉任務流程 188

6.2.3 實現客戶訂單數據的統計 189

任務6.3 統計商品銷售數據 192

6.3.1 分析任務數據和數據處理需求 193

6.3.2 熟悉任務流程 193

6.3.3 實現商品銷售數據的統計 194

任務6.4 統計無人售貨機日銷售數據 197

6.4.1 分析任務數據和數據處理需求 197

6.4.2 熟悉任務流程 198

6.4.3 實現無人售貨機日銷售數據的統計 199

任務6.5 統計無人售貨機銷售盈利數據 202

6.5.1 分析任務數據和數據處理需求 203

6.5.2 熟悉任務流程 204

6.5.3 實現無人售貨機銷售盈利數據的統計 205

小結 211

課後習題 212