數據采集及預處理基礎與應用

陳瑛 許桂秋 周敏

  • 出版商: 人民郵電
  • 出版日期: 2025-11-01
  • 售價: $479
  • 語言: 簡體中文
  • 頁數: 287
  • ISBN: 7115635250
  • ISBN-13: 9787115635259
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • 數據采集及預處理基礎與應用-preview-1
數據采集及預處理基礎與應用-preview-1

相關主題

商品描述

本書主要介紹如何利用Kettle和Python這兩個具有代表性的工具進行數據預處理的相關技術與方法,包括數據抽取、數據清洗、數據集成、數據變換等。全書有9章,內容涉及數據采集、環境部署、Kettle安裝及應用、pandas應用,以及數據可視化的基礎內容。本書采用任務式編寫形式,將大數據預處理技術的理論和實現分解到一個個任務中,融入到一個個典型案例中,讓讀者在完成各任務的同時掌握和理解相關內容。 本書既有技術的深度,也有行業應用的廣度,適合作為高等院校計算機、數據科學與大數據技術等相關專業課程的教材,也適合作為數據處理行業從業人員的參考用書。

作者簡介

許桂秋,主要研究方向大數據和人工智能,已出版《大數據導論》《Python編程基礎與應用》《NoSQL數據庫原理與應用》《數據挖掘與機器學習》等圖書。

目錄大綱

第 1章 Scrapy電影評論數據采集 1

任務1.1 數據采集 1

1.1.1 數據采集概述 1

1.1.2 數據采集方法 1

1.1.3 數據采集應用 3

任務1.2 網絡爬蟲 4

1.2.1 網絡爬蟲概述 4

1.2.2 常用網絡爬蟲方法 4

1.2.3 常用網絡爬蟲工具 5

任務1.3 網絡爬蟲實戰 6

1.3.1 獲取網頁 7

1.3.2 解析網頁 9

1.3.3 應對反爬機制 11

本章習題 12

第 2章 數據預處理環境安裝 13

任務2.1 數據預處理出現的背景及其目的 13

2.1.1 數據預處理出現的背景 13

2.1.2 數據預處理的目的 14

任務2.2 數據預處理的流程 15

2.2.1 數據清洗 15

2.2.2 數據集成 17

2.2.3 數據歸約 18

2.2.4 數據變換與數據離散化 23

2.3.5 數據預處理的註意事項 26

任務2.3 數據預處理的工具 26

2.3.1 Python預處理環境安裝 27

2.3.2 Kettle的下載安裝與Spoon的啟動 30

本章習題 34

第3章 Kettle的初步使用 35

任務3.1 Kettle的特點 36

任務3.2 Kettle的使用 36

3.2.1 轉換的基本概念 36

3.2.2 第 一個轉換案例 39

本章習題 53

第4章 基於Kettle的客戶信息數據預處理 54

任務4.1 客戶信息數據抽取 54

4.1.1 從文本文件讀入性別參照數據 54

4.1.2 從Excel文件讀入客戶信息數據 56

4.1.3 從MySQL數據庫讀取城市區號參照數據 60

任務4.2 客戶信息數據清洗 65

4.2.1 數據排序 65

4.2.2 去除重復數據 66

4.2.3 處理缺失值 73

4.2.4 字段清洗 75

4.2.5 字符串清洗 78

4.2.6 處理異常數據 82

任務4.3 將客戶信息數據加載至MySQL數據庫 88

本章習題 91

第5章 基於pandas的學生信息預處理 92

任務5.1 pandas詳解 92

5.1.1 pandas的數據結構及基本功能 92

5.1.2 數據加載與存儲 130

任務5.2 學生信息預處理 141

5.2.1 數據讀取及查看 141

5.2.2 索引對象 144

5.2.3 數據排序 145

本章習題 148

第6章 使用Python對運動員信息進行預處理 149

任務6.1 數據清洗 149

6.1.1 處理缺失數據 149

6.1.2 字符串操作 156

6.1.3 中國籃球運動員的基本信息清洗 163

任務6.2 數據集成 168

6.2.1 數據合並的常用方法 168

6.2.2 中國籃球運動員的基本信息合並 182

任務6.3 數據規約 183

6.3.1 數據規約方法 183

6.3.2 中國籃球運動員的基本信息規約 184

任務6.4 數據變換 185

6.4.1 數據變換常用方法 185

6.4.2 中國籃球運動員的基本信息數據變換 203

本章習題 206

第7章 使用Python對電影人氣進行預測(構建特征工程) 207

任務7.1 特征工程簡介 207

7.1.1 特征工程的重要性 207

7.1.2 特征工程是什麼 208

7.1.3 特征工程的評估 208

任務7.2 電影人氣預測 210

7.2.1 scikit-learn簡介 210

7.2.2 特征變換 211

7.2.3 特征選擇 222

7.2.4 電影人氣預測特征工程 237

本章習題 255

第8章 基於Python的銷售數據倉庫應用案例 256

任務8.1 數據倉庫簡介 256

8.1.1 數據倉庫出現的背景及其特點 256

8.1.2 數據倉庫的功能 257

8.1.3 數據倉庫與數據庫的區別 258

任務8.2 數據倉庫模型 259

8.2.1 事實表和維度表 259

8.2.2 數據模型的分類 260

8.2.3 建模階段劃分 260

8.2.4 常用建模方法 261

8.2.5 星形模型和雪花模型 262

任務8.3 數據倉庫案例 264

8.3.1 案例目的 264

8.3.2 案例背景 265

8.3.3 案例原理 265

8.3.4 案例環境 265

8.3.5 案例步驟 265

8.3.6 案例總結 273

本章習題 273

第9章 Python數據分析師崗位分析 274

任務9.1 了解項目背景與目標 274

任務9.2 讀取與清洗數據分析師崗位數據 275

9.2.1 分析目標與思路 275

9.2.2 數據收集 276

9.2.3 數據預處理 278

任務9.3 數據分析與可視化 281

9.3.1 數據分析師崗位的需求趨勢 281

9.3.2 數據分析師崗位的熱門城市Top10 283

9.3.3 不同城市數據分析師崗位的薪資水平 284

9.3.4 數據分析師崗位的學歷要求 286

任務9.4 總結 287

本章習題 287