乾淨的數據:數據清洗入門與實踐, (Clean Data) 干净的数据:数据清洗入门与实践
斯誇爾 (Megan Squire)
- 出版商: 人民郵電
- 出版日期: 2016-05-01
- 定價: $294
- 售價: 8.5 折 $250
- 語言: 簡體中文
- 頁數: 188
- 裝訂: 平裝
- ISBN: 7115420475
- ISBN-13: 9787115420473
-
相關分類:
Data Science
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$420$332 -
$680$537 -
$403駕馭文本(文本的發現組織和處理)
-
$780$616 -
$689$655 -
$300$237 -
$234$222 -
$354$336 -
$250資料整理實踐指南
-
$403Java 併發編程:核心方法與框架 (Java Concurrent Programming Core Method and Frameworks)
-
$250敏捷軟件測試 : 測試人員與敏捷團隊的實踐指南
-
$301SpringBoot 揭秘 : 快速構建微服務體系
-
$250Spark最佳實踐
-
$420$332 -
$281大型網站服務器容量規劃
-
$509大數據搜索引擎原理分析及編程實現
-
$509領域驅動設計 : 軟件核心複雜性應對之道
-
$520$442 -
$360$324 -
$221Python 機器學習及實踐 --- 從零開始通往 Kaggle 競賽之路
-
$327大數據架構詳解:從數據獲取到深度學習
-
$360$281 -
$352Python大戰機器學習:數據科學家的第一個小目標
-
$680$537 -
$403大數據架構和算法實現之路:電商系統的技術實戰(Big Data Architecture and Algorithm in Action the Implementation in E-Commerce Systems)
相關主題
商品描述
<內容介紹>
由斯誇爾著的《乾淨的數據(數據清洗入門與實踐)/圖靈程序設計叢書》主要內容包括:數據清洗在數據科學領域中的重要作用,文件格式、數據類型、字符編碼的基本概念,組織和處理數據的電子錶格與文本編輯器,各種格式數據的轉換方法,解析和清洗網頁上的HTML文件的三種策略,提取和清洗PDF文件中數據的方法,檢測和清除RDBMS中的壞數據的解決方案,以及使用書中介紹的方法清洗來自Twirer和Stack Overflow的數據.
本書適合任何水平的數據科學家以及對數據清理感興趣的讀者閱讀。
<章節目錄>
第1章 為什麼需要清洗數據
1.1 新視角
1.2 數據科學過程
1.3 傳達數據清洗工作的內容
1.4 數據清洗環境
1.5 入門示例
1.6 小結
第2章 基礎知識——格式、 類型與編碼
2.1 文件格式
2.1.1 文本文件與二進制文件
2.1.2 常見的文本文件格式
2.1.3 分隔格式
2.2 歸檔與壓縮
2.2.1 歸檔文件
2.2.2 壓縮文件
2.3 數據類型、空值與編碼
2.3.1 數據類型
2.3.2 數據類型間的相互轉換
2.3.3 轉換策略
2.3.4 隱藏在數據森林中的空值
2.3.5 字符編碼
2.4 小結
第3章 數據清洗的老黃牛——電子錶格和文本編輯器
3.1 電子錶格中的數據清洗
3.1.1 Excel 的文本分列功能
3.1.2 字符串拆分
3.1.3 字符串拼接
3.2 文本編輯器里的數據清洗
3.2.1 文本調整
3.2.2 列選模式
3.2.3 加強版的查找與替換功能
3.2.4 文本排序與去重處理
3.2.5 Process Lines Containing
3.3 示例項目
3.3.1第一步:問題陳述
3.3.2第二步:數據收集
3.3.3第三步:數據清洗
3.3.4第四步:數據分析
3.4 小結
第4章 講通用語言——數據轉換
4.1 基於工具的快速轉換
4.1.1 從電子錶格到CSV
4.1.2 從電子錶格到JSON
4.1.3 使用phpMyAdmin 從SQL語句中生成CSV 或JSON
4.2 使用PHP 實現數據轉換
4.2.1 使用PHP 實現SQL 到JSON的數據轉換
4.2.2 使用PHP 實現SQL 到CSV的數據轉換
4.2.3 使用PHP 實現JSON 到CSV的數據轉換
4.2.4 使用PHP 實現CSV 到JSON的數據轉換
4.3 使用Python 實現數據轉換
第8章 數據分享的最佳實踐
第9章 Stack Overflow項目
第10章 Twitter項目
第5章 收集並清洗來自網絡的數據.
第6章 清洗PDF文件中的數據
第7章 RDBMS清洗技術