SQL資料分析 SQL for Data Analysis: Advanced Techniques for Transforming Data Into Insights
Cathy Tanimura 譯者 王薇//時暢
- 出版商: 中國電力
- 出版日期: 2023-09-01
- 定價: $768
- 售價: 8.5 折 $653
- 語言: 簡體中文
- 頁數: 370
- 裝訂: 平裝
- ISBN: 7519879518
- ISBN-13: 9787519879518
-
相關分類:
SQL、Data Science
- 此書翻譯自: SQL for Data Analysis: Advanced Techniques for Transforming Data Into Insights (Paperback)
已絕版
買這商品的人也買了...
相關主題
商品描述
本書的主要內容有:學習準備分析資料的關鍵步驟。
使用SQL的日期和時間操作進行時間序列分析。
使用同期群分析研究群體如何隨時間變化。
使用SQL的強大功能和操作符進行文字分析。
檢測資料中的異常值,並用代替值替換它們。
使用實驗分析建立因果關係,也稱為A/B測試。
目錄大綱
前言
第1章用SQL來做資料分析
1.1 什麼是資料分析
1.2 為什麼用SQL
1.2.1 SQL是什麼
1.2.2 SQL的優勢
1.2.3 SQL與R和Python的比較
1.2.4 SQL作為資料分析流程中的一部分
1.3 資料庫類型以及如何使用
1.3.1 行儲存資料
1.3.2 列儲存資料
1.3.3 其他的資料結構類型
1.4 總結
第2章為資料分析做準備
2.1 資料類型
2.1.1 資料庫的資料類型
2.1. 2 結構化和非結構化資料
2.1.3 定量和定性資料
2.1.4 第一方、第二方和第三方資料
2.1.5 稀疏資料
2.2 SQL查詢結構
2.3 資料剖析:分佈
2.3.1 直方圖和頻率
2.3.2 分箱
2.3.3 n-Tiles
2.4 資料剖析:資料品質
2.4.1 偵測重複資料
2.4.2 用GROUP BY和DISTINCT來處理重複資料
2.5 準備:資料清理
2.5.1 透過CASE轉換來清理資料
2.5 .2 資料型別轉換
2.5.3 處理空值:coalesce,nulliff,nvl函數
2.5.4 缺少的資料
2.6 準備:資料構形
2.6.1 你需要怎樣的輸出:BI,可視化,統計,機器學習
2.6.2以CASE語句進行資料透視
2.6.3 用UNION語句來取消資料透視
2.6.4 pivot(透視)和unpivot(取消透視)函數
2.7 總結
第3章時間序列分析
3.1 日期、日期時間和時間操作
3.1.1 時區轉換
3.1.2 日期和時間戳記的格式轉換
3.1.3 日期相關的計算
3.1.4 時間相關的計算
3.1.5 連接不同來源的數據
3.2 零售銷售數據集
3.3 對數據進行趨勢分析
3.3.1 簡單的趨勢
3.3.2 比較時間序列的組成部分
3.3.3 計算佔總數的百分比
3.3.4 運用索引以查看隨時間變化的百分比
3.4 滾動時間窗口
3.4.1 計算滾動時間窗口
3.4.2 稀疏數據的滾動時間窗口
3.4 .3 計算累計值
3.5 季節性分析
3.5.1 同期比較:YoY和MoM
3.5.2 同期比較:與去年的同月進行對比
3.5.3 與多個以前的周期做對比
3.6 總結
第4章同期群分析
4.1同期群:一個有用的分析架構
4.2 立法者資料集
4.3 留存
4.3.1 基本留存曲線的SQL
4.3.2 調整時間序列以提高留存率的準確度
4.3.3 從時間序列資料建構同期群
4.3.4從單獨的表格建構同期群
4.3.5 處理稀疏同期群
4.3.6 用除第一日期以外的其他日期定義同期群
4.4 相關同期群分析
4.4.1 生存
4.4.2 返回或重複購買行為
4.4.3累積計算
4.5 透過同期群看橫斷面分析
4.6 總結
第5章文本分析
5.1 為什麼使用SQL進行文本分析
5.1.1 什麼是文本分析
5.1.2 為什麼SQL是文本分析的好選擇
5.1.3 什麼情況下SQL不是一個好的選擇
5.2 UFO目擊資料集
5.3 文字特徵
5.4 解析文字
5.5 文字轉換
5.6 在較大的文字區塊中尋找元素
5.6.1 通配符匹配:LIKE,ILIKE
5.6.2 精確比對:IN,NOTIN
5.6.3正規表示式
5.7 建構與重塑文本
5.7.1 拼接
5.7.2 重塑文本
5.8 總結
第6章異常檢測
6.1 SQL異常檢測的能力與限制
6.2 資料集
6.3 檢測異常值
6.3.1 透過排序查找異常
6.3.2 透過計算百分比和標準差發現異常
6.3.3 透過作圖可視化查找異常
6.4 異常的形式
6.4.1 異常值
6.4.2 異常的計數或頻率
6.4.3 資料缺失引起的異常
6.5 處理異常
6.5.1 探查
6.5.2 刪除
6.5.3 替代值替換
6.5.4縮放
6.6 總結
第7章實驗分析
7.1 用SQL進行實驗分析的優點與限制
7.2 資料集
7.3 實驗的類型
7.3.1 二元結果實驗:卡方檢定
7.3.2 具有連續結果的實驗:t檢定
7.4 實驗的挑戰和拯救有缺陷的實驗的方法
7.4.1 變體分配
7.4.2 異常值
7.4.3 時間盒
7.4.4 重複暴露實驗
7.5 當無法進行控制實驗時:替代分析
7.5.1 前/後分析
7.5 .2 自然實驗分析
7.5.3 閾值附近的群體分析
7.6 總結
第8章創建用於分析的複雜資料集
8.1 何時對複雜資料集使用SQL
8.1.1 使用SQL的優點
8.1.2 何時建構ETL
8.1 .3 何時將邏輯放入其他工具中
8.2 程式碼組織
8.2.1 註
8.2.2 大寫,縮進,括號和其他格式技巧
8.2.3 儲存程式碼
8.3 組織計算
8.3.1 理解SQL子句的計算順序
8.3 .2 子查詢
8.3.3 臨時表
8.3.4 公共表表達式
8.3.5 grouping sets
8.4 管理資料集大小和隱私問題
8.4.1 使用%、mod進行抽樣
8.4.2 降低維數
8.4.3 PII和數據隱私
8.5 總結
第9章結論
9.1 漏斗分析
9.2 流失、中止和其他離開的定義
9.3 購物籃