大數據分析與應用教程
虎陳霞,何山,劉瑩
- 出版商: 電子工業
- 出版日期: 2026-03-01
- 售價: $294
- 語言: 簡體中文
- 頁數: 172
- ISBN: 712150670X
- ISBN-13: 9787121506703
-
相關分類:
大數據 Big-data
下單後立即進貨 (約4週~6週)
商品描述
本書是一本介紹大數據分析方法與實踐應用的教科書。全書共8章,在系統介紹大數據分析的基礎知識、大數據的采集與預處理方法的基礎上,重點介紹了多維數據統計分析、文本數據分析、空間數據分析、知識圖譜分析等主流大數據分析方法的基本原理、操作步驟及實踐案例,最後介紹了大數據可視化的常用工具及相應操作。 本書的特點是理論與實踐相結合,註重知識的實用性,知識點覆蓋面廣,實踐應用價值和可操作性強,既可作為高等院校和高職院校數據科學與大數據技術、大數據管理與應用、信息管理與信息系統、電子商務等專業數據分析相關課程的教材,也可以供從事信息分析與預測、研究與開發、統計與咨詢等工作的企事業人員,以及其他學習大數據技術的讀者閱讀和參考。
目錄大綱
第1章 大數據基礎 1
1.1 什麼是大數據 3
1.1.1 大數據的發展歷程 3
1.1.2 大數據的定義 5
1.1.3 大數據的特征 6
1.1.4 大數據的結構類型 7
1.2 大數據對社會的影響 8
1.2.1 大數據決策成為一種新的決策方式 8
1.2.2 大數據成為提升國家治理能力的新途徑 9
1.2.3 大數據應用促進信息技術與各行業的深度融合 10
1.2.4 大數據開發推動新技術和新應用不斷湧現 10
1.3 大數據分析 10
1.3.1 大數據分析的概念 10
1.3.2 大數據分析的基本原理 12
1.3.3 大數據分析的對象 13
1.3.4 大數據分析的過程 16
1.3.5 大數據分析的價值 17
1.4 大數據分析技術與工具 18
1.4.1 大數據分析平臺 18
1.4.2 大數據編程語言 20
1.5 本章小結 24
本章習題 24
第2章 大數據的采集 25
2.1 大數據的來源 27
2.1.1 感知系統數據 27
2.1.2 企業系統數據 27
2.1.3 互聯網數據 28
2.1.4 政府系統數據 28
2.1.5 實驗系統數據 28
2.2 網絡數據的采集 28
2.2.1 網絡爬蟲原理 29
2.2.2 網絡爬蟲的類型 29
2.2.3 反爬機制 30
2.2.4 常用爬蟲工具 31
2.2.5 網絡爬蟲Scrapy 32
2.3 日誌數據的采集 38
2.3.1 流數據采集Kafka 38
2.3.2 日誌采集系統Flume 40
2.4 軌跡數據的采集 43
2.4.1 基於GPS的軌跡數據采集 44
2.4.2 基於RFID的軌跡數據采集 44
2.5 數據庫的采集 45
2.6 本章小結 45
本章習題 46
第3章 大數據的預處理 47
3.1 數據清洗 48
3.1.1 數據清洗的方式 49
3.1.2 數據清洗的內容 49
3.1.3 數據清洗的註意事項 50
3.2 數據集成 51
3.2.1 實體識別 51
3.2.2 冗余屬性識別 51
3.3 數據轉換 51
3.3.1 數據轉換策略 51
3.3.2 規範化處理 52
3.4 本章小結 53
本章習題 53
第4章 多維數據統計分析 54
4.1 多維數據統計分析 55
4.1.1 多維數據統計分析的概念 55
4.1.2 多維數據統計分析的特點 56
4.2 相關分析 58
4.2.1 相關分析的概念 58
4.2.2 相關分析的類型 58
4.2.3 相關分析的步驟 59
4.3 線性回歸分析 60
4.3.1 線性回歸分析的概念 60
4.3.2 線性回歸分析與相關分析的區別 61
4.3.3 線性回歸分析的步驟 62
4.4 聚類分析 66
4.4.1 聚類分析的概念 66
4.4.2 聚類分析的類型 66
4.4.3 聚類分析的步驟 67
4.5 因子分析 70
4.5.1 因子分析的概念 70
4.5.2 因子分析的目的和作用 71
4.5.3 因子分析的步驟 71
4.6 本章小結 79
本章習題 79
第5章 文本數據分析 80
5.1 文本表示 81
5.1.1 文本表示的概念 81
5.1.2 文本表示的特征 81
5.1.3 文本表示的方法 81
5.1.4 向量空間模型 82
5.2 文本標引 85
5.2.1 標引 85
5.2.2 文本標引的基本方法 85
5.2.3 文本標引的具體應用 87
5.3 文本分類 88
5.3.1 分類和聚類 88
5.3.2 文本分類的概念 89
5.3.3 文本分類的主要方法 89
5.3.4 文本分類的基本步驟 90
5.4 文本聚類 91
5.4.1 文本聚類的概念 91
5.4.2 文本聚類的主要方法 91
5.4.3 文本聚類的基本步驟 94
5.5 主題分析 94
5.5.1 主題分析的概念 94
5.5.2 主題分析的基本原理 95
5.5.3 主題分析的方法 95
5.6 本章小結 104
本章習題 104
第6章 空間數據分析 105
6.1 空間數據采集 107
6.1.1 數據類型 107
6.1.2 數據采集 108
6.2 空間數據處理 110
6.2.1 投影坐標變換 110
6.2.2 數據格式轉換 112
6.2.3 其他數據處理 113
6.3 矢量數據空間分析 114
6.3.1 鄰域分析 114
6.3.2 疊加分析 116
6.4 柵格數據空間分析 117
6.4.1 距離分析 117
6.4.2 密度分析 118
6.5 空間統計分析 120
6.5.1 空間自相關分析 120
6.5.2 熱點分析 122
6.6 本章小結 122
本章習題 122
第7章 知識圖譜分析 124
7.1 什麼是知識圖譜 125
7.2 知識圖譜技術框架 126
7.2.1 本體構建 127
7.2.2 知識抽取 129
7.2.3 知識融合 131
7.2.4 知識存儲 132
7.3 本章小結 133
本章習題 133
第8章 大數據的可視化 134
8.1 可視化概述 135
8.1.1 可視化的含義 135
8.1.2 可視化的發展歷程 136
8.1.3 可視化的作用 137
8.2 可視化分類 138
8.2.1 科學可視化 138
8.2.2 信息可視化 139
8.2.3 可視化分析 139
8.3 可視化工具 140
8.3.1 入門級工具 140
8.3.2 關系網絡圖工具 143
8.4 本章小結 154
本章習題 154
附錄A 實驗指導 156
實驗1 運用網絡爬蟲采集網絡數據 156
實驗2 pandas數據清洗初級實踐 157
實驗3 基於聚類分析的在線問診平臺醫生績效評價 157
實驗4 古詩文網站文本數據自動抽取 158
實驗5 路網緩沖區分析 159
實驗6 文獻可視化分析 159
參考文獻 161
