Python數據預處理技術與實踐
白寧超、唐聃、文俊
買這商品的人也買了...
-
$294機器學習系統設計 (Building Machine Learning Systems with Python) -
$305圖解機器學習 -
AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)$474$450 -
亞馬遜 AWS 雲基礎與實戰$299$284 -
RabbitMQ 實戰指南$474$450 -
$352關聯數據:萬維網上的結構化數據 -
$141機器學習基礎 -
$280scikit-learn 機器學習, 2/e (Mastering Machine Learning with scikit-learn, 2/e) -
Web API 建構與設計 (Designing Web APIs: Building APIs That Developers Love)$480$379 -
$449在線文本數據挖掘算法原理與編程實現 -
自然語言處理入門$594$564 -
$559知識圖譜:概念與技術 -
$1,188SEO 藝術, 3/e (The Art of SEO: Mastering Search Engine Optimization, 3/e) -
$180Python基礎與大數據應用 -
$422大數據智能:數據驅動的自然語言處理技術 -
$403自己動手做推薦引擎 -
機器學習工程師面試全破解:嚴選 124道 AI 演算法決勝題完整剖析$650$507 -
機器學習的數學基礎 : AI、深度學習打底必讀$580$458 -
$422Python 自然語言處理與開發 -
Windows 駭客程式設計:駭客攻防及惡意程式研發 (基礎修行篇)$600$468 -
tf.keras 技術者們必讀!深度學習攻略手冊$1,000$850 -
FLAG'S 創客‧自造者工作坊 -- Python 感測器大應用 - 智慧生活X雲端$999$899 -
深度學習的數學地圖 -- 用 Python 實作神經網路的數學模型 (附數學快查學習地圖)$580$493 -
站穩 AI 大師的第一步:最直覺機器學習$780$663 -
WebSecurity 網站滲透測試:Burp Suite 完全學習指南 (iT邦幫忙鐵人賽系列書)$600$510
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
VIP 95折
深度學習:基礎與概念$1,128$1,072 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
本書基礎理論和工程應用相結合,循序漸進地介紹了數據預處理的基本概念、基礎知識、工具應用和相關案例,包括網絡爬蟲、數據抽取、數據清洗、數據集成、數據變換、數據向量化、數據規約等知識,書中針對每個知識點,都給出了豐富的教學實例和實現代碼,最後,通過一個新聞文本分類的實際項目講解了數據預處理技術在實際中的應用。 本書的特點是幾乎涵蓋了數據預處理的各種常用技術及主流工具應用,示例代碼很豐富,適合於大數據從業者、AI技術開發人員以及高校大數據專業的學生使用。
目錄大綱
第1章概述 1
1.1Python數據預處理 1
1.1.1什麼是數據預處理 1
1.1.2為什麼要做數據預處理 2
1.1.3數據預處理的工作流程 2
1.1.4數據預處理的應用場景 3
1.2開發工具與環境 3
1.2.1Anaconda介紹與安裝 3
1.2.2SublimeText 7
1.3實戰案例:第一個中文分詞程序 12
1.3.1中文分詞 12
1.3.2實例介紹 14
1.3.3結巴實現中文分詞 14
1.4本章小結 15
第2章Python科學計算工具 16
2.1NumPy 16
2.1.1NumPy的安裝和特點 16
2.1.2NumPy數組 18
2.1.3Numpy的數學函數 20
2.1.4NumPy線性代數運算 22
2.1.5NumPyIO操作 22
2.2SciPy 23
2.2.1SciPy的安裝和特點 23
2.2.2SciPyLinalg 25
2.2.3SciPy文件操作 27
2.2.4SciPy插值 28
2.2.5SciPyNdimage 30
2.2.6SciPy優化算法 33
2.3Pandas 35
2.3.1Pandas的安裝和特點 36
2.3.2Pandas的數據結構 36
2.3.3Pandas的數據統計 39
2.3.4Pandas處理丟失值 41
2.3.5Pandas處理稀疏數據 45
2.3.6Pandas的文件操作 46
2.3.7Pandas可視化 48
2.4本章小結 54
第3章數據採集與存儲 55
3.1數據與數據採集 55
3.2數據類型與採集方法 56
3.2.1結構化數據 56
3.2.2半結構化數據 56
3.2.3非結構化數據 57
3.3網絡爬蟲技術 57
3.3.1前置條件 58
3.3.2Scrapy技術原理 58
3.3.3Scrapy新建爬蟲項目 59
3.3.4爬取網站內容 61
3.4爬取數據以JSON格式進行存儲 69
3.5爬取數據的MySQL存儲 71
3.5.1MySQL與Navicat部署 71
3.5.2MySQL存儲爬蟲數據 72
3.6網絡爬蟲技術擴展 75
3.7本章小結 76
第4章文本信息抽取 77
4.1文本抽取概述 77
4.2文本抽取問題 78
4.3Pywin32抽取文本信息 79
4.3.1Pywin32介紹 79
4.3.2抽取Word文檔文本信息 80
4.3.3抽取PDF文檔文本信息 83
4.3.4打造靈活的文本抽取工具 84
4.4文本批量編碼 86
4.5實戰案例:遍歷文件批量抽取新聞文本內容 86
4.5.1遞歸讀取文件 87
4.5.2遍歷抽取新聞文本 88
4.6本章小結 91
第5章文本數據清洗 92
5.1新聞語料的準備 92
5.2高效讀取文件 93
5.2.1遞歸遍歷讀取新聞 94
5.2.2yield生成器 95
5.2.3高效遍歷讀取新聞 97
5.3通過正則表達式來清洗文本數據 98
5.3.1正則表達式 98
5.3.2清洗文本數據 100
5.4清洗HTML網頁數據 102
5.5簡繁字體轉換 104
5.6實戰案例:批量新聞文本數據清洗 106
5.6.1高效讀取文件內容 106
5.6.2抽樣處理文件 107
5.6.3通過正則表達式批量清洗文件 108
5.7本章小結 109
第6章中文分詞技術 110
6.1中文分詞簡介 110
6.1.1中文分詞概述 110
6.1.2常見中文分詞方法 111
6.2結巴分詞精講 112
6.2.1結巴分詞的特點 112
6.2.2結巴分詞的安裝 112
6.2.3結巴分詞核心方法 112
6.2.4結巴中文分詞的基本操作 113
6.2.5自定義分詞詞典 114
6.2.6關鍵詞提取 115
6.2.7詞性標註 116
6.3HanLP分詞精講 117
6.3.1JPype1的安裝 117
6.3.2調用HanLP的Java包 117
6.3.3HanLP分詞 118
6.3.4HanLP實現自定義分詞 120
6.3.5命名實體識別與詞性標註 120
6.3.6HanLP實現關鍵詞抽取 121
6.3.7HanLP實現自動摘要 121
6.4自定義去除停用詞 122
6.4.1以正則表達式對文本信息進行清洗 122
6.4.2結巴中文分詞詞性解讀 124
6.4.3根據詞性規則構建自定義停用詞 126
6.5詞頻統計 126
6.5.1NLTK介紹與安裝 126
6.5.2統計新聞文本詞頻 128
6.5.3統計特定詞頻和次數 129
6.5.4特徵詞的頻率分佈表 129
6.5.5頻率分佈圖與頻率累計分佈圖 130
6.5.6基於Counter的詞頻統計 131
6.6自定義去高低詞頻 132
6.7自定義規則提取特徵詞 133
6.8實戰案例:新聞文本分詞處理 134
6.9本章小結 135
第7章文本特徵向量化 136
7.1解析數據文件 136
7.2處理缺失值 138
7.2.1什麼是數據缺失值 138
7.2.2均值法處理數據缺失值 139
7.2.3Pandas處理缺失值 141
7.3數據的歸一化處理 143
7.3.1不均衡數據分析 143
7.3.2歸一化的原理 144
7.3.3歸一化的優點 145
7.4特徵詞轉文本向量 146
7.5詞頻-逆詞頻(TF-IDF) 147
7.6詞集模型與詞袋模型 148
7.7實戰案例:新聞文本特徵向量化 153
7.8本章小結 154
第8章Gensim文本向量化 155
8.1Gensim的特性和核心概念 155
8.2Gensim構建語料詞典 156
8.3Gensim統計詞頻特徵 158
8.4Gensim計算TF-IDF 158
8.5Gensim實現主題模型 160
8.5.1主題模型 160
8.5.2潛在語義分析(LSA) 161
8.5.3隱含狄利克雷分佈(LDA) 164
8.5.4LDA的模型實現 166
8.5.5隨機映射(RP) 167
8.6實戰



