Python應用教程:網絡數據采集與處理

向光軍、田林、姚坤、謝瑩

  • 出版商: 清華大學
  • 出版日期: 2026-06-01
  • 售價: $408
  • 語言: 簡體中文
  • ISBN: 7302705399
  • ISBN-13: 9787302705390
  • 相關分類: Python
  • 下單後立即進貨 (約4週~6週)

  • Python應用教程:網絡數據采集與處理-preview-1
  • Python應用教程:網絡數據采集與處理-preview-2
  • Python應用教程:網絡數據采集與處理-preview-3
  • Python應用教程:網絡數據采集與處理-preview-4
  • Python應用教程:網絡數據采集與處理-preview-5
  • Python應用教程:網絡數據采集與處理-preview-6
  • Python應用教程:網絡數據采集與處理-preview-7
Python應用教程:網絡數據采集與處理-preview-1

相關主題

商品描述

"《Python應用教程:網絡數據采集與處理》面向高等院校學生及初學者,系統介紹了Python在網絡數據采集與處理中的應用,內容涵蓋數據獲取、解析、存儲、處理與可視化等關鍵環節,兼顧理論講解與實踐操作,內容層層遞進,貼合教學與項目實戰需求。 本書共分10章,其中第1~5章講授基礎知識,包括Python語言基礎、網絡爬蟲基礎、HTTP/HTML 基礎、requests與urllib網頁抓取、正則表達式、XPath及BeautifulSoup等主流解析工具;第6~8章深入數據庫存儲(MySQL、MongoDB、Redis)及Scrapy框架開發;第9和第10章則聚焦於數據處理與可視化,介紹Pandas、jieba、Matplotlib、Seaborn、wordcloud等常用工具,並配有關鍵詞提取、詞雲數據可視化、大學排名分析等實戰案例。 本書內容完整、案例豐富、語言通俗,註重動手實踐與開發規範,並結合反爬蟲應對、分布式部署等前沿內容,提升內容的實用性和廣度,適合高等院校計算機類專業、新聞傳播類專業學生使用,也適合希望掌握數據采集處理能力的編程初學者、數據分析人員及工程開發者作為參考讀物。"

目錄大綱

目  錄

 

第 1 章 認識 Python 1

1.1 Python 語言簡介 1

1.1.1 Python語言的主要特點 2

1.1.2 Python語言的應用領域 2

1.2 Python 的安裝及運行 3

1.2.1 在Windows中安裝 Python 3

1.2.2 在Linux中安裝 Python 5

1.2.3 在macOS 中安裝 Python 5

1.2.4 Python 的運行 6

1.3 Python 開發工具介紹 7

1.3.1 使用 IDLE 7

1.3.2 PyCharm 的安裝及使用 8

1.3.3 Visual Studio Code 的安裝及使用 10

1.4 Python 源配置及安裝第三方庫 11

1.4.1 Python 源配置 11

1.4.2 安裝Python 第三方庫 12

本章小結 16

本章習題 16

第 2 章 Python 語言基礎 17

2.1 語法規則 18

2.1.1 縮進 18

2.1.2 註釋 18

2.1.3 變量 18

2.1.4 輸入和輸出函數 19

2.2 數據類型 19

2.2.1 數字類型 20

2.2.2 序列類型 22

2.2.3 字典與集合類型 26

2.3 程序的控制結構 28

2.3.1 選擇結構 29

2.3.2 循環結構 31

2.4 函數 32

2.4.1 函數的定義 33

2.4.2 調用函數 33

2.4.3 函數的參數 33

2.4.4 Python 函數的註意事項 34

2.5 面向對象 35

2.5.1 類的定義 35

2.5.2 類的調用 35

2.5.3 類的註意事項 36

2.6 文件操作 36

2.6.1 使用 Python 讀/寫文件 36

2.6.2 使用 Python 讀/寫 CSV 文件 37

本章小結 38

本章習題 38

第 3 章 網絡爬蟲基礎 41

3.1 網絡爬蟲概述 41

3.1.1 網絡爬蟲的含義 42

3.1.2 網絡爬蟲的分類 42

3.1.3 網絡爬蟲的應用場景 43

3.1.4 網絡爬蟲的工作原理 44

3.1.5 網絡爬蟲的發展歷程 45

3.2 網絡爬蟲技術簡介 46

3.2.1 在Python 中獲取頁面源代碼 46

3.2.2 在Python 中實現頁面解析 47

3.2.3 Python 爬蟲框架 48

3.3 網絡爬蟲的法律風險 49

3.3.1 網絡爬蟲的法律問題和風險 49

3.3.2 如何規避網絡爬蟲的法律風險 50

3.4 網絡爬蟲的道德規範 51

3.4.1 遵循Robots 協議 52

3.4.2 爬取行為規範 52

本章小結 53

本章習題 53

第 4 章 源代碼獲取技術 55

4.1 HTTP 基礎 56

4.1.1 HTTP 協議 56

4.1.2 HTTP 請求和響應 56

4.2 HTML 基礎 58

4.2.1 HTML 概述 58

4.2.2 Chrome 瀏覽器的使用 60

4.3 urllib 庫入門 63

4.3.1 urllib 庫子模塊 63

4.3.2 使用urllib 庫獲取網頁源代碼 64

4.4 requests 庫入門 65

4.4.1 requests 庫的特性 65

4.4.2 requests 庫的安裝 66

4.4.3 使用 requests 庫獲取網頁源代碼 66

本章小結 68

本章習題 68

第 5 章 網頁解析技術 69

5.1 正則表達式 70

5.1.1 正則表達式的基本符號 70

5.1.2 正則表達式的使用 74

5.1.3 正則表達式使用技巧 77

5.1.4 使用正則表達式爬取百度首頁 78

5.2 lxml 庫 79

5.2.1 lxml 庫介紹 80

5.2.2 XPath 語法基礎 81

5.2.3 XPath 使用技巧 82

5.2.4 使用 XPath 爬取百度首頁 84

5.3 BeautifulSoup 庫 85

5.3.1 BeautifulSoup 庫的安裝 85

5.3.2 BeautifulSoup 庫的基本用法 86

5.3.3 BeautifulSoup 庫的高級用法 88

5.3.4 使用 BeautifulSoup 爬取百度首頁 90

5.4 實例:爬取中國大學排名 91

5.4.1 需求分析 91

5.4.2 核心代碼構建 92

5.4.3 調試運行 92

本章小結 93

本章習題 93

第 6 章 數據存儲技術 95

6.1 Python 與數據庫 96

6.2 MySQL 數據庫 96

6.2.1 MySQL 數據庫的安裝 97

6.2.2 MySQL 數據庫的數據結構 98

6.2.3 圖形化管理工具——DBeaver 98

6.2.4 PyMySQL 的安裝與特性 100

6.2.5 PyMySQL 的使用 101

6.3 MongoDB 數據庫 105

6.3.1 MongoDB 數據庫的安裝 106

6.3.2 MongoDB 數據庫的數據結構 107

6.3.3 圖形化管理工具——MongoDB Compass 108

6.3.4 PyMongo 的安裝及特點 108

6.3.5 PyMongo 的使用 109

6.4 Redis 數據庫 117

6.4.1 Redis 數據庫的安裝 118

6.4.2 圖形化管理工具——Redis Insight 118

6.4.3 Redis 交互環境的使用 120

6.4.4 Redis-py 的安裝及使用 122

6.4.5 操作 Redis 數據庫 123

6.5 實例:爬取某高校通知公告 127

6.5.1 需求分析 127

6.5.2 核心代碼構建 128

6.5.3 調試與運行 129

本章小結 131

本章習題 131

第 7 章 反爬蟲技術及應對 133

7.1 反爬蟲技術介紹 133

7.2 設置 Headers 和 Cookies 135

7.2.1 為爬蟲設置 Headers 135

7.2.2 為爬蟲設置 Cookies 136

7.2.3 實例:爬取知乎首頁 137

7.3 動態網頁爬取技術 140

7.3.1 AJAX 技術介紹 141

7.3.2 JSON 介紹 142

7.3.3 實例:爬取樂視網影評 144

7.4 模擬瀏覽器技術 147

7.4.1 Selenium 簡介 147

7.4.2 安裝Selenium  147

7.4.3 使用Selenium  148

7.4.4 實例:使用 Selenium 模擬登錄 149

本章小結 151

本章習題 151

第 8 章 Scrapy 框架 153

8.1 Scrapy 框架介紹 154

8.2 Scrapy 框架的安裝與配置 154

8.2.1 Scrapy 框架的安裝 154

8.2.2 Scrapy 框架的配置 155

8.3 Scrapy 框架的目錄與使用 157

8.3.1 Scrapy 框架的目錄 157

8.3.2 Scrapy 框架的使用 160

8.4 Scrapy 數據存儲 162

8.4.1 存儲數據到 MongoDB 162

8.4.2 存儲數據到 MySQL 164

8.5 Scrapy 中間件 166

8.5.1 中間件介紹 166

8.5.2 中間件的使用 167

8.5.3 下載器中間件 168

8.5.4 爬蟲中間件 172

8.6 Scrapy 分布式爬蟲 175

8.6.1 Scrapy 分布式爬蟲原理 175

8.6.2 Redis 實現分布式爬蟲 175

8.7 Scrapy 網絡爬蟲部署 177

8.7.1 Scrapyd 的安裝與使用 178

8.7.2 Scrapy 項目部署 179

8.8 實例:利用Scrapy 爬取網站內容 181

8.8.1 需求分析 181

8.8.2 構建核心代碼 182

8.8.3 調試運行 188

8.8.4 部署爬蟲 189

本章小結 191

本章習題 191

第9章 數據預處理 193

9.1 數據預處理介紹 194

9.2 數據預處理常用庫 195

9.2.1 Pandas 庫 195

9.2.2 jieba 庫 207

9.3 數據預處理實戰 210

9.3.1 數據預處理 210

9.3.2 文本預處理 215

9.3.3 實例:政策文章提取關鍵詞 217

本章小結 218

本章習題 219

第10章 數據可視化 221

10.1 數據可視化介紹 221

10.1.1 數據可視化內容 222

10.1.2 數據可視化方式 223

10.2 數據可視化常用庫 224

10.2.1 Matplotlib 庫介紹 224

10.2.2 Seaborn 庫介紹 229

10.2.3 Matplotlib 庫和 Seaborn 庫的區別 236

10.3 數據可視化實戰 238

10.3.1 簡單數據信息的可視化 238

10.3.2 復雜數據信息的可視化 244

10.3.3 實例:中國大學排名分析 251

10.4 詞雲數據可視化 257

10.4.1 wordcloud 庫介紹 257

10.4.2 實例:《關於加快推進教育數字化的意見》政策詞雲 259

本章小結 261

本章習題 262