網絡爬蟲案例教程(Python·微課視頻版)
主編:韓瑩,副主編:袁靜
- 出版商: 清華大學
- 出版日期: 2022-12-01
- 定價: $354
- 售價: 8.5 折 $301
- 語言: 簡體中文
- 頁數: 191
- ISBN: 7302619638
- ISBN-13: 9787302619635
-
相關分類:
Web-crawler 網路爬蟲
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
Python 網路爬蟲與資料分析入門實戰$450$351 -
網站擷取|使用 Python, 2/e (Web Scraping with Python: Collecting More Data from the Modern Web, 2/e)$580$458 -
精通 Python|運用簡單的套件進行現代運算, 2/e (Introducing Python: Modern Computing in Simple Packages, 2/e)$880$695 -
$403數據決策:企業數據的管理、分析與應用 -
$454中臺實踐:數字化轉型方法論與解決方案 -
Python x Excel VBA x JavaScript|網路爬蟲 x 實戰演練$750$638 -
$505標簽類目體系:面向業務的數據資產設計方法論 -
$560數據分析實戰:方法、工具與可視化 -
Python 金融市場賺大錢聖經:寫出你的專屬指標, 2/e$780$616 -
從零開始學 Python 程式設計 (第三版修訂版)(適用 Python 3.10 以上)$720$562 -
零基礎學會 Python 程式交易:一本讀懂 Python 實作金融資產配置$600$468 -
$607Python 爬蟲從菜鳥到高手 -
$709機器學習高級實踐:運算廣告、供需預測、智慧行銷、動態定價 -
Streamlit 實戰指南 : 使用 Python 創建交互式數據應用$888$844
相關主題
商品描述
本書主要以純案例驅動的形式,分別使用和結合使用requests庫、selenium庫,從因特網上收集數據。主要內容包括收集靜態網頁數據,網頁解析,JSON數據,JSON解析,多級翻頁,cookie和session,驗證登錄,多線程,數據的存儲,收集到的數據包括靜態網頁數據、json、圖片、音頻、視頻等數據,並對獲取的數據進行清洗。適合Python初學者,也適合研究Python的廣大科研人員、學者、工程技術人員。本教材採用純的案例,和簡單的註釋,其他一些先修的知識是在其他課程有開設。
作者簡介
韓瑩,防災科技學院副教授,主要從事數據挖掘、數據采集與可視化及計算機視覺處理等教學和科研工作。講授“數據結構”“數據采集與清洗”“數據可視化”等課程。近年來主持省級課題1項,發表中文核心期刊論文8篇,指導學生學科競賽並獲獎多次,指導大學生創新創業8項,榮獲本科教學質量獎4次。
目錄大綱
目錄
第1章緒論
1.1網絡爬蟲的基本概念
1.2網絡爬蟲的基本流程
1.2.1發起請求
1.2.2獲取響應內容
1.2.3解析內容
1.2.4持久化保存數據
1.3網絡爬蟲的合法性問題
1.4反爬蟲技術
1.4.1Useragent控制訪問
1.4.2IP限制訪問
1.4.3設置請求間隔
1.4.4通過參數加密和JavaScript腳本
1.4.5通過robots.txt來限制爬蟲
1.5網絡爬蟲的預備知識
1.5.1統一資源定位器
1.5.2超文本傳輸協議
1.5.3超文本標記語言
1.6開發語言和開發環境
1.6.1開發語言
1.6.2第三方請求庫
1.6.3開發工具
第2章Requests庫
2.1安裝Requests庫
2.2Requests庫發送請求
2.3查看響應內容
2.3.1查看響應狀態碼
2.3.2查看響應的文本信息
2.3.3解決亂碼問題
2.3.4二進制碼響應內容
2.3.5JSON響應內容
2.4定製請求頭部Headers
2.5Chrome瀏覽器開發者工具面板
2.5.1打開開發者工具面板
2.5.2Elements面板
2.5.3Network面板
2.6GET請求單個網頁的爬取案例
2.6.1不帶參數的GET請求
2.6.2攜帶參數的GET請求
第3章JSON數據爬取
3.1Ajax
3.1.1Ajax技術
3.1.2分析數據來源
3.2JSON
3.2.1JSON語法規則
3.2.2訪問JSON數據
3.2.3JSON文件讀寫操作
3.2.4JSON數據校驗和格式化
3.3Ajax異步動態加載的數據爬蟲
3.3.1帶參數的POST請求爬蟲
3.3.2多個網頁多鏈接GET請求爬蟲綜合案例
3.4POST請求的兩種參數格式
3.4.1Form Data類型
3.4.2Request Payload類型
第4章XPath解析及網頁數據爬取
4.1XPath簡介及安裝
4.2XPath節點
4.2.1基本值節點
4.2.2節點關系
4.3XPath語法
4.3.1選取節點語法
4.3.2謂語
4.3.3選取未知節點
4.3.4選取若乾路徑
4.3.5初步使用XPath案例
4.4XPath表達式
4.4.1定位XPath搜索框
4.4.2在網頁上寫XPath表達式
4.5爬取HTML文檔數據案例
4.6爬取多頁HTML文檔數據案例
4.6.1翻頁在參數裏
4.6.2翻頁在URL中
4.7圖片爬蟲案例
4.7.1單張圖片爬取
4.7.2多頁多幅圖片爬蟲案例
4.7.3多類多頁多圖爬蟲案例
第5章IP代理
5.1IP代理的作用
5.2IP代理使用方法
5.3搭建IP池
5.3.1獲取單頁IP
5.3.2獲取多頁IP
5.3.3檢測IP有效性
5.3.4建立IP池
5.4付費IP代理使用
第6章Selenium庫
6.1Selenium安裝及環境配置
6.1.1Selenium安裝
6.1.2環境配置
6.1.3環境測試
6.2Selenium簡單使用及配置
6.2.1打開網頁
6.2.2規避偽裝機制
6.2.3常見的配置項
6.3Selenium的元素定位操作
6.3.1查看頁面元素
6.3.2通過ID定位元素
6.3.3通過name定位元素
6.3.4通過class定位元素
6.3.5通過tag定位元素
6.3.6通過link定位元素
6.3.7通過partial_link定位元素
6.3.8通過XPath定位元素
6.3.9通過CSS定位元素
6.3.10通過By定位元素
6.4Selenium等待機制
6.4.1固定等待
6.4.2隱式等待
6.4.3顯式等待WebDriverWait
6.5Selenium控制瀏覽器
6.5.1瀏覽器的常見操作
6.5.2不同窗口之間切換
6.5.3鼠標事件
6.5.4鍵盤事件
6.5.5定位Frame/IFrame
6.5.6頁面下拉
6.5.7窗口截圖
6.5.8文件上傳
6.6Selenium爬蟲案例
6.6.1單頁爬取案例
6.6.2多頁爬取案例
第7章Requests與Selenium結合使用
7.1Selenium模擬登錄
7.1.1Selenium程序模擬登錄
7.1.2手動輸入數據模擬登錄
7.2Cookie與Session機制
7.2.1Cookie機制
7.2.2Session機制
7.3Requests、Cookie、Selenium結合使用
7.4Selenium和Requests結合下載音樂
7.4.1單首音樂下載
7.4.2多首音樂下載
第8章異步爬蟲
8.1基本概念
8.2串行下載多個視頻
8.3使用線程池下載多個視頻
8.3.1Multiprocessing
8.3.2Threading
8.4使用協程下載多個視頻
第9章正則表達式
9.1正則函數
9.1.1re.match函數
9.1.2re.search函數
9.1.3re.sub函數
9.1.4re.compile函數
9.1.5re.findall函數
9.1.6re.finditer函數
9.1.7re.split函數
9.2正則表達式模式及實例
9.3正則表達式實例
9.3.1匹配字符串
9.3.2匹配字符組
9.3.3區間匹配
9.3.4特殊字符匹配
9.3.5取反
9.3.6快捷匹配數字和字符
9.3.7匹配空白字符
9.3.8單詞邊界
9.3.9快捷方式取反
9.3.10開始和結束
9.3.11匹配任意字符
9.3.12可選字符
9.3.13重復
9.3.14重復區間
9.3.15開閉區間
9.4正則表達式進階
9.4.1分組
9.4.2或者條件
9.4.3分組的回溯引用
9.4.4斷言
第10章數據清洗
10.1數據分析流程
10.2數據清洗的概念及流程
10.3數據清洗常用方法
10.3.1讀取數據
10.3.2初步探索數據
10.3.3簡單處理數據
10.3.4重復值處理
10.3.5異常值處理
10.3.6處理缺失值
10.3.7爬取數據
10.3.8增加特徵值
10.3.9格式與內容清洗
10.3.10數據持久化保存
第11章綜合爬蟲案例
11.1數據爬取
11.1.1單線程爬取“前程無憂”
11.1.2多線程爬取“英才網”
11.1.3多線程爬取“前程無憂”
11.2簡單數據清洗
11.2.1導入庫
11.2.2初識數據
11.2.3簡單數據處理
11.2.4處理重復值
11.2.5處理空值
11.2.6字段內容清洗
11.2.7提取並增加特徵值
11.2.8處理異常值
11.2.9數據保存
參考文獻



