蟲術 — Python 絕技 虫术:Python绝技
梁睿坤
- 出版商: 電子工業
- 出版日期: 2018-07-01
- 定價: $594
- 售價: 8.5 折 $505
- 語言: 簡體中文
- 頁數: 428
- 裝訂: 平裝
- ISBN: 7121344564
- ISBN-13: 9787121344565
-
相關分類:
Python、Web-crawler 網路爬蟲
下單後立即進貨 (約4週~6週)
買這商品的人也買了...
-
$200$190 -
$990$891 -
$500$395 -
$680$537 -
$860$731 -
$550$468 -
$590$460 -
$403Python 爬蟲開發與項目實戰
-
$480$408 -
$450$383 -
$301自然語言處理技術入門與實戰
-
$650$507 -
$690$587 -
$500$390 -
$580$493 -
$414$393 -
$294$279 -
$403人人都是數據分析師:微軟 Power BI 實踐指南
-
$690$538 -
$880$695 -
$450$351 -
$750$713 -
$354$336 -
$650$553 -
$500$390
相關主題
商品描述
本書以大數據應用方面常用的語言Python為基礎,從網絡爬蟲的實現原理入手,逐步引領讀者進入網絡爬蟲的世界。在各類爬蟲框架中,將Scrapy作為軸心,從多個維度揭開爬蟲技術的面紗。例如,爬取規則的制定技巧,設計高速爬蟲,如何讓爬蟲更“聰明”地獲取數據,將海量數據進行分佈式存儲的技術,設計具有高隱匿性的爬蟲,大規模、高並發的分佈式爬蟲技術。
作者簡介
近二十年軟件開發、項目管理、團隊建設和管理經驗。
致力於互聯網技術應用與大數據應用方面的研究與開發工作。
曾任多家軟件公司的高級軟件工程師、項目經理、首席架構師和技術總監等職務。
現任廣州市增增智能科技有限公司 CEO ,從事視覺智能、
語音智能及IoT 等技術的產品研發與企業經營方面的工作。
目錄大綱
第1章爬蟲初步
1.1爬蟲與大數據
1.1.1大數據架構
1.1.2爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網絡爬蟲框架
1.1.5蟲術技術路線圖
1.2實例:簡單的爬蟲
1.3內容分析進階
1.3.1選擇器
1.3.2深入BeautifulSoup
1.3.3元素的搜尋
1.3.4亂碼與中文編碼
1.4新聞供稿的爬取實例
1.5小結
第2章Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3數據模型Item
2.4蜘蛛—Spiders
2.5管道—Item Pipeline
2.6 Scrapy的運行與配置
2.7新聞供稿爬蟲的Scrapy實現
2.8小結
第3章Scrapy的工程管理
3.1 Scrapyd
3.2 scrapyd-client及部署
3.3搭建爬蟲服務器
第4章中階蟲術
4.1蜘蛛的演化
4.1.1蜘蛛的本質—深入Spider
4.1.2通用蜘蛛
4.1.3蜘蛛中間件
4.2爬蟲系統的測試與調試
4.2.1開發期調試
4.2.2蜘蛛的測試
4.2.3蜘蛛的運行期調試
4.2.4調試內存溢出
4.3處理HTTP請求
4.3. 1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3表單處理
4.3.4下載器中間件
4.4處理HTTP響應
4.4.1 HTTP響應
4.4.2 Scrapy的響應對象
4.4.3深入選擇器
4.4.4非結構化數據的提取
4.4.5黑夜中的眼睛
4.5處理JavaScript
4.5.1示例:電商產品爬蟲
4.5.2 Selenium和PhantomJS
4.5.3 Scrapy與Splash
4.6數據存儲與後處理
4.6.1圖片的下載與存儲
4.6. 2示例:產品圖片採集
4.6.3導出到數據文件
4.6.4導出到數據庫
4.6.5示例:基於阿里雲的存儲後端
第5章高階蟲術
5.1增量式爬網
5.1.1推演路由
5.1.2時機的重要性
5.1.3去重處理
5.1.4布隆過濾器
5.1.5基於Redis的布隆過濾器
5.2突破封印
5.2.1封禁淺析
5.2.2客戶端仿真
5.2.3化身萬千—蜘蛛世界的易容術
5.2.4反跟踪
5.2.5繞開蜜罐
5.3蟲海
5.3.1分佈式爬蟲架構
5.3.2認識scrapy-redis
5.3.3示例:分佈式電商爬蟲
5.4可視化爬蟲
5.4.1示例:某點評網爬蟲
5.4.2解讀Portia爬蟲代碼
5.4.3數據項加載器—Item Loaders
5.4.4最後的工作