蟲術 — Python 絕技虫术:Python绝技

梁睿坤

出版商: 電子工業
出版日期: 2018-07-01
售價: $594
語言: 簡體中文
頁數: 428
裝訂: 平裝
ISBN: 7121344564
ISBN-13: 9787121344565
相關分類: Python、Web-crawler 網路爬蟲、Web-crawler 網路爬蟲

下單後立即進貨 (約4週~6週)

買這商品的人也買了...

~~$200~~ $196

Raspberry Pi 可調式相機固定套件
~~$990~~ $842

C++ 程式設計原理與實務, 2/e (Programming: Principles and Practice Using C++, 2/e)
~~$500~~ $395

Kali Linux 滲透測試工具, 2/e
~~$680~~ $537

Docker 錦囊妙計 (Docker Cookbook)
~~$860~~ $731

私有雲首選：VMware vSphere 6 跨國大規模架設實戰
~~$550~~ $467

學會 Python - 從不懂，到玩上手！
~~$590~~ $460

TensorFlow + Keras 深度學習人工智慧實務應用
$474

Python 爬蟲開發與項目實戰
~~$480~~ $408

大數據時代一定要會的自動化資料搜集術
~~$450~~ $225

Docker 這樣學才有趣：從入門，到玩直播、挖礦
$300

自然語言處理技術入門與實戰
~~$650~~ $507

金融科技實戰：Python 與量化投資
~~$690~~ $587

自然語言處理：用人工智慧看懂中文
~~$500~~ $390

給工程師的第一本理財書：程式金融交易的 118個入門關鍵技巧
~~$580~~ $493

比 Selenium 還強大的網路爬蟲：Scrapy 一本就精通
$351

玩轉 Python 網絡爬蟲
$249

用 Python 寫網絡爬蟲, 2/e
$237

人人都是數據分析師：微軟 Power BI 實踐指南
~~$690~~ $538

Python 機器學習, 2/e (Python Machine Learning, 2/e)
~~$880~~ $695

Python 資料分析, 2/e (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)
~~$450~~ $351

Python 網路爬蟲與資料分析入門實戰
~~$750~~ $735

5MP Camera Module (for Raspberry Pi),5百萬像素
$300

Kibana 數據可視化 (Learning Kibana 5.0)
~~$650~~ $553

Python 網路爬蟲與資料視覺化應用實務
~~$500~~ $390

Python：股票演算法交易實務 145個關鍵技巧詳解

商品描述

本書以大數據應用方面常用的語言Python為基礎，從網絡爬蟲的實現原理入手，逐步引領讀者進入網絡爬蟲的世界。在各類爬蟲框架中，將Scrapy作為軸心，從多個維度揭開爬蟲技術的面紗。例如，爬取規則的制定技巧，設計高速爬蟲，如何讓爬蟲更“聰明”地獲取數據，將海量數據進行分佈式存儲的技術，設計具有高隱匿性的爬蟲，大規模、高並發的分佈式爬蟲技術。

作者簡介

近二十年軟件開發、項目管理、團隊建設和管理經驗。
致力於因特網技術應用與大數據應用方面的研究與開發工作。
曾任多家軟件公司的高級軟件工程師、項目經理、首席架構師和技術總監等職務。

現任廣州市增增智能科技有限公司 CEO ，從事視覺智能、
語音智能及IoT 等技術的產品研發與企業經營方面的工作。

目錄大綱

第1章爬蟲初步
1.1爬蟲與大數據
1.1.1大數據架構
1.1.2爬蟲的作用與地位
1.1.3 Python與爬蟲
1.1.4 Python的網絡爬蟲框架
1.1.5蟲術技術路線圖
1.2實例：簡單的爬蟲
1.3內容分析進階
1.3.1選擇器
1.3.2深入BeautifulSoup
1.3.3元素的搜尋
1.3.4亂碼與中文編碼
1.4新聞供稿的爬取實例
1.5小結

第2章Scrapy基礎知識
2.1 Scrapy架構
2.2 Scrapy快速入手
2.3數據模型Item
2.4蜘蛛—Spiders
2.5管道—Item Pipeline
2.6 Scrapy的運行與配置
2.7新聞供稿爬蟲的Scrapy實現
2.8小結

第3章Scrapy的工程管理
3.1 Scrapyd
3.2 scrapyd-client及部署
3.3搭建爬蟲服務器

第4章中階蟲術
4.1蜘蛛的演化
4.1.1蜘蛛的本質—深入Spider
4.1.2通用蜘蛛
4.1.3蜘蛛中間件
4.2爬蟲系統的測試與調試
4.2.1開發期調試
4.2.2蜘蛛的測試
4.2.3蜘蛛的運行期調試
4.2.4調試內存溢出
4.3處理HTTP請求
4.3. 1 HTTP請求
4.3.2 Scrapy的Request對象
4.3.3表單處理
4.3.4下載器中間件
4.4處理HTTP響應
4.4.1 HTTP響應
4.4.2 Scrapy的響應對象
4.4.3深入選擇器
4.4.4非結構化數據的提取
4.4.5黑夜中的眼睛
4.5處理JavaScript
4.5.1示例：電商產品爬蟲
4.5.2 Selenium和PhantomJS
4.5.3 Scrapy與Splash
4.6數據存儲與後處理
4.6.1圖片的下載與存儲
4.6. 2示例：產品圖片採集
4.6.3導出到數據文件
4.6.4導出到數據庫
4.6.5示例：基於阿裡雲的存儲後端

第5章高階蟲術
5.1增量式爬網
5.1.1推演路由
5.1.2時機的重要性
5.1.3去重處理
5.1.4布隆過濾器
5.1.5基於Redis的布隆過濾器
5.2突破封印
5.2.1封禁淺析
5.2.2客戶端模擬
5.2.3化身萬千—蜘蛛世界的易容術
5.2.4反跟蹤
5.2.5繞開蜜罐
5.3蟲海
5.3.1分佈式爬蟲架構
5.3.2認識scrapy-redis
5.3.3示例：分佈式電商爬蟲
5.4可視化爬蟲
5.4.1示例：某點評網爬蟲
5.4.2解讀Portia爬蟲代碼
5.4.3數據項加載器—Item Loaders
5.4.4最後的工作