Python 3.x 網絡爬蟲從零基礎到項目實戰

史衛亞

出版商: 北京大學
出版日期: 2020-05-01
售價: $648
貴賓價: 9.5 折 $615
語言: 簡體中文
頁數: 612
裝訂: 平裝
ISBN: 7301312822
ISBN-13: 9787301312827
相關分類: Web-crawler 網路爬蟲

立即出貨 (庫存 < 3)

買這商品的人也買了...

~~$500~~ $425

Python 自動化的樂趣｜搞定重複瑣碎 & 單調無聊的工作 (中文版) (Automate the Boring Stuff with Python: Practical Programming for Total Beginners)
~~$580~~ $458

演算法技術手冊, 2/e (Algorithms in a Nutshell: A Practical Guide, 2/e)
$402

AWS Lambda 實戰 : 開發事件驅動的無服務器應用程序 (AWS Lambda in Action: Event-Driven Serverless Applications)
~~$500~~ $390

為你自己學 Git
$351

關聯數據:萬維網上的結構化數據
~~$380~~ $266

圖說演算法：使用 C語言
~~$580~~ $458

網站擷取｜使用 Python, 2/e (Web Scraping with Python: Collecting More Data from the Modern Web, 2/e)
~~$580~~ $493

SQL 語法查詢入門｜挖掘數據真相，征服大數據時代的第一本書 (Practical SQL: A Beginner's Guide to Storytelling with Data)
~~$380~~ $323

秒懂金融科技
~~$580~~ $452

Pandas 資料分析實戰：使用 Python 進行高效能資料處理及分析 (Learning pandas : High-performance data manipulation and analysis in Python, 2/e)
~~$580~~ $493

SQL 達人的工作現場攻略筆記
~~$450~~ $299

Docker 專業養成 ─ 活用基礎與實踐技能 (暢銷回饋版)
$237

Python 網絡爬蟲開發從入門到精通
~~$750~~ $638

NumPy 高速運算徹底解說 - 六行寫一隻程式？你真懂深度學習？手工算給你看！
~~$534~~ $507

Python 爬蟲技術 — 深入理解原理、技術與開發
$453

Python 3 反爬蟲原理與繞過實戰
~~$890~~ $703

矽谷工程師爬蟲手冊：用 Python 成為進階高手
~~$450~~ $382

用 Excel 學 Python 資料分析
$149

Python 爬蟲開發實戰教程
~~$294~~ $279

簡單高效 LaTeX
~~$760~~ $600

AI 黃金時期正好學：TensorFlow 2 高手有備而來
$374

網絡爬蟲進化論 — 從 Excel 爬蟲到 Python 爬蟲
$453

Python 自動化辦公：3分鐘完成一天工作
$402

Python 項目開發實戰
~~$750~~ $592

Python 網路爬蟲：大數據擷取、清洗、儲存與分析 -- 王者歸來, 2/e

商品描述

本書通過精選案例引導讀者係統學習，系統完整地介紹了網絡爬蟲的開發知識和技巧。

本書主要基於Python 3.7開發網絡爬蟲，主要內容包括認識爬蟲、
爬蟲需要具備的基礎知識、數據提取的方式、如何提高爬蟲的效率、
數據的存儲、動態頁面的爬取、機器識別、模擬登陸、
設置代理IP、Scrapy爬蟲框架和分佈式爬蟲等知識點。
為了讓讀者更好的掌握這些技術和更多的瞭解爬蟲的功能，本書後提供了九個實戰項目，
通過大量案例操作，來讓讀者提高爬蟲的反爬和數據提取等爬蟲技術實戰的能力。

本書不僅適合零基礎或有部分編碼能力並對爬蟲技術有興趣的讀者，
而且適合準備從事或學習數據科學與人工智能相關行業的讀者。

作者簡介

史衛亞

博士，副教授，IEEE會員，CCF會員，INNS會員。
2009年獲得複旦大學計算機應用專業博士學位。
2015—2016年在美國北卡羅來納大學做訪問學者，對機器學習、
大數據檢索、數據庫、圖像和視頻處理、人工智能和模式識別等有深入研究。

目錄大綱

目錄
第1章爬蟲基礎1
1.1認識爬蟲2
1.2 Python環境4
1.3 Python語法11
1.4網頁結構62
1.5 HTTP協議68
1.6本章小結84
1.7實戰練習84

第2章開始爬蟲85
2.1 urllib模塊86
2.2 requests模塊88
2.3 re模塊110
2.4項目案例：爬百度貼吧122
2.5本章小結128
2.6實戰練習128

第3章更多數據提取的方式129
3.1 XPath和LXml 130
3.2 BeautifulSoup4 137
3.3 JsonPath 143
3.4性能和選擇148
3.5項目案例：爬騰訊招聘網148
3.6本章小結154
3.7實戰練習154

第4章並發155
4.1 100萬個網頁156
4.2進程161
4.3線程181
4.4鎖191
4.5協程202
4.6線程、進程、協程對比206
4.7並發爬蟲207
4.8本章小結216
4.9實戰練習216

第5章數據存儲217
5.1文件存儲218
5.2關係型數據庫存儲221
5.3非關係型數據庫存儲231
5.4項目案例：爬豆瓣電影266
5.5本章小結270
5.6實戰練習270

第6章Ajax數據爬取271
6.1 Ajax的概念272
6.2實現Ajax 272
6.3項目案例：爬鬥魚直播282
6.4本章小結286
6.5實戰練習286

第7章動態渲染頁面爬取287
7.1 Selenium 288
7.2項目案例：爬京東商品306
7.3本章小結311
7.4實戰練習312

第8章圖形驗證碼識別313
8.1使用pytesseract 314
8.2使用打碼平臺317
8.3項目案例：識別驗證碼完成登錄323
8.4本章小結326
8.5實戰練習326

第9章模擬登錄327
9.1 Cookie 328
9.2 Session 330
9.3 Cookie池的搭建332
9.4項目案例：登錄GitHub 335
9.5本章小結340
9.6實戰練習340

第10章代理IP的使用341
10.1代理IP 342
10.2代理IP池348
10.3付費代理的使用351
10.4項目案例：使用代理IP爬微信公眾號358
10.5本章小結368
10.6實戰練習368

第11章Scrapy框架369
11.1認識Scrapy 370
11.2編寫Scrapy的第一個案例373
11.3 Spider詳情384
11.4操作數據403
11.5模擬登錄432
11.6中間件446
11.7分佈式458
11.8項目案例：爬新浪新聞500
11.9本章小結510
11.10實戰練習510

第12章項目案例：爬校花網信息511
12.1分析網站512
12.2開始爬取515

第13章項目案例：爬北京地區短租房信息523
13.1分析網站524
13.2開始爬取525

第14章項目案例：爬簡書專題信息531
14.1分析網站532
14.2開始爬取535

第15章項目案例：爬QQ音樂歌曲539
15.1分析網站540
15.2開始爬取542

第16章項目案例：爬百度翻譯545
16.1分析網站546
16.2開始爬取550

第17章項目案例：爬百度地圖API 555
17.1分析網站556
17.2開始爬取560

第18章項目案例：爬360圖片571
18.1分析網站572
18.2開始爬取573

第19章項目案例：爬噹噹網577
19.1分析網站578
19.2開始爬取580

第20章項目案例：爬唯品會585
20.1分析網站586
20.2開始爬取589

第21章項目案例：爬智聯招聘593
21.1分析網站594
21.2開始爬取597