Programming Spiders, Bots, and Aggregators in Java
暫譯: 用 Java 編寫爬蟲、機器人和聚合器

Jeff Heaton

  • 出版商: Sybex
  • 售價: $2,250
  • 貴賓價: 9.5$2,138
  • 語言: 英文
  • 頁數: 512
  • 裝訂: Paperback
  • ISBN: 0782140408
  • ISBN-13: 9780782140408
  • 相關分類: Java 程式語言
  • 已絕版

買這商品的人也買了...

相關主題

商品描述

The content and services available on the web continue to be accessed mostly through direct human control. But this is changing. Increasingly, users rely on automated agents that save them time and effort by programmatically retrieving content, performing complex interactions, and aggregating data from diverse sources. Programming Spiders, Bots, and Aggregators in Java teaches you how to build and deploy a wide variety of these agents–from single-purpose bots to exploratory spiders to aggregators that present a unified view of information from multiple user accounts.


You will quickly build on your basic knowledge of Java to quickly master the techniques that are essential to this specialized world of programming, including parsing HTML, interpreting data, working with cookies, reading and writing XML, and managing high-volume workloads. You'll also learn about the ethical issues associated with bot use--and the limitations imposed by some websites.

This book offers two levels of instruction, both of which are focused on the library of routines provided on the companion CD. If your main concern is adding ready-made functionality to an application, you'll achieve your goals quickly thanks to step-by-step instructions and sample programs that illustrate effective implementations. If you're interested in the technologies underlying these routines, you'll find in-depth explanations of how they work and the techniques required for customization.

Contents


Introduction

Chapter 1 Java Socket Programming
Chapter 2 Examining the Hypertext Transfer Protocol
Chapter 3 Accessing Secure Sites with HTTPS
Chapter 4 HTML Parsing
Chapter 5 Posting Forms
Chapter 6 Interpreting Data
Chapter 7 Exploring Cookies
Chapter 8 Building a Spider
Chapter 9 Building a High-Volume Spider
Chapter 10 Building a Bot
Chapter 11 Building an Aggregator
Chapter 12 Using Bots Conscientiously
Chapter 13 The Future of Bots

Appendix A The Bot Package
Appendix B Various HTTP Related Charts
Appendix C Troubleshooting
Appendix D Installing Tomcat
Appendix E How to Compile Examples Under Windows
Appendix F How to Compile Examples Under UNIX
Appendix G Recompiling the Bot Package
Glossary
Index

商品描述(中文翻譯)

內容和服務在網路上的存取仍然主要依賴直接的人為控制,但這一切正在改變。用戶越來越依賴自動化代理,這些代理透過程式化的方式檢索內容、執行複雜的互動,並從多個來源聚合數據,從而節省時間和精力。《Programming Spiders, Bots, and Aggregators in Java》教你如何構建和部署各種這些代理——從單一用途的機器人到探索性蜘蛛,再到呈現多個用戶帳戶信息統一視圖的聚合器。

你將迅速在基本的 Java 知識上建立,快速掌握這個專業編程領域所需的技術,包括解析 HTML、解釋數據、處理 cookies、讀取和寫入 XML,以及管理高容量的工作負載。你還將了解與機器人使用相關的倫理問題,以及某些網站所施加的限制。

本書提供兩個層次的教學,兩者都專注於隨附 CD 上提供的例程庫。如果你的主要關注是為應用程序添加現成的功能,則可以通過逐步指導和示範有效實現的範例程序快速達成目標。如果你對這些例程背後的技術感興趣,則會發現有關它們如何運作及自定義所需技術的深入解釋。

內容

引言

第 1 章 Java Socket 編程
第 2 章 檢查超文本傳輸協議
第 3 章 使用 HTTPS 存取安全網站
第 4 章 HTML 解析
第 5 章 發佈表單
第 6 章 解釋數據
第 7 章 探索 Cookies
第 8 章 建立蜘蛛
第 9 章 建立高容量蜘蛛
第 10 章 建立機器人
第 11 章 建立聚合器
第 12 章 負責任地使用機器人
第 13 章 機器人的未來

附錄 A 機器人包
附錄 B 各種 HTTP 相關圖表
附錄 C 故障排除
附錄 D 安裝 Tomcat
附錄 E 如何在 Windows 下編譯範例
附錄 F 如何在 UNIX 下編譯範例
附錄 G 重新編譯機器人包
術語表
索引