《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet

黃朝健 著

  • 出版商: 深智
  • 出版日期: 2026-03-19
  • 定價: $790
  • 售價: 7.9$624
  • 語言: 繁體中文
  • 頁數: 384
  • ISBN: 6267757889
  • ISBN-13: 9786267757888
  • 相關分類: Web-crawler 網路爬蟲
  • 尚未上市,歡迎預購

  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-1
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-2
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-3
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-4
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-5
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-6
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-7
  • 《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-8
《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet-preview-1

買這商品的人也買了...

相關主題

商品描述

《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇

 

ColabAnaconda Jupyter Kernel,一步步把 Python 環境建好、跑起來。

Pandas × PyArrow × Polars,把資料整理做得更快、更穩,也更貼近實務。

透過提示工程和情境工程,讓 ChatGPTClaude 成為你的程式開發夥伴。

結合Perplexity Comet+爬蟲+寄信+行事曆,把資訊蒐集到自動化流程一次串起。

多模態OCR × GeminiGroq API,把圖片文字直接變成可分析的結構化資料。

 

你學過Python,卻常卡在「環境裝不好、資料處理很慢、爬蟲一下就被擋、AI 工具只會聊天」嗎?本書以「做得出成果」為主軸,帶你從 Google ColabAnacondaJupyter Notebook Kernel 建置開始,快速建立穩定、可重現的開發環境。

 

接著用 Pandas 打底,涵蓋多欄多列取值、資料框合併、字串提取與條件篩選,並延伸到 PyArrow Polars,讓你面對較大的資料量也能跑得快、跑得順。

 

更關鍵的是,本書把提示工程與情境工程結合「直覺式開發」:教你如何用 ChatGPTClaude 協作寫程式、除錯;再搭配 Perplexity Comet 進行摘要與探勘,串接 GmailGoogle 行事曆、SMTPResend 寄信,打造可實際應用的自動化資訊流程。

 

最後以多模態 APIGeminiGroq)+中文 OCRPaddleOCREasyOCR)+爬蟲實戰進行總結,範例涵蓋電商、股價、ESG、重大訊息、交易指標等案例,並附上Gemini AI 教育版證照準備重點,適合資料分析初學者、稽核、採購、研究人員、跨域工作者,以及想把 AI 變成生產力的人。

 

 

專業推薦

 

崑山科技大學 電機工程系系主任─林俊良 博士

住宅消保會創會理事長─吳翃毅博士

錸成科技有限公司執行長、嘉南藥理大學兼任助理教授─凃春愛 博士

伽碩職訓中心執行長─郭明洽

昱創企管顧問有限公司總經理─裴有恆

元大銀行系統開發部專業副理─陳尚瑋

極策網路行銷有限公司總經理、崑山科技大學房地產開發與管理系講師─蔡宗甫

作者簡介

黃朝健

 

早年從人因互動設計切入科技產業,投入觸控IC 與模組研發,奠定堅實技術基礎。赴歐深造期間,師從符號計算大師Bruno Buchberger 教授,並於深度學習權威Sepp Hochreiter 教授實驗室研習AI 與機器學習,曾於HagenbergSoftwarePark RISC 公司實習,專注醫療影像的AI 應用。

返台後投入智慧製造與數位轉型,協助企業導入AI 解決方案。

現為中華民國內部稽核協會講師,並於嘉南藥理大學、天地人文創平台、勞動部產發署等單位授課,亦擔任大學業界偕同專家與企業數位顧問,推動AI 與產業實務接軌。

 

 

學經歷:

奧地利林茲大學 資訊系碩士畢業

中華民國內部稽核協會 講師

經濟部產業發展署AI授課 講師

天地人文創講堂 講師

教育部部定 講師

聯成電腦 講師

勞動部雲嘉南分署大數據 講師

台南失業者訓練班 講師

勞動部產業人才投資方案課程Python、電商行銷、數據科學 講師

高雄市勞動局產業新尖兵 講師

台南市伽碩職訓中心講師

AI GO講師生成對抗網路(數發部產業發展署)

AIGO 講師Kaggle 數據平台實戰 (數發部產業發展署)

台灣產業發展協會ESG 種子師資

國立政治大學電算中心技術師

義隆電子研發工程師

113 年國道智慧交通管理創意競賽優選作品

目錄大綱

1 Python 基礎安裝環境與說明

1.1 Google Colaboratory 安裝

1.2 Anaconda-Jupyter Notebook 安裝

1.3 Jupyter Notebook 介紹與建立Kernel

 

2 Pandas 資料框的操作及PyArrow Polars 應用

2.1 Pandas 的介紹與基礎讀檔

2.2 多欄位取值

2.3 多列取值

2.4 合併資料框

2.5 提取和取代字串

2.6 兩個條件以上取值

2.7 操作後的csv 寫出

2.8 PyArrow Polars 應用

 

3 提示工程、情境工程與直覺式開發

3.1 單樣本範例和多樣本提示(One-Shot or Few-Shots Prompt)

3.2 提示工程與情境工程說明與比較

3.3 ChatGPT Claude AI 用於程式開發協作

 

4 Perplexity AI Comet 瀏覽器進行摘要與探勘

4.1 Perplexity AI Comet 介紹與安裝

4.2 PChome 探勘關鍵字並結合Gmail 發送

4.3 Goodinfo 網站設計投資策略的提示語

4.4 比較多家電子零件採購網站的AI 摘要

4.5 查詢高鐵時刻表並結合Google 行事曆

 

5 常見的防爬三套件

5.1 Chrome 模擬器用於雲端IDE

5.2 fake-useragentundected-chromedriver selenium 介紹

5.3 進出口商情爬取實作

 

6 提示語撰寫範例

6.1 Prompt I: 猜測網頁結構

6.2 Prompt II: 給予一定的網頁元素

6.3 Prompt III: 特殊結構

 

7 多模態API 的申請

7.1 Google AI studio Gemini API 申請(Gemini Flash 2.0)

7.2 Groq AI API 申請(Llama-4-Scout-17B-16E-Instruct)

 

8 常見中文OCR 實作與多模態辨識

8.1 PaddleOCR 應用

8.2 EasyOCR 應用

8.3 Groq AI AP 用於圖片辨識實作

8.4 Gemini Flash 2.0 用於圖片辨識實作:發票辨識為例

8.5 Selenium 結合OCR 實作

 

9 爬蟲範例實戰

9.1 日本不動產價格爬取實作

9.2 PChome 股價爬取實作

9.3 ESG 永續報告書爬取實作

9.4 公開資訊觀測站即時重大資訊爬取實作

9.5 Requests 模組結合styler 著色應用:以溫室氣體盤查數據應用為例

9.6 Requests 模組結合plotly 繪製旭日圖應用:以溫室氣體範疇一和範疇二為例

9.7 永續發展債券抓取實作

 

10 交易指標爬取應用實戰

10.1 常見交易指標與乖離率介紹

10.2 交易指標結合yfinance 實作AI 概念股

10.3 交易儀表板優化實作

10.4 Goodinfo 台灣股市+NotebookLM 分析

10.5 上市公司年報爬取實作

 

11 Resend API 寄信模組與SMTP 模組實作

11.1 SMTP 寄信模組應用實作

11.2 Resend API 寄信模組應用實作

11.3 結合爬取最新商情並寄信應用實作

11.4 公開資訊觀測站即時重大資訊爬取並寄信實作

 

12

12.1 Gemini AI 教育版考試說明和介紹

12.2 Gemini AI 教育版考試備考技巧

12.3 獲取Gemini AI 教育版證書