《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇 爬蟲× OCR × 多模態API應用×Perplexity AI Comet Generative AI × Robust Prompted Sampling Web Crawling × OCR × Multimodal APIs × Perplexity AI Comet
黃朝健 著
- 出版商: 深智
- 出版日期: 2026-03-19
- 定價: $790
- 售價: 7.9 折 $624
- 語言: 繁體中文
- 頁數: 384
- ISBN: 6267757889
- ISBN-13: 9786267757888
-
相關分類:
Web-crawler 網路爬蟲
尚未上市,歡迎預購
買這商品的人也買了...
相關主題
商品描述
《生成式AI × 穩健提示爬蟲技術 I》數據抓取篇
★從Colab、Anaconda 到 Jupyter Kernel,一步步把 Python 環境建好、跑起來。
★用Pandas × PyArrow × Polars,把資料整理做得更快、更穩,也更貼近實務。
★透過提示工程和情境工程,讓 ChatGPT、Claude 成為你的程式開發夥伴。
★結合Perplexity Comet+爬蟲+寄信+行事曆,把資訊蒐集到自動化流程一次串起。
★多模態OCR × Gemini和Groq API,把圖片文字直接變成可分析的結構化資料。
你學過Python,卻常卡在「環境裝不好、資料處理很慢、爬蟲一下就被擋、AI 工具只會聊天」嗎?本書以「做得出成果」為主軸,帶你從 Google Colab、Anaconda、Jupyter Notebook 與 Kernel 建置開始,快速建立穩定、可重現的開發環境。
接著用 Pandas 打底,涵蓋多欄多列取值、資料框合併、字串提取與條件篩選,並延伸到 PyArrow 與 Polars,讓你面對較大的資料量也能跑得快、跑得順。
更關鍵的是,本書把提示工程與情境工程結合「直覺式開發」:教你如何用 ChatGPT和Claude 協作寫程式、除錯;再搭配 Perplexity Comet 進行摘要與探勘,串接 Gmail、Google 行事曆、SMTP、Resend 寄信,打造可實際應用的自動化資訊流程。
最後以多模態 API(Gemini、Groq)+中文 OCR(PaddleOCR、EasyOCR)+爬蟲實戰進行總結,範例涵蓋電商、股價、ESG、重大訊息、交易指標等案例,並附上Gemini AI 教育版證照準備重點,適合資料分析初學者、稽核、採購、研究人員、跨域工作者,以及想把 AI 變成生產力的人。
專業推薦
崑山科技大學 電機工程系系主任─林俊良 博士
住宅消保會創會理事長─吳翃毅博士
錸成科技有限公司執行長、嘉南藥理大學兼任助理教授─凃春愛 博士
伽碩職訓中心執行長─郭明洽
昱創企管顧問有限公司總經理─裴有恆
元大銀行系統開發部專業副理─陳尚瑋
極策網路行銷有限公司總經理、崑山科技大學房地產開發與管理系講師─蔡宗甫
作者簡介
黃朝健
早年從人因互動設計切入科技產業,投入觸控IC 與模組研發,奠定堅實技術基礎。赴歐深造期間,師從符號計算大師Bruno Buchberger 教授,並於深度學習權威Sepp Hochreiter 教授實驗室研習AI 與機器學習,曾於HagenbergSoftwarePark 的RISC 公司實習,專注醫療影像的AI 應用。
返台後投入智慧製造與數位轉型,協助企業導入AI 解決方案。
現為中華民國內部稽核協會講師,並於嘉南藥理大學、天地人文創平台、勞動部產發署等單位授課,亦擔任大學業界偕同專家與企業數位顧問,推動AI 與產業實務接軌。
學經歷:
■ 奧地利林茲大學 資訊系碩士畢業
■ 中華民國內部稽核協會 講師
■ 經濟部產業發展署AI授課 講師
■ 天地人文創講堂 講師
■ 教育部部定 講師
■ 聯成電腦 講師
■ 勞動部雲嘉南分署大數據 講師
■ 台南失業者訓練班 講師
■ 勞動部產業人才投資方案課程Python、電商行銷、數據科學 講師
■ 高雄市勞動局產業新尖兵 講師
■ 台南市伽碩職訓中心講師
■ AI GO講師生成對抗網路(數發部產業發展署)
■ AIGO 講師Kaggle 數據平台實戰 (數發部產業發展署)
■ 台灣產業發展協會ESG 種子師資
■ 國立政治大學電算中心技術師
■ 義隆電子研發工程師
■ 113 年國道智慧交通管理創意競賽優選作品
目錄大綱
▌第1章 Python 基礎安裝環境與說明
1.1 Google Colaboratory 安裝
1.2 Anaconda-Jupyter Notebook 安裝
1.3 Jupyter Notebook 介紹與建立Kernel
▌第2章 Pandas 資料框的操作及PyArrow 和Polars 應用
2.1 Pandas 的介紹與基礎讀檔
2.2 多欄位取值
2.3 多列取值
2.4 合併資料框
2.5 提取和取代字串
2.6 兩個條件以上取值
2.7 操作後的csv 寫出
2.8 PyArrow 和Polars 應用
▌第3章 提示工程、情境工程與直覺式開發
3.1 單樣本範例和多樣本提示(One-Shot or Few-Shots Prompt)
3.2 提示工程與情境工程說明與比較
3.3 ChatGPT 和Claude AI 用於程式開發協作
▌第4章 Perplexity AI Comet 瀏覽器進行摘要與探勘
4.1 Perplexity AI Comet 介紹與安裝
4.2 PChome 探勘關鍵字並結合Gmail 發送
4.3 Goodinfo 網站設計投資策略的提示語
4.4 比較多家電子零件採購網站的AI 摘要
4.5 查詢高鐵時刻表並結合Google 行事曆
▌第5章 常見的防爬三套件
5.1 Chrome 模擬器用於雲端IDE
5.2 fake-useragent、undected-chromedriver 和selenium 介紹
5.3 進出口商情爬取實作
▌第6章 提示語撰寫範例
6.1 Prompt I: 猜測網頁結構
6.2 Prompt II: 給予一定的網頁元素
6.3 Prompt III: 特殊結構
▌第7章 多模態API 的申請
7.1 Google AI studio 的Gemini API 申請(Gemini Flash 2.0)
7.2 Groq AI API 申請(Llama-4-Scout-17B-16E-Instruct)
▌第8章 常見中文OCR 實作與多模態辨識
8.1 PaddleOCR 應用
8.2 EasyOCR 應用
8.3 Groq AI AP 用於圖片辨識實作
8.4 Gemini Flash 2.0 用於圖片辨識實作:發票辨識為例
8.5 Selenium 結合OCR 實作
▌第9章 爬蟲範例實戰
9.1 日本不動產價格爬取實作
9.2 PChome 股價爬取實作
9.3 ESG 永續報告書爬取實作
9.4 公開資訊觀測站即時重大資訊爬取實作
9.5 Requests 模組結合styler 著色應用:以溫室氣體盤查數據應用為例
9.6 Requests 模組結合plotly 繪製旭日圖應用:以溫室氣體範疇一和範疇二為例
9.7 永續發展債券抓取實作
▌第10章 交易指標爬取應用實戰
10.1 常見交易指標與乖離率介紹
10.2 交易指標結合yfinance 實作AI 概念股
10.3 交易儀表板優化實作
10.4 Goodinfo 台灣股市+NotebookLM 分析
10.5 上市公司年報爬取實作
▌第11章 Resend API 寄信模組與SMTP 模組實作
11.1 SMTP 寄信模組應用實作
11.2 Resend API 寄信模組應用實作
11.3 結合爬取最新商情並寄信應用實作
11.4 公開資訊觀測站即時重大資訊爬取並寄信實作
▌第12章
12.1 Gemini AI 教育版考試說明和介紹
12.2 Gemini AI 教育版考試備考技巧
12.3 獲取Gemini AI 教育版證書







