《生成式 AI × 穩健提示辨識技術 II》視覺影像篇 | MediaPipe × YOLO × OpenCV × LineBot
黃朝健 著
- 出版商: 深智
- 出版日期: 2026-04-19
- 定價: $790
- 售價: 7.9 折 $624
- 語言: 繁體中文
- 頁數: 368
- ISBN: 6267889130
- ISBN-13: 9786267889138
-
相關分類:
影像辨識 Image-recognition
尚未上市,歡迎預購
買這商品的人也買了...
-
超圖解 Python 程式設計 -- 從入門、網頁應用、YOLO 到生成式 AI 實作$799$631 -
程式人的第一本 Python 量化投資筆記:Colab 即時演練 × Backtrader 策略設計到績效評估全流程(iThome鐵人賽系列書)$600$468 -
不懂程式也能自架專屬 AI:Vibe Coding 教你從零開始本地部署與雲端整合$790$616 -
大型語言模型應用實戰:從 Prompt Engineering 到 Agentic RAG 與 MCP$790$624 -
養成你的 AI 龍蝦管家!OpenClaw × NemoClaw × Google Antigravity × Claude Code:打造能查行程、收郵件、遠端控制電腦的 AI 代理人$750$585
商品描述
《生成式AI × 穩健提示辨識技術 II》視覺影像篇 | MediaPipe × YOLO × OpenCV × LineBot
聚焦AI影像應用實戰
★物件偵測
★影像分割
★YOLO 系列模型
★COCO 資料集
★交通車流辨識
★YouTube 影像分析
★肢體辨識
★閉眼偵測
★火災與濃煙辨識
★暴力行為與危險刀具檢測
除了模型觀念與程式實作之外 更進一步整合
★Linebot Messaging API
★Resend API
★USB CAM
★CSV 紀錄
★排程模組
★GUI 打包設計
讓讀者理解如何將 AI 技術延伸到通知、紀錄、前端呈現與自動化流程。
全書兼顧理論基礎與實務應用,不僅適合作為課堂教學與專題製作參考,也能作為跨域學習者建構智慧影像系統的重要入門教材。
專業推薦
敏實科技大學副校長─林文燦 博士 推薦
錸成科技有限公司執行長、嘉南藥理大學兼任助理教授─凃春愛 博士
日商優貝克工程師─吳俊毅
元大銀行系統開發部專業副理─陳尚瑋
作者簡介
黃朝健
早年從人因互動設計切入科技產業,投入觸控IC 與模組研發,奠定堅實技術基礎。赴歐深造期間,師從符號計算大師Bruno Buchberger 教授,並於深度學習權威Sepp Hochreiter 教授實驗室研習AI 與機器學習,曾於HagenbergSoftwarePark 的RISC 公司實習,專注醫療影像的AI 應用。
返台後投入智慧製造與數位轉型,協助企業導入AI 解決方案。
現為中華民國內部稽核協會講師,並於嘉南藥理大學、天地人文創平台、勞動部產發署等單位授課,亦擔任大學業界偕同專家與企業數位顧問,推動AI 與產業實務接軌。
學經歷:
■ 奧地利林茲大學 資訊系碩士畢業
■ 中華民國內部稽核協會 講師
■ 經濟部產業發展署AI授課 講師
■ 天地人文創講堂 講師
■ 教育部部定 講師
■ 聯成電腦 講師
■ 勞動部雲嘉南分署大數據 講師
■ 台南失業者訓練班 講師
■ 勞動部產業人才投資方案課程Python、電商行銷、數據科學 講師
■ 高雄市勞動局產業新尖兵 講師
■ 台南市伽碩職訓中心講師
■ AI GO講師生成對抗網路(數發部產業發展署)
■ AIGO 講師Kaggle 數據平台實戰 (數發部產業發展署)
■ 台灣產業發展協會ESG 種子師資
■ 國立政治大學電算中心技術師
■ 義隆電子研發工程師
■ 113 年國道智慧交通管理創意競賽優選作品
目錄大綱
▌1 常見的IDE 安裝與環境設定
1-1 基本IDE 安裝-VS Code 介紹
1.2 基本IDE 介紹-Anaconda-Jupyter Notebook
1.3 Google Colaboratory 安裝
1.4 API 與Python 環境衝突與物件辨識的系統設計
▌2 Pandas 的基礎操作與生成式AI 工作協作
2.1 Pandas 多欄位取值、多列取值
2.2 Pandas 提取字串和多條件取值在影像紀錄應用
2.3 資料框轉字串在系統上的應用
2.4 Cladue AI 程式協作和NotebookLM 心智圖用於程式架構分析
▌3 Gemini 3.0 用於影像互動遊戲設計
3.1 使用提示語設計小遊戲- 使用MediaPipe 設計肢體辨識
3.2 使用提示語設計小遊戲- 長者照護系統結合CSV 輸出
3.3 Gemini 遊戲範例- 寶可夢設計、3D 撞球、急速跑酷
▌4 AI 影像觀念介紹
4.1 物件偵測與影像分割介紹
4.2 卷積神經網路介紹
4.3 Teachable Machine 快速辨識實作結合前端應用
4.3 YOLO 模型版本與觀念介紹
4.4 COCO 資料集介紹
▌5 交通部即時車流影像辨識應用
5.1 OpenCV-SSD 框架介紹
5.2 YOLOv4 應用車流影像辨識
5.3 Ultralytics YOLOv8 模型應用車流影像辨識
5.4 車流影像辨識紀錄與基礎分析
▌6 YouTube 影像辨識實作
6.1 YouTube API 的介紹-yt-dlp 和pytube 為例
6.2 行人影像辨識- 以東京散步影像為例
6.3 直播影像辨識- 以三峽老街影像為例
6.4 球賽影像辨識為例
6.5 產線物流影像辨識實作為例
▌7 YOLO 模型結合Linebot Messaging API 用於肢體辨識
7.1 YOLOv4 和YOLOv5 和YOLOv8 和YOLOv8-pose 物件偵測模組比較
7.2 YOLOv8-pose 模型辨識應用- 使用flask 呈現
7.3 YOLOv8-pose 模型辨識應用- 使用csv 紀錄
7.4 Linebot Messaging API 申請應用介紹
7.5 YOLOv8-pose 模型辨識結合Linebot Messaging API 通知應用
7.6 YOLOv8-pose 模型用於球賽分析
7.7 YOLOv8-pose 模型用於大阪和維也納街景直播
▌8 閉眼偵測應用實作
8.1 OpenCV 結合眼睛追蹤與閉眼提示實作
8.2 OpenCV 結合眼睛追蹤與閉眼提示寫進csv
8.3 winsound 系統聲介紹設計
8.4 閉眼時發出系統聲設計實作
8.5 臉部與左右眼的標示追蹤應用
8.6 閉眼播放小星星
8.7 閉眼發出蜂鳴聲設計
▌9 Resend API 寄信模組應用
9.1 Resend API 申請與介紹
9.2 YOLOv8-Pose 模型辨識結合Resend 寄信通知應用
▌10 火災與濃霧辨識實作
10.1 火災與濃煙辨識模型結合YOLOv8 實作
10.2 火災與濃煙辨識模型結合Resend 寄信模組通知實作
10.3 結合USB CAM 打造實際監測火警和濃煙系統
10.4 使用Tkinter 框架打包火災與濃煙辨識系統
▌11 MediaPipe +CVZone 介紹應用
11.1 Google MediaPipe Studio 介紹
11.2 Python kernel 環境版本和cvzone 版本安裝設定
11.3 舊版MediaPipe 用於手部、臉部、肢體辨識
11.4 新版MediaPipe 用於手部、臉部、肢體辨識
11.5 暴力行為檢測系統
11.6 危險刀具檢測系統
▌12 OpenCV 結合排程和Groq 的辨識
12.1 APScheduler API 的定時定量設計介紹與應用
12.2 結合USB CAM 定時拍照或錄影系統設計
12.3 Groq API 申請與辨識模組介紹
12.4 結合USB CAM 定時拍照或錄影系統結合Groq 影像辨識
12.5 USB CAM 結合Groq 影像辨識和語音輸出
▌13 文件OCR 辨識應用
13.1 單一發票與收據OCR 實作
13.2 多張發票與收據OCR 實作
13.3 多張發票與收據OCR 結合多個工作表紀錄實作
13.4 多張發票與收據OCR 辨識結果結合Google driver 備份
13.5 OCR 部署到Hugging Face 之辨識APP 應用
▌14 郵局存簿辨識應用
14.1 本機端的OCR 辨識
14.2 使用中華郵政存簿進行辨識
14.3 Pandas 勾稽比對系統設計
14.4 存簿帳號辨識結果與客戶輸入結果比較
▌15 補充與回顧
15.1 USB CAM 危險區域結合手部觸控警示字樣設計
15.2 USB CAM 危險區域結合手部觸控警示聲音發送
15.3 USB CAM 危險區域改成正方形設計
15.4 新增摩托車於車流辨識
15.5 調參用於物流辨識應用
15.6 互動式數字儀表板
15.7 手指截圖








