內容理解:技術、演算法與實踐
孫子荀等
- 出版商: 機械工業
- 出版日期: 2023-10-01
- 定價: $594
- 售價: 7.9 折 $469
- 語言: 簡體中文
- 頁數: 282
- 裝訂: 平裝
- ISBN: 7111735137
- ISBN-13: 9787111735137
-
相關分類:
Large language model
立即出貨
買這商品的人也買了...
-
Fundamentals of Power Electronics, 2/e (Hardcover)$1,250$1,225 -
$419自己動手寫編譯器、鏈接器 -
深入理解計算機系統, 3/e (Computer Systems: A Programmer's Perspective, 3/e)$834$792 -
趣學演算法|50種必學演算法的完美圖解與應用實作$580$458 -
$232算法詳解 捲2 圖算法和數據結構 -
$301Python 自然語言處理實戰 (Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications) -
算法通關之路$594$564 -
AutoML 自動化機器學習:用 AutoKeras 超輕鬆打造高效能 AI 模型 (Automated Machine Learning with AutoKeras: Deep learning made accessible for everyone with just few lines of coding)$690$545 -
集成式學習:Python 實踐!整合全部技術,打造最強模型 (Hands-On Ensemble Learning with Python: Build highly optimized ensemble machine learning models using scikit-learn and Keras)$750$638 -
演算法戰鬥營:爆量題庫新手燒腦篇$880$695 -
演算法洞見:遞推與遞迴$600$468 -
演算法生存指南(書況差限門市銷售)$800$632 -
圖說演算法 : 使用 C語言, 3/e$560$437 -
$280自然語言處理 — 原理、方法與應用 -
$426自然語言處理之 BERT 模型算法、架構和案例實戰 -
深度序列模型與自然語言處理:基於 TensorFlow 2 實踐$594$564 -
算法詳解 捲3 貪心算法和動態規劃$419$398 -
算法詳解(捲4)——NP-Hard問題算法$479$455 -
CPU 眼裡的 C/C++$534$507 -
$516大規模語言模型:從理論到實踐 -
$454RISC-V 開放架構設計之道 -
$602因果推斷與機器學習 (修訂版) -
科技巨頭的演算法大揭祕:資料科學家必讀的資料科學與機器學習實戰筆記(iThome鐵人賽系列書)【軟精裝】$680$530 -
$473基於 GPT-3、ChatGPT、GPT-4 等 Transformer 架構的自然語言處理 -
跟 NVIDIA 學深度學習!從基本神經網路到 ......、GPT、BERT...,紮穩機器視覺與大型語言模型 (LLM) 的建模基礎$880$748
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
VIP 95折
深入淺出 SSD 測試 : 固態存儲測試流程 方法與工具$594$564 -
VIP 95折
MCP 開發從入門到實戰$515$489 -
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
RISC-V 架構 DSP 處理器設計$534$507 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
85折
$454RAG 實踐權威指南:構建精準、高效大模型之道 -
VIP 95折
CUDA 並行編程與性能優化$714$678 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
VIP 95折
大模型驅動的具身智能 架構,設計與實現$534$507 -
VIP 95折
納米級CMOS VLSI電路(可制造性設計)$474$450 -
VIP 95折
Manus應用與AI Agent設計指南:從入門到精通$359$341 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
VIP 95折
芯片的較量 (日美半導體風雲)$414$393 -
VIP 95折
Manus AI 智能體從入門到精通$294$279 -
87折
$981深度學習:基礎與概念 -
85折
$505GitHub Copilot 編程指南 -
87折
$469Cursor 與 Copilot 開發實戰 : 讓煩瑣編程智能化 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
Verilog HDL 計算機網絡典型電路算法設計與實現$354$336 -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673
簡體館年度書展|現貨2書79折3書75折 詳見活動內容 »
-
85折
$806Linux x64 匯編語言編程 -
VIP 95折
MCP 極簡開發 : 輕鬆打造高效智能體$479$455 -
VIP 95折
硬件系統模糊測試:技術揭秘與案例剖析$419$398 -
VIP 95折
生成式視覺模型原理與實踐$288$274 -
87折
$459AI大模型:賦能通信產業 -
VIP 95折
科學預測——預見科學之美$408$388 -
VIP 95折
Processing創意編程入門:從編程原理到項目案例$299$284 -
87折
$360高薪Offer 簡歷、面試、談薪完全攻略 -
VIP 95折
軟件系統優化$534$507 -
85折
$505GitHub Copilot 編程指南 -
85折
$551C#核心編程200例(視頻課程+全套源程序) -
VIP 95折
SAAS + AI 架構實戰:業務解析、架構設計、AI 應用$708$673 -
VIP 95折
深入淺出 Docker, 2/e$419$398 -
85折
$658Unity 特效制作:Shader Graph 案例精講 -
79折
$275零基礎玩轉國產大模型DeepSeek -
VIP 95折
人工智能大模型:機器學習基礎$774$735 -
VIP 95折
RAG 極簡入門:原理與實踐$419$398 -
VIP 95折
大模型實戰 : 從零實現 RAG 與 Agent 系統$419$398 -
VIP 95折
算法趣學(第2版)$348$331 -
VIP 95折
大模型理論與實踐——打造行業智能助手$354$336 -
VIP 95折
大模型應用開發 RAG 實戰課$599$569 -
85折
$509生成式人工智能 (基於 PyTorch 實現) -
VIP 95折
機器人抓取力學$894$849 -
VIP 95折
集成電路版圖設計從入門到精通$474$450 -
VIP 95折
Java 學習筆記, 6/e$839$797
相關主題
商品描述
這是一本在AI大模型技術背景下深入講解內容理解的技術原理、演算法實現與業務實踐的著作,
由騰訊的高級總監和資深內容專家領銜撰寫,全面融入了工業界在內容業務方面積累的先進技術和成熟經驗。
全書圍繞著內容理解、內容生成、內容品質3大關鍵領域展開,
從內容產業的發展趨勢與挑戰到各種技術和演算法,從產業的先進的研究成果到各種典型的應用案例,應有盡有。
第一部分內容理解(第1~7章)
首先,詳細介紹了內容理解的各個模組,包括文字、圖像、
語音等單模態內容的理解以及多場景文字、影片等多模態內容的理解,幫助讀者全面瞭解內容理解的核心概念、技術細節和研究進展。
接著,講解了多模態學習在內容理解中的應用、多模態內容理解的理論架構和大規模預訓練技術。
最後,介紹了兩個主流的內容理解框架,並結合一個自研的多模態內容理解框架,闡述瞭解決內容理解問題的流程和具體方案。
第二部分內容生成(第8~11章)
詳細講解了內容生成的技術細節,結合作者團隊在業務實踐中探索的應用案例,從圖片生成、文本生成、AI素材合成到AI創作,
介紹了內容創作的全端技術,能幫助讀者由淺入深地理解內容生成的技術原理與業務實務。
第三部分內容品質(第12~14章)
詳細解說了資訊流產品常見的內容品質問題,例如標題黨、假新聞、
低俗圖片等,介紹如何將這些與內容品質相關的業務場景進行拆解和定義,將抽象的業務場景轉化為可以建模的問題。
此外,也介紹了作者團隊採用的業務建模流程以及業界常用的解決方案和研究進展。
作者簡介
孫子荀,內容理解與生成領域的資深專家,騰訊高級總監和專家研究員,負責騰訊遊戲用戶增長與內容生態技術相關的工作。2012年加入騰訊,十多年來一直從事內容理解、內容生成以及數據科學技術的研究和落地工作,帶領團隊獲得十幾項公司級業務獎和技術獎。在內容生態增長、創意營銷等領域有豐富的落地經驗。帶領團隊從0到1構建了首個內容技術中臺;打造了騰訊遊戲全域營銷科學體系,幫助多個業務實現降本增效。與團隊一起在人工智能頂級學術會議上發表了多篇論文和報告,在相關領域擁有幾十項發明專利。
目錄大綱
Contents 目 錄
作者簡介
前 言
第一部分 內容理解
第1章 文本內容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分類9
1.2.1 文本分類的研究背景9
1.2.2 文本分類的方法9
1.3 本章小結17
第2章 圖像理解19
2.1 影像分類20
2.1.1 傳統影像分類演算法20
2.1.2 深度學習影像分類演算法23
2.2 影像檢測25
2.2.1 影像匹配演算法26
2.2.2 基於OpenCV的模板匹配實作27
2.2.3 目標偵測演算法28
2.3 實際應用:通用元素檢測框架30
2.4 本章小結31
第3章 語音理解32
3.1 語音表徵32
3.1.1 基於傳統方法的語音表徵33
3.1.2 基於深度學習的語音表徵34
3.2 基於深度學習的音樂分類34
3.2.1 基於CNN的音樂分類35
3.2.2 基於RNN的音樂分類38
3.2.3 基於領域知識的CNN38
3.2.4 基於註意力機制的後端模組
演算法41
3.3 本章小結43
第4章 場景文字偵測與辨識44
4.1 場景文字的研究方向44
4.1.1 研究問題44
4.1.2 研究困難45
4.1.3 未來趨勢45
4.2 場景文本演算法的現況46
4.2.1 基於傳統機器學習的文本檢測46
4.2.2 基於傳統機器學習的文本辨識46
4.2.3 基於深度學習的文本檢測47
4.2.4 基於深度學習的文本辨識52
4.2.5 基於深度學習的端對端系統53
4.3 場景文字演算法輔助技術55
4.3.1 不規則文本辨識問題55
4.3.2 文字影像合成技術56
4.3.3 半監督技術57
4.4 資料集與評估標準58
4.4.1 基準資料集58
4.4.2 文本檢測評估標準60
4.4.3 文本辨識評估標準61
4.5 文本檢測與辨識的應用、現狀
與未來61
4.5.1 應用61
4.5.2 現狀62
4.5.3 挑戰與未來趨勢62
4.6 本章小結64
第5章 影片理解65
5.1 視訊表徵66
5.1.1 研究目標與意義66
5.1.2 研究進展67
5.2 影片動作辨識71
5.2.1 研究目標與意義71
5.2.2 研究困難71
5.2.3 研究進展71
5.3 影片時序動作定位74
5.3.1 研究目標與意義74
5.3.2 研究困難74
5.3.3 研究進展75
5.4 視訊結構化分析79
5.4.1 研究目標與意義80
5.4.2 研究難點80
5.4.3 基於視訊結構化的資料集80
5.4.4 視頻結構的劃分方法81
5.4.5 研究進展84
5.5 本章小結89
第6章 多模態學習與內容理解91
6.1 多模態內容理解的研究方向91
6.1.1 研究問題91
6.1.2 研究意義與挑戰92
6.1.3 研究方向與應用93
6.2 多模態表徵94
6.2.1 因果表徵94
6.2.2 聯合表徵98
6.3 多模態內容理解架構99
6.3.1 模態間推理99
6.3.2 模態間協同101
6.3.3 模態間推理:零樣本影像
分類103
6.3.4 模態間協同:假新聞識別105
6.4 大規模預訓練技術108
6.4.1 文本預訓練108
6.4.2 影像預訓練110
6.4.3 音頻預訓練111
6.4.4 多模態預訓練112
6.5 本章小結114
第7章 內容理解架構115
7.1 常見的內容理解架構115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模態內容理解架構121
7.2.1 框架設計背景121
7.2.2 contentAI框架介紹125
7.2.3 高度配置化125
7.2.4 高度組件化127
7.2.5 開發者模式與使用者模式130
7.2.6 計算式網絡搭建131
7.2.7 計算圖網絡搭建 132
7.2.8 自動化資料集建構 133
7.2.9 能力優化133
7.2.10 快速服務化134
7.2.11 內容理解能力135
7.2.12 程式碼編寫範例136
7.3 本章小結141
第二部分 內容生成
第8章 圖片生成144
8.1 基於GAN的圖片生成144
8.1.1 生成對抗網絡144
8.1.2 條件圖片生成146
8.1.3 文字轉圖片147
8.1.4 圖片遷移147
8.1.5 高分辨率圖片生成149
8.2 基於擴散模型的圖片生成151
8.2.1 擴散模型152
8.2.2 擴散模型生成圖153
8.3 圖片設計155
8.3.1 智能裁切155
8.3.2 智慧佈局156
8.4 本章小結157
第9章 文本生成158
9.1 文本生成的背景知識158
9.1.1 語言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成品質量化 161
9.2 文本生成演算法162
9.2.1 基於統計的文本生成模型162
9.2.2 基於神經網絡的文本生成技術164
9.3 本章小結172
第10章 AI素材合成173
10.1 AI人臉屬性編輯173
10.1.1 研究目標與意義173
10.1.2 研究困難175
10.1.3 研究進展176
10.2 AI語音合成181
10.2.1 研究目標與意義181
10.2.2 基本的語音合成系統簡介182
10.2.3 端對端的語音合成系統183
10.2.4 基於深度學習的演算法介紹185
10.3 AI虛擬人技術195
10.3.1 研究目標與意義195
10.3.2 二維多目標人體姿態估計197
10.3.3 二維-三維人體姿態轉換203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自動合成的意義及
挑戰207
10.4.3 表情包合成演算法208
10.4.4 表情包合成應用212
10.5 本章小結213
第11章 影片編輯214
11.1 結構化資料影片編輯215
11.1.1 基於模板的電視報道影片編輯215
11.1.2 基於剪輯元素屬性約束的
影片編輯216
11.1.3 視訊特效合成系統實務217
11.2 文字驅動影片編輯222
11.2.1 基於主題文本編輯的視頻
蒙太奇222
11.2.2 基於解說文本的旅遊視頻
編輯224
11.3 音樂驅動影片編輯225
11.3.1 音樂驅動影片蒙太奇225
11.3.2 根據音樂生成視覺節奏227
11.3.3 基於音樂合成視覺敘事
鏡頭230
11.4 本章小結232
第三部分 內容質量
第12章 標題黨234
12.1 模型建構235
12.1.1 業務定義235
12.1.2 基於標題建模236
12.1.3 基於文章整體內容建模 238
12.2 標題黨研究方向241
12.2.1 資料方面的研究241
12.2.2 特徵構造方面的研究241
12.2.3 模型方面的研究241
12.3 資料集242
12.4 相關論文介紹243
12.4.1 特徵構造243
12.4.2 深度學習245
12.5 本章小結247
第13章 假新聞248
13.1 基本方法248
13.1.1 基於內容真實性248
13.1.2 基於內容風格249
13.1.3 基於傳播模式251
13.1.4 基於傳播源特徵253
13.2 未來研究方向253
13.3 資料集254
13.4 相關論文介紹254
13.5 本章小結271
第14章 圖文低俗辨識272
14.1 研究背景與問題定義272
14.1.1 研究背景272
14.1.2 問題定義273
14.2 業界常用產品274
14.3 主要技術手段275
14.3.1 關鍵字275
14.3.2 模型276
14.3.3 匹配277
14.3.4 舉報279
14.3.5 使用者行為279
14.3.6 多模態279
14.4 業務案例279
14.5 本章小結282
