基於 NLP 的內容理解

Name: 基於 NLP 的內容理解
Price: 504 TWD
Availability: InStock
Author: 李明琦//谷雪//孟子堯
ISBN: 7111720695

李明琦//谷雪//孟子堯

出版商: 機械工業
出版日期: 2023-03-01
定價: $594
售價: 8.5 折 $504
語言: 簡體中文
頁數: 242
裝訂: 平裝
ISBN: 7111720695
ISBN-13: 9787111720690
相關分類: Natural Language Processing

立即出貨

買這商品的人也買了...

~~$480~~ $379

UX 從新手開始｜使用者體驗的 100堂必修課 (UX for Beginners: A Crash Course in 100 Short Lessons)
~~$880~~ $695

Python 資料分析, 2/e (Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, 2/e)
~~$580~~ $458

網站擷取｜使用 Python, 2/e (Web Scraping with Python: Collecting More Data from the Modern Web, 2/e)
$504

精通 CSS 高級 Web 標準解決方案, 3/e
~~$780~~ $663

Python 技術者們 - 練功！老手帶路教你精通正宗 Python 程式 (The Quick Python Book, 3/e)
$397

群體智能與仿生計算：Matlab 技術實現, 2/e
$861

React 全家桶 : 前端開發與實例詳解 (Fullstack React: The Complete Guide to ReactJS and Friends)
~~$580~~ $458

React 學習手冊, 2/e (Learning React: Modern Patterns for Developing React Apps, 2/e)
$504

基於混合方法的自然語言處理：神經網絡模型與知識圖譜的結合
~~$780~~ $663

Python 資料分析必備套件！Pandas 資料清理、重塑、過濾、視覺化 (Pandas 1.x Cookbook, 2/e)
$402

左手Python，右手Excel：帶飛Excel的Python絕技
~~$420~~ $357

圖解半導體：從設計、製程、應用一窺產業現況與展望
$774

分佈式人工智能
$351

Python 深度強化學習 — 使用 PyTorch, TensorFlow 和 OpenAI
$598

群體智能與演化博弈
$810

Nuxt.js Web 開發實戰
$520

自然語言處理應用與實戰
~~$600~~ $396

GPT 語言模型大揭密：OpenAI API 應用全攻略，打造頂尖 NLP 產品 (GPT-3: The Ultimate Guide to Building NLP Products with OpenAI API)
~~$680~~ $530

ChatGPT 指令大全與創新應用：GPT-4 搶先看、串接 API、客服機器人、AI英文家教，一鍵打造 AI智慧產品
~~$594~~ $564

精通 Transformer : 從零開始構建最先進的 NLP 模型
~~$594~~ $564

Doris 實時數倉實戰
~~$560~~ $239

運算思維程式講堂：打好 Python x ChatGPT 基礎必修課
$510

與 AI 對話：ChatGPT 提示工程揭秘
$356

深度強化學習實戰用 OpenAI Gym 構建智能體
~~$880~~ $695

ChatGPT 原理，從 PyTorch 中的 NLP 功能讓你一腳跨入自然語言

商品描述

這是一本講述如何用NLP技術進行文本內容理解的著作，
也是一本系統講解NLP算法的著作，是作者在NLP和內容理解領域多年經驗的總結。
本書結合內容理解的實際業務場景，系統全面、
循序漸進地講解了各種NLP算法以及如何用這些算法高效地解決內容理解方面的難題，主要包括如下幾個方面的內容：
（1）文本特徵表示
文本特徵表示是NLP的基石，也是內容理解的基礎環節，
本書詳細講解了離散型表示方法和分佈型表示方法等特徵表示方法及其應用場景，還講解了詞向量的評判標準。
（2）內容重複理解
詳細講解了標題重複、段落重複、文章重複的識別方法和去重算法。
（3）內容通順度識別及糾正
詳細講解了內容通順度的識別方法以及糾正不通順內容的方法。
（4）內容質量
詳細講解了多種內容質量相關的算法，以及如何搭建高質量的知識問答體系的流程。
（5）標籤體系構建
詳細講解了針對內容理解的標籤體系的建設流程和方法，以及多種相關算法。
（6）文本摘要生成
詳細講解了抽取式文本摘要和生成式文本摘要兩種流行的文本摘要生成方法，以及文本摘要的常用數據集和文本摘要評價方法。
（7）文本糾錯
詳細講解了文本糾錯的傳統方法、深度學習方法、工業界解決方案，以及常用的文本糾錯工具的安裝和使用。

作者簡介

李明琦，資深AI技術專家，現任職於BAT，擔任資深演算法工程師。長期致力於機器學習、深度學習、NLP等技術在實際業務場景中的落地，在內容理解方面有豐富的經驗，主導的內容品質專案曾獲得最佳專案獎。先後發表人工智能相關的學術論文2篇，申請人工智能領域的發明專利5項。在GitHub上貢獻了大量內容品質、問答系統、NLP等方面的程式碼，在CSDN撰寫了一些與演算法、機器學習、內容理解相關的文章，深受歡迎。

目錄大綱

前言
第1章文本特徵表示1
1.1 語料與語料預處理1
1.1.1 語料和語料庫1
1.1.2 語料預處理2
1.2 文本特徵表示方法6
1.2.1 離散型特徵表示方法6
1.2.2 分佈型特徵表示方法13
1.3 詞向量的評判標準29
1.3.1 內部評估29
1.3.2 外在評估31
1.4 本章小結34
第2章內容重複理解35
2.1 標題重複35
2.1.1 標題符號規整化處理36
2.1.2 Jieba分詞39
2.1.3 LAC分詞43
2.1.4 基於分詞及字符串等
方式進行重複識別45
2.2 段落重複識別實例47
2.2.1 段落重複識別47
2.2.2 基於N-gram算法進行
內容去重48
2.2.3 平滑處理技術54
2.3 基於相似度計算的文章判重57
2.3.1 文本相似度計算任務
的分析57
2.3.2 距離度量方式58
2.3.3 基於SimHash算法進行
文本重複檢測62
2.4 本章小結66
第3章內容通順度識別及糾正67
3.1 數據增強67
3.2 基於FastText算法的句子
通順度識別73
3.2.1 CBOW模型74
3.2.2 FastText算法原理75
3.2.3 FastText算法實戰81
3.3 基於TextCNN算法的分類
任務實現93
3.3.1 專有名詞簡介93
3.3.2 算法介紹94
3.3.3 參數調優經驗總結96
3.3.4 基於Keras工具實現TextCNN算法96
3.4 基於TextRNN算法的分類
任務實現98
3.4.1 LSTM和BiLSTM 98
3.4.2 TextCNN和TextRNN
識別效果對比105
3.5 基於Seq2Seq模型的
糾正策略106
3.5.1 Seq2Seq模型原理106
3.5.2 糾正不通順句子的方法108
3.6 本章小結114
第4章內容質量116
4.1 GBDT算法116
4.1.1 GBDT算法概述117
4.1.2 負梯度擬合117
4.1.3 GBDT回歸算法118
4.1.4 GBDT分類算法119
4.2 XGBoost算法121
4.2.1 從GBDT到XGBoost 121
4.2.2 XGBoost損失函數122
4.2.3 XGBoost損失函數的
優化求解124
4.2.4 XGBoost算法流程125
4.2.5 XGBoost算法參數
及調優127
4.3 知識問答質量體系的搭建129
4.3.1 知識問答質量體系
建立的意義130
4.3.2 整體的項目實施方案130
4.3.3 知識問答質量體系
搭建流程133
4.4 本章小結142
第5章標籤體系構建143
5.1 標籤體系143
5.1.1 標籤體系的重要性143
5.1.2 標籤體系的分類144
5.1.3 構建標籤體系146
5.2 TF-IDF算法151
5.2.1 TF-IDF算法介紹151
5.2.2 TF-IDF算法實現152
5.3 PageRank算法155
5.4 TextRank算法163
5.4.1 TextRank算法的使用
場景164
5.4.2 TextRank算法的
優缺點168
5.5 本章小結168
第6章文本摘要生成169
6.1 文本摘要相關介紹169
6.1.1 文本摘要問題定義169
6.1.2 文本摘要分類170
6.1.3 文本摘要的技術和方法170
6.2 基於無監督的抽取式文本摘要172
6.2.1 基於經驗的文本摘要173
6.2.2 基於主題模型的
文本摘要175
6.2.3 基於圖的文本摘要182
6.2.4 基於特徵評分的
文本摘要185
6.2.5 基於聚類的文本摘要188
6.3 基於有監督的抽取式文本摘要191
6.4 基於深度神經網絡的生成式
文本摘要201
6.5 文本摘要常用數據集210
6.6 文本摘要評價方法211
6.6.1 自動評價方法211
6.6.2 人工評價方法213
6.7 本章小結213
第7章文本糾錯214
7.1 錯誤來源及類型214
7.2 文本糾錯的3種傳統方法215
7.2.1 模板匹配215
7.2.2 編輯距離匹配216
7.2.3 HANSpeller++框架217
7.3 文本糾錯深度學習方法220
7.3.1 英文文本糾錯方法220
7.3.2 中文文本糾錯方法224
7.4 工業界解決方法233
7.4.1 3階段級聯的糾錯方案234
7.4.2 符合多種場景的通用
糾錯方案236
7.4.3 保險文本的糾錯方案237
7.5 文本糾錯工具239
7.5.1 pycorrector 239
7.5.2 xmnlp 240
7.6 本章小結242