自然語言處理 Python 進階

[印度]克裡希納·巴夫薩(Krishna Bhavsar)  納雷什·庫馬爾(Naresh Kumar)普拉塔普·丹蒂(Pratap Dangeti)  著

  • 出版商: 機械工業
  • 出版日期: 2019-01-01
  • 定價: $354
  • 售價: 7.9$279
  • 語言: 簡體中文
  • 頁數: 207
  • ISBN: 711161643X
  • ISBN-13: 9787111616436
  • 相關分類: Natural Language ProcessingPython
  • 立即出貨 (庫存 < 3)

買這商品的人也買了...

商品描述

自然語言處理(NLP)是電腦與人類(自然)語言交互的一個領域,涉及電腦科學、人工智能以及計算語言學。特別是,自然語言處理應用了電腦程序設計來處理大規模的自然語言數據。
本書包含的實例可以讓你學會使用NLTK(處理NLP任務的主要Python平臺)完成自然語言處理的各種任務,涵蓋了自然語言理解、自然語言處理和句法分析等。你將學會如何理解語言、處理句子及各種歧義現象;你也將學會如何有效地使用NLTK來進行文本分類、分詞及詞性標註等多個任務;你還將學會如何分析詞匯和句子結構,並掌握句法分析、語義分析、語用分析以及深度學習技術的應用。
讀完本書,你將瞭解使用Python實現自然語言處理的所有內容。
你將學到:
瞭解NLTK提供的各類可利用的語料資源,以及如何使用WordNet。
學習如何處理原始文本,比如HTML、RSS、PDF和Word文檔等。
學習如何利用分詞、詞乾提取和拼寫檢查等方式對原始文本進行預處理,並學會利用正則表達式實現。
瞭解正則表達式在文本分析中的基本匹配模式。
學會使用和編寫詞性標註器與文法。
學會如何實現命名實體抽取和句法分析,比如遞歸下降句法分析器、shift-reduce分析器和線圖分析器等。
使用LSTM技術基於莎士比亞著作生成文本。
使用BABI數據集和LSTM技術對情景記憶建模。
使用深度學習開發生成式聊天機器人。

作者簡介

普拉塔普·丹蒂(Pratap Dangeti),在班加羅爾的研究和創新實驗室開發機器學習和深度學習方法,以用於結構化、圖像和TCS文本數據。他在分析和數據科學領域擁有豐富的經驗,並在IIT Bombay獲得了工業工程和運籌學項目的碩士學位。

目錄大綱

譯者序
前言
作者簡介
審校者簡介
第1章 語料庫和WordNet
1.1 引言
1.2 訪問內置語料庫
1.3 下載外部語料庫,加載並訪問
1.4 計算布朗語料庫中三種不同類別的特殊疑問詞
1.5 探討網絡文本和聊天文本的詞頻分布
1.6 使用WordNet進行詞義消歧
1.7 選擇兩個不同的同義詞集,使用WordNet探討上位詞和下位詞的概念
1.8 基於WordNet計算名詞、動詞、形容詞和副詞的平均多義性
第2章 針對原始文本,獲取源數據和規範化
2.1 引言
2.2 字符串操作的重要性
2.3 深入實踐字符串操作
2.4 在Python中讀取PDF文件
2.5 在Python中讀取Word文件
2.6 使用PDF、DOCX和純文本文件,創建用戶自定義的語料庫
2.7 讀取RSS信息源的內容
2.8 使用BeautifulSoup解析HTML
第3章 預處理
3.1 引言
3.2 分詞——學習使用NLTK內置的分詞器
3.3 詞幹提取——學習使用NLTK內置的詞幹提取器
3.4 詞形還原——學習使用NLTK中的WordnetLemmatizer函數
3.5 停用詞——學習使用停用詞語料庫及其應用
3.6 編輯距離——編寫計算兩個字符串之間編輯距離的算法
3.7 處理兩篇短文並提取共有詞匯
第4章 正則表達式
4.1 引言
4.2 正則表達式——學習使用*、+和?
4.3 正則表達式——學習使用$和^,以及如何在單詞內部(非開頭與結尾處)進行模式匹配
4.4 匹配多個字符串和子字符串
4.5 學習創建日期正則表達式和一組字符集合或字符範圍
4.6 查找句子中所有長度為5的單詞,並進行縮寫
4.7 學習編寫基於正則表達式的分詞器
4.8 學習編寫基於正則表達式的詞幹提取器
第5章 詞性標註和文法
5.1 引言
5.2 使用內置的詞性標註器
5.3 編寫你的詞性標註器
5.4 訓練你的詞性標註器
5.5 學習編寫你的文法
5.6 編寫基於概率的上下文無關文法
5.7 編寫遞歸的上下文無關文法
第6章 分塊、句法分析、依存分析
6.1 引言
6.2 使用內置的分塊器 6.3 編寫你的簡單分塊器 6.4 訓練分塊器
6.5 遞歸下降句法分析
6.6 shift-reduce句法分析
6.7 依存句法分析和主觀依存分析
6.8 線圖句法分析
第7章 信息抽取和文本分類
7.1 引言
7.2 使用內置的命名實體識別工具
7.3 創建字典、逆序字典和使用字典
7.4 特征集合選擇
7.5 利用分類器分割句子
7.6 文本分類
7.7 利用上下文進行詞性標註
第8章 高階自然語言處理實踐
8.1 引言
8.2 創建一條自然語言處理管道
8.3 解決文本相似度問題
8.4 主題識別
8.5 文本摘要
8.6 指代消解
8.7 詞義消歧
8.8 情感分析
8.9 高階情感分析
8.10 創建一個對話助手或聊天機器人
第9章 深度學習在自然語言處理中的應用
9.1 引言
9.2 利用深度神經網絡對電子郵件進行分類
9.3 使用一維卷積網絡進行IMDB情感分類
9.4 基於雙向LSTM的IMDB情感分類模型
9.5 利用詞向量實現高維詞在二維空間的可視化
第10章 深度學習在自然語言處理中的高級應用
10.1 引言
10.2 基於莎士比亞的著作使用LSTM技術自動生成文本
10.3 基於記憶網絡的情景數據問答
10.4 使用循環神經網絡LSTM進行語言建模以預測最優詞
10.5 使用循環神經網絡LSTM構建生成式聊天機器人