文本數據挖掘基於R語言
黃天元
- 出版商: 機械工業
- 出版日期: 2021-04-01
- 定價: $534
- 售價: 7.9 折 $422
- 語言: 簡體中文
- 頁數: 181
- 裝訂: 平裝
- ISBN: 7111677501
- ISBN-13: 9787111677505
-
相關分類:
Text-mining
立即出貨 (庫存 < 3)
買這商品的人也買了...
-
$222有趣的二進制 (軟件安全與逆向分析) -
貝葉斯方法:概率編程與貝葉斯推斷 (Bayesian Methods for Hackers: Probabilistic Programming and Bayesian Inference)$534$507 -
職業駭客的告白 : 軟體反組譯、木馬病毒與入侵翻牆竊密 (暢銷回饋版)$600$468 -
$414Neo4j 3.x 入門經典 -
$505機器學習即服務:將 Python 機器學習創意快速轉變為雲端 Web 應用程序 (Monetizing Machine Learning: Quickly Turn Python ML Ideas into Web Applications on the Serverless Cloud) -
$403推薦系統開發實戰 -
玩轉社群:文字大數據實作, 2/e$380$342 -
圖解!一次搞懂資料庫$450$356 -
$509Python 大數據分析與機器學習商業案例實戰 -
$305Python Web 開發案例教程 — 使用 Flask、Tornado、Django (慕課版) -
黑客之道 : 漏洞發掘的藝術, 2/e (Hacking: The Art of Exploitation, 2/e)$714$678 -
$735Python 文本分析, 2/e (Text Analytics with Python: A Practitioner's Guide to Natural Language Processing, 2/e) -
$403現代自然語言生成 -
強化式學習:打造最強 AlphaZero 通用演算法$780$663 -
$374QCA方法從入門到精通:基於R語言 -
資料科學的建模基礎 : 別急著 coding!你知道模型的陷阱嗎?$599$539 -
金融 AI|人工智慧的金融應用$880$695 -
$505機器學習與 R語言 (Machine Learning with R, 3/e) -
圖解資料庫的工作原理$450$356 -
$305Python 中文自然語言處理基礎與實戰 -
$378智能推薦系統開發實戰 -
資料科學輕鬆學 (Data Analytics Made Accessible)$480$379 -
$564Python 自然語言處理實戰 -
$374情感分析進階 -
文字探勘基礎:從 R語言入門$350$315
中文年末書展|繁簡參展書2書75折 詳見活動內容 »
-
75折
為你寫的 Vue Components:從原子到系統,一步步用設計思維打造面面俱到的元件實戰力 (iThome 鐵人賽系列書)$780$585 -
75折
BDD in Action, 2/e (中文版)$960$720 -
75折
看不見的戰場:社群、AI 與企業資安危機$750$563 -
79折
AI 精準提問 × 高效應用:DeepSeek、ChatGPT、Claude、Gemini、Copilot 一本搞定$390$308 -
7折
超實用!Word.Excel.PowerPoint 辦公室 Office 365 省時高手必備 50招, 4/e (暢銷回饋版)$420$294 -
75折
裂縫碎光:資安數位生存戰$550$412 -
日本當代最強插畫 2025 : 150位當代最強畫師豪華作品集$640$576 -
79折
Google BI 解決方案:Looker Studio × AI 數據驅動行銷實作,完美整合 Google Analytics 4、Google Ads、ChatGPT、Gemini$630$498 -
79折
超有料 Plus!職場第一實用的 AI 工作術 - 用對 AI 工具、自動化 Agent, 讓生產力全面進化!$599$473 -
75折
從零開始學 Visual C# 2022 程式設計, 4/e (暢銷回饋版)$690$518 -
75折
Windows 11 制霸攻略:圖解 AI 與 Copilot 應用,輕鬆搞懂新手必學的 Windows 技巧$640$480 -
75折
精準駕馭 Word!論文寫作絕非難事 (好評回饋版)$480$360 -
Sam Yang 的插畫藝術:用 Procreate / PS 畫出最強男友視角 x 女孩美好日常$699$629 -
79折
AI 加持!Google Sheets 超級工作流$599$473 -
78折
想要 SSR? 快使用 Nuxt 吧!:Nuxt 讓 Vue.js 更好處理 SEO 搜尋引擎最佳化(iThome鐵人賽系列書)$780$608 -
78折
超實用!業務.總管.人資的辦公室 WORD 365 省時高手必備 50招 (第二版)$500$390 -
7折
Node-RED + YOLO + ESP32-CAM:AIoT 智慧物聯網與邊緣 AI 專題實戰$680$476 -
79折
「生成式⇄AI」:52 個零程式互動體驗,打造新世代人工智慧素養$599$473 -
7折
Windows APT Warfare:惡意程式前線戰術指南, 3/e$720$504 -
75折
我輩程式人:回顧從 Ada 到 AI 這條程式路,程式人如何改變世界的歷史與未來展望 (We, Programmers: A Chronicle of Coders from Ada to AI)$850$637 -
75折
不用自己寫!用 GitHub Copilot 搞定 LLM 應用開發$600$450 -
79折
Tensorflow 接班王者:Google JAX 深度學習又快又強大 (好評回饋版)$780$616 -
79折
GPT4 會你也會 - 共融機器人的多模態互動式情感分析 (好評回饋版)$700$553 -
79折
技術士技能檢定 電腦軟體應用丙級術科解題教本|Office 2021$460$363 -
75折
Notion 與 Notion AI 全能實戰手冊:生活、學習與職場的智慧策略 (暢銷回饋版)$560$420
相關主題
商品描述
文本是一種特殊的非結構化數據,在當今的大數據時代,其價值日趨凸顯。
本書利用開源而強大的R軟件,對文本數據挖掘的概念、技術及技巧進行了系統的介紹。
本書共11章,內容包括:走進文本數據挖掘,R語言快速入門,字符串的基本處理,用好正則表達式,
導入各類文本數據,對各類文本數據進行預處理,文本特徵提取的4種方法,
基於機器學習的文本分類方法,文本情感分析,文本可視化,文本數據挖掘項目實踐。
本書還提供了豐富的應用案例和程序源代碼引導讀者高效學習。
本書適合對文本數據挖掘感興趣的學生、科研人員和數據科學從業者閱讀。
同時,本書還可以作為工具書,為需要經常進行文本數據挖掘的讀者提供快速檢索。
作者簡介
黃天元
復旦大學理學博士。
熱愛數據科學與開源工具,致力於利用數據科學迅速積累行業經驗優勢和科學知識發現,
研究領域包括但不限於信息計量、機器學習、數據可視化、應用統計建模、知識圖譜等。
在CRAN上維護了3個下載量破萬的R包(akc、tidyfst、tidyft),著有《R語言高效數據處理指南》一書,
並設有知乎專欄“R語言數據挖掘”,關註人數9000 。
目錄大綱
目錄
前言
第1章走進文本數據挖掘1
1.1什麼是文本數據挖掘1
1.2為什麼要做文本數據挖掘2
1.3如何進行文本數據挖掘2
1.3.1文本數據挖掘的流程2
1.3.2文本數據挖掘的基本任務及方法4
1.4文本數據挖掘軟件工具概覽5
第2章文本數據挖掘利器—R語言7
2.1開發環境配置7
2.1.1下載並安裝R軟件7
2.1.2包的管理8
2.1.3版本升級9
2.1. 4集成開發環境10
2.2 R的基本數據類型11
2.2.1數值型12
2.2.2邏輯型12
2.2.3字符型12
2.2.4因子型13
2.3 R的常用數據結構13
2.3.1向量13
2.3. 2矩陣14
2.3.3列表14
2.3.4數據框15
2.4 R的基礎編程知識15
2.4.1賦值15
2.4.2函數16
2.4.3強制類型轉換16
2.4.4條件判斷17
2.4.5循環操作17
2.5數據操作入門19
2.5.1文件讀寫19
2.5.2數據框的檢視25
2.5.3單表操作28
2.5.4多表操作37
2.5.5缺失值處理42
2.5.6長寬數據轉換46
第3章從基礎做起1—字符串的基本處理51
3.1字符串的構造51
3.2字符串的辨識、計數與定位52
3.3字符串的提取53
3.4字符串的定製化輸出54
3.5字符串的替換與刪除56
3.6字符串的拼接與拆分57
3.7字符串的排序57
4章從基礎做起2—用好正則表達式59
4.1通配符解析59
4.1.1點運算符(“.”)60
4.1.2字符集(“ ”)61
4.1.4出現0次或更多(“”)61
4.1.5出現1次或更多(“ ”)62
4.1.6出現0次或1次(“?”)62
4.1.7出現次數範圍限制(“{}”)62
4.1.8特徵標群(“(...)”)62
4.1.9或運算符(“|”)63
4.1.10轉義字符(“\\\\ ”)63
4.1.11匹配開頭部分(“^”)63
4.1.12匹配結尾部分(“$”)64
4.2反向引用64
4.3簡寫字符集65
4.4貪婪匹配與惰性匹配66
4.5零寬斷言67
4.5.1正先行斷言(“?=...”)67
4.5.2負先行斷言(“?!...”)68
4.5 .3正後發斷言(“?<= ...”)68
4.5.4負後發斷言(“? 4.5.5提取括號中的內容68
第5章步入正題—導入各類文本數據70
5.1 readtext包簡介70
5.2不同格式文本文件的導入70
5.2.1讀取txt文件71
5.2.2讀取csv/tsv文件72
5.2.3讀取json文件74
5.2.4讀取pdf文件74
5.2.5讀取Word文件75
5.2.6讀取文件75
5.2.7讀取壓縮包75
5.3讀入不同編碼格式的文檔76
5.4文件數據結構的轉化77
第6章更進一步—對各類文本數據進行預處理79
6.1拼寫糾錯79
6.2文本切分80
6.2.1段落切分81
6.2.2句子切分82
6.2.3詞語切分82
6.2.4 n元切分85
6.2.5字符切分85
6.3去除標點86
6.4去除停用詞86
6.5擴展縮寫87
6.6詞幹提取87
6.7詞形還原與詞性標註88
6.8批量文檔預處理90
第7章上手文本數據挖掘—文本特徵提取的4種方法92
7.1基本特徵提取92
7.2基於TF-IDF的特徵提取94
7.3詞嵌入96
7.3.1基於BOW96
7.3.2基於word2vec98
7.3.3基於GloVe100
7.3.4基於fastText101
7.4文檔向量化:doc2vec102
第8章文本分類—基於機器學習的方法105
8.1無監督分類105
8.1.1基於文本相似度的聚類105
8.1.2基於網絡集群識別的自動化聚類120
8.1.3基於主題模型的分類125
8.2有監督分類129
8.2.1二分類129
8.2 .2多分類136
第9章深入理解文本內涵—文本情感分析142
9.1英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2中文情感分析151
9.2.1環境與數據準備151
9.2.2情感詞典準備151
9.2.3中文分詞152
9.2.4分值計算152
9.2.5小結152
第10章文本數據的直觀表達—文本可視化153
10.1條形圖153
10.2克利夫蘭點圖155
10.3矩形樹狀圖156
10.4詞雲157
10.5詞彙位置分佈圖159
10.6網絡圖164
10.7雙文檔對比可視化167
第11章舉一反三—文本數據挖掘項目實踐170
11.1情感分析案例:量化中文新聞報導中的情感走勢170
11.2文本分類案例:基於詞袋模型對英文期刊摘要來源進行分類176
11.3關鍵詞提取案例:根據CRAN的介紹文本提取R包關鍵字181
