Linguistic Resources for Natural Language Processing: On the Necessity of Using Linguistic Methods to Develop Nlp Software
暫譯: 自然語言處理的語言資源:使用語言學方法開發NLP軟體的必要性
Silberztein, Max
- 出版商: Springer
- 出版日期: 2025-03-14
- 售價: $5,570
- 貴賓價: 9.5 折 $5,292
- 語言: 英文
- 頁數: 217
- 裝訂: Quality Paper - also called trade paper
- ISBN: 3031438132
- ISBN-13: 9783031438134
-
相關分類:
Text-mining
海外代購書籍(需單獨結帳)
商品描述
Not questioning the intrinsic value of many software applications based on empirical methods, this volume aims at rehabilitating the linguistic approach to NLP. In an introduction, the editor uncovers several limitations and flaws of using training corpora to develop NLP applications, even the simplest ones, such as automatic taggers.
The first part of the volume is dedicated to showing how carefully handcrafted linguistic resources could be successfully used to enhance current NLP software applications. The second part presents two representative cases where data-driven approaches cannot be implemented simply because there is not enough data available for low-resource languages. The third part addresses the problem of how to treat multiword units in NLP software, which is arguably the weakest point of NLP applications today but has a simple and elegant linguistic solution.It is the editor's belief that readers interested in Natural Language Processing will appreciate the importance of this volume, both for its questioning of the training corpus-based approaches and for the intrinsic value of the linguistic formalization and the underlying methodology presented.
商品描述(中文翻譯)
實證的——以數據為驅動、基於神經網絡、概率性和統計性的方法似乎是當前的現代趨勢。最近,OpenAI 的 ChatGPT、Google 的 Bard 和 Microsoft 的 Sydney 聊天機器人因其在多個知識領域提供詳細答案而受到廣泛關注。因此,大多數 AI 研究人員不再對理解什麼是共同智慧或智能代理如何構建場景以解決各種問題感興趣。相反,他們現在開發從用作備忘錄的大型數據庫中提取解決方案的系統。同樣,使用與實證方法相關的訓練語料庫的自然語言處理 (NLP) 軟體也變得流行,因為當今大多數 NLP 研究人員使用大型訓練語料庫,這始終對正式字典和語法的發展造成損害。
本書不質疑許多基於實證方法的軟體應用的內在價值,旨在恢復對 NLP 的語言學方法。在導言中,編輯揭示了使用訓練語料庫開發 NLP 應用(即使是最簡單的應用,如自動標記器)的一些限制和缺陷。
本書的第一部分專注於展示如何成功利用精心製作的語言資源來增強當前的 NLP 軟體應用。第二部分介紹了兩個代表性案例,這些案例中數據驅動的方法無法實施,因為對於低資源語言來說,沒有足夠的數據可用。第三部分則探討了如何在 NLP 軟體中處理多詞單位的問題,這無疑是當今 NLP 應用中最薄弱的環節,但有一個簡單而優雅的語言學解決方案。
編輯相信,對自然語言處理感興趣的讀者將會欣賞本書的重要性,無論是對訓練語料庫方法的質疑,還是對語言學形式化及其所呈現的基本方法論的內在價值。
作者簡介
Max Silberztein is a Professor of Linguistics, Computational Linguistics and Computer Science at the Université de Franche-Comté. He is the author of the three NLP software platforms (INTEX, NooJ and ATISHS), two books (Dictionnaires électroniques et analyse automatique de textes: le système INTEX, Masson 1993; Formalizing Natural Languages: the NooJ approach, Wiley 2016), and editor of over 15 volumes of selected Proceedings in Springer CCIS and LNCS series.
作者簡介(中文翻譯)
馬克斯·西爾伯茨坦(Max Silberztein)是法蘭什孔泰大學(Université de Franche-Comté)語言學、計算語言學及計算機科學的教授。他是三個自然語言處理(NLP)軟體平台(INTEX、NooJ 和 ATISHS)的作者,並著有兩本書籍(《電子詞典與文本自動分析:INTEX 系統》,Masson 1993;《形式化自然語言:NooJ 方法》,Wiley 2016),此外還編輯了超過 15 卷的選集,發表於 Springer 的 CCIS 和 LNCS 系列。