信息檢索與搜索引擎(微課版)

閆琰、班曉娟、劉煜豪

  • 出版商: 清華大學
  • 出版日期: 2024-04-01
  • 售價: $294
  • 貴賓價: 9.5$279
  • 語言: 簡體中文
  • ISBN: 7302660980
  • ISBN-13: 9787302660989
  • 立即出貨 (庫存 < 3)

  • 信息檢索與搜索引擎(微課版)-preview-1
  • 信息檢索與搜索引擎(微課版)-preview-2
  • 信息檢索與搜索引擎(微課版)-preview-3
信息檢索與搜索引擎(微課版)-preview-1

相關主題

商品描述

為了讓讀者全面瞭解信息檢索和搜索引擎的基本概念、原理和實現方法,以及相關的研究和應用領域,本書詳細闡述了信息檢索中的重要問題。 全書共分為3篇,涵蓋信息檢索和搜索引擎的各個方面: 第1篇(第1~3章)為基礎篇,介紹信息檢索和搜索引擎的基本概念、原理以及信息採集、文本轉換方法;第2篇(第4~6章)為技術篇,涵蓋索引創建、用戶交互、檢索模型與搜索排序等關鍵技術;第3篇(第7章和第8章)為應用篇,討論搜索引擎評價和鏈接分析,展示搜索引擎在不同領域的應用和發展趨勢。全書提供了大量應用實例,每章後均附有習題。 通過對這些方面的講解,讀者可以瞭解信息檢索和搜索引擎的相關技術和方法,掌握它們的實現和應用,為信息處理提供更好的解決方案。

目錄大綱

目錄

第1章信息檢索和搜索引擎1

1.1什麽是信息檢索1

1.1.1Web搜索1

1.1.2其他搜索應用2

1.1.3其他信息檢索應用3

1.2搜索引擎架構3

1.2.1搜索引擎3

1.2.2基本的構件4

1.3搜索引擎構件及其功能6

1.3.1文本採集6

1.3.2文本轉換8

1.3.3索引創建9

1.3.4用戶交互10

1.3.5排序11

1.3.6評價12

1.4開源的搜索引擎系統13

1.4.1Lucene13

1.4.2Solr15

1.4.3ElasticSearch15

1.5搜索引擎面對的挑戰15

小結17

習題17

第2章信息採集18

2.1網頁18

2.1.1網頁的特點19

2.1.2網頁規模的估計20

2.1.3網頁的年齡21〖3〗信息檢索與搜索引擎(微課版)目錄〖3〗2.2網頁爬蟲23

2.2.1網頁爬蟲的定義23

2.2.2網頁爬蟲的執行流程23

2.2.3設計網頁爬蟲的原則24

2.2.4網頁爬蟲的評價指標25

2.2.5爬取策略25

2.2.6深網爬取27

2.3網站地圖27

2.4非網頁類信息採集28

2.5存儲文檔29

2.5.1形成摘要29

2.5.2存儲摘要29

2.5.3文檔更新31

2.5.4網頁去重和去噪31

小結34

習題35

第3章文本轉換37

3.1文本的統計特徵37

3.1.1詞頻分佈37

3.1.2關聯網頁規模估計39

3.2停用詞去除40

3.3詞乾提取41

3.3.1基於規則的詞乾提取41

3.3.2基於詞典的詞乾提取43

3.3.3對比詞乾提取和詞形還原43

3.4詞素切分44

3.4.1基於字符串匹配的詞素切分方法44

3.4.2基於統計的詞素切分方法46

3.4.3英文詞素切分(N元串)46

3.5文本轉換的困難47

3.6文本的向量化表示48

3.6.1離散表示49

3.6.2分佈式表示49

小結50

習題50

第4章索引創建52

4.1索引相關定義52

4.1.1單詞文檔矩陣52

4.1.2單詞詞典53

4.1.3倒排索引相關概念54

4.1.4倒排索引簡單實例56

4.2索引的建立57

4.2.1兩遍文檔遍歷法57

4.2.2排序法58

4.2.3歸並法60

4.3索引更新62

4.3.1動態索引62

4.3.2倒排索引的插入62

4.3.3倒排索引的刪除66

4.4查詢處理方法67

4.4.1Documentatatime67

4.4.2Termatatime69

4.4.3查詢優化70

小結72

習題72

第5章用戶交互75

5.1信息需求與查詢75

5.2查詢轉換與提煉77

5.2.1停用詞去除和詞乾提取77

5.2.2拼寫檢查78

5.3查詢擴展81

5.3.1基於全局分析的查詢擴展81

5.3.2基於相關反饋和偽相關反饋的查詢擴展82

5.3.3基於查詢日誌的查詢擴展84

5.4上下文和個性化85

5.5查詢推薦86

5.5.1基於文檔的方法87

5.5.2基於查詢日誌的方法89

5.6搜索結果顯示92

小結94

習題94

第6章檢索模型與搜索排序96

6.1檢索模型概述96

6.1.1布爾模型97

6.1.2向量空間模型99

6.1.3BOW模型103

6.1.4Latent Dirichlet Allocation105

6.1.5隱性語義分析106

6.2概率模型108

6.2.1概率檢索模型108

6.2.2二元獨立模型109

6.2.3BM25模型111

6.3語言模型112

6.3.1OneHot和Word2Vec113

6.3.2CBOW模型113

6.3.3Skipgram模型114

6.4排序模型116

6.4.1KL散度116

6.4.2Learning to Rank算法118

6.5基於機器學習的排序方法120

小結123

習題124

第7章搜索引擎評價126

7.1搜索引擎評價的意義126

7.2搜索引擎評價體系127

7.3效果評價130

7.3.1召回率、精確率、ROC曲線130

7.3.2平均精確率133

7.3.3關註排序靠前的文檔134

7.3.4使用用戶偏好136

7.4效率評價137

7.5訓練、測試和統計138

7.5.1比較評價138

7.5.2顯著性檢驗139

7.5.3最小化判定工作142

7.5.4設置參數值143

小結144

習題144

第8章鏈接分析146

8.1PageRank算法146

8.1.1什麽是PageRank146

8.1.2PageRank的工作原理147

8.1.3PageRank計算148

8.1.4PageRank應用與分析149

8.2HITS算法150

8.2.1什麽是HITS150

8.2.2HITS工作原理151

8.2.3HITS算法存在的問題152

8.2.4HITS與PageRank比較153

8.2.5其他改進算法154

8.3網頁作弊技術155

8.3.1基於內容的作弊技術156

8.3.2基於鏈接關系的作弊技術157

8.3.3掩蓋技術和重定向技術159

8.4網頁反作弊技術160

8.4.1特定類別的作弊頁面識別技術161

8.4.2非特定類別的作弊頁面識別技術164

小結164

習題165

參考文獻166