《網路信息檢索(董守斌)》是2010年西安電子科技大學出版社出版的圖書,作者是董守斌、袁華。
基本介紹
- 書名:網路信息檢索(董守斌)
- 作者:董守斌 袁華
- ISBN:978-7-5606-2378-8
- 定價:27.2元
- 出版社:西安電子科技大學出版社
- 出版時間:2010-04
內容簡介,目錄,
內容簡介
本書詳細介紹了網路信息檢索的原理和技術,內容包括信息檢索模型、網路信息的自動獲取、網路信息預處理和索引、查詢語言和查詢最佳化等。針對網路信息檢索的廣泛套用,書中對搜尋引擎、中文和跨語言信息檢索、多媒體檢索、並行和分散式信息檢索、信息分類和聚類、信息提取與自動問答等重要套用的關鍵技術也進行了深入的探討。
本書層次分明,深入淺出;既有原理闡述和理論推導,也有大量的實例分析,闡述力求系統性和科學性。本書可作為高等院校計算機科學與技術、信息管理與信息系統、電子商務等專業的高年級本科生或研究生的教科書和參考書,對廣大從事網路信息檢索、數字圖書館、信息管理、人工智慧、Web數據挖掘等研究和套用開發的科技人員也有較大的參考價值。
目錄
第1章 緒論 1
1.1 網路信息檢索概述 1
1.1.1 網路信息 1
1.1.2 信息檢索 2
1.1.3 網路信息檢索 3
1.2 信息檢索的發展 4
1.2.1 手工檢索 4
1.2.2 脫機批處理檢索 4
1.2.3 在線上檢索 5
1.2.4 網路信息檢索 6
1.3 網路信息檢索的套用 6
1.3.1 搜尋引擎 6
1.3.2 多媒體信息檢索 8
1.3.3 話題識別與跟蹤 10
1.3.4 信息過濾 11
1.3.5 問題回答 13
思考題 15
參考文獻 15
第2章 信息檢索模型 16
2.1 檢索模型定義 17
2.2 布爾模型 18
2.3 向量模型 20
2.3.1 索引項權重 21
2.3.2 相似度量 22
2.3.3 計算方法 23
2.4 機率模型 26
2.5 擴展的布爾模型 31
2.5.1 模糊集合模型 31
2.5.2 擴展布爾模型 33
2.6 擴展的向量模型 35
2.6.1 廣義向量空間模型 35
2.6.2 潛語義標引模型 38
2.6.3 神經網路模型 41
2.7 擴展的機率模型 43
2.7.1 推理網路模型 44
2.7.2 信任度網路模型 47
2.7.3 語言模型 49
2.8 小結 51
思考題 52
習題 52
參考文獻 55
第3章 網路信息的自動蒐集 57
3.1 網路信息的特點 57
3.1.1 Web的組成 57
3.1.2 Web的特點 62
3.2 網路信息蒐集的原理 64
3.2.1 信息蒐集的基本流程 64
3.2.2 遍歷策略 66
3.2.3 頁面解析 68
3.3 網路信息蒐集的禮貌原則 69
3.3.1 機器人排斥協定 69
3.3.2 機器人元標籤 70
3.4 高性能信息蒐集 71
3.4.1 並行蒐集 71
3.4.2 DNS最佳化 72
3.4.3 優先蒐集策略 74
3.4.4 網頁更新 74
3.4.5 網頁消重 75
3.4.6 避免蜘蛛陷阱 76
3.5 專題信息蒐集 77
3.5.1 網頁的主題特性 77
3.5.2 專題信息蒐集算法 78
3.6 小結 80
思考題 80
習題 80
參考文獻 83
第4章 網頁文本處理和索引 85
4.1 文本的特性 86
4.1.1 信息熵 86
4.1.2 統計定律 87
4.2 網頁信息的特徵 89
4.2.1 網頁結構 89
4.2.2 網頁類型 91
4.3 網頁去噪 93
4.3.1 基於網頁結構的方法 93
4.3.2 基於模板的方法 96
4.4 文本處理 99
4.4.1 辭彙分析 99
4.4.2 排除停用詞 100
4.4.3 詞幹提取 101
4.4.4 索引詞選擇 101
4.5 索引 102
4.5.1 Trie樹 102
4.5.2 後綴樹 103
4.5.3 簽名檔 105
4.5.4 倒排檔案 106
4.6 小結 112
思考題 113
習題 113
參考文獻 114
第5章 查詢語言與查詢處理 116
5.1 Web查詢語言 116
5.1.1 WebSQL查詢語言 117
5.1.2 W3QL查詢語言 119
5.1.3 WebOQL查詢語言 119
5.2 查詢方式 121
5.2.1 基於關鍵字的查詢 121
5.2.2 模式匹配 124
5.3 相關反饋 125
5.3.1 向量空間模型中的相關反饋 126
5.3.2 機率模型中的相關反饋 128
5.4 查詢擴展 129
5.4.1 基於字典的簡單查詢擴展 129
5.4.2 自動局部分析 132
5.4.3 自動全局分析 135
5.5 小結 139
思考題 140
習題 140
參考文獻 142
第6章 信息檢索性能評價 144
6.1 信息檢索評價指標 144
6.1.1 查全率和查準率 144
6.1.2 其他評價指標 148
6.2 信息檢索評價基準 156
6.2.1 基準測試 156
6.2.2 TREC評測 158
6.2.3 Web檢索評價 162
6.2.4 CWIRF評測 164
6.3 小結 166
思考題 166
習題 167
參考文獻 168
第7章 搜尋引擎 170
7.1 概述 171
7.1.1 發展概況 171
7.1.2 術語與定義 172
7.1.3 工作原理 174
7.2 連結分析 178
7.2.1 PageRank 178
7.2.2 HITS 186
7.2.3 算法比較 189
7.3 相關排序 190
7.3.1 Lucene檢索模型 190
7.3.2 Nutch排序算法 193
7.4 大規模搜尋引擎 198
7.4.1 體系架構 199
7.4.2 數據結構 200
7.4.3 檢索算法 202
7.4.4 相關排序 202
7.5 小結 203
思考題 204
習題 204
參考文獻 207
第8章 並行和分散式信息檢索 209
8.1 並行信息檢索 209
8.1.1 並行計算的概念 209
8.1.2 並行信息檢索體系架構 210
8.1.3 並行編程 212
8.1.4 數據並行 214
8.2 分散式信息檢索 217
8.3 元搜尋引擎 218
8.3.1 系統架構 220
8.3.2 資源選擇 222
8.3.3 文檔選擇 227
8.3.4 信息融合 228
8.4 P2P網路信息檢索 234
8.4.1 P2P網路信息檢索的原理 235
8.4.2 非結構化P2P網路信息檢索 236
8.4.3 結構化P2P網路信息檢索 238
8.5 小結 241
思考題 241
習題 242
參考文獻 244
第9章 中文和跨語言信息檢索 247
9.1 中文預處理 247
9.1.1 中文編碼及轉換 248
9.1.2 中文分詞 250
9.2 中文信息檢索 256
9.2.1 中文檢索模型 256
9.2.2 中文索引 258
9.3 跨語言信息檢索 260
9.3.1 基本原理 260
9.3.2 基於GVSM的跨語言檢索 264
9.3.3 基於LSI的跨語言檢索 268
9.4 小結 271
思考題 271
習題 271
參考文獻 273
第10章 多媒體信息檢索 274
10.1 基於內容的圖像信息檢索 275
10.2 圖像特徵提取 277
10.2.1 顏色特徵 277
10.2.2 形狀特徵提取 284
10.2.3 紋理特徵提取 285
10.3 圖像相似量度 290
10.4 基於內容的視頻信息檢索 291
10.4.1 鏡頭分割 292
10.4.2 關鍵幀提取 293
10.5 基於內容的音頻信息檢索 294
10.6 小結 295
思考題 296
習題 296
參考文獻 297
第11章 信息分類與聚類 299
11.1 基本知識 299
11.1.1 類的概念 299
11.1.2 對象特徵描述 300
11.1.3 文檔相似性 300
11.1.4 類間距離 302
11.2 特徵描述及提取 303
11.2.1 特徵提取 303
11.2.2 特徵選擇 304
11.3 聚類方法 305
11.3.1 劃分聚類法 305
11.3.2 層次聚類法 308
11.3.3 其他聚類方法 309
11.4 分類方法 309
11.4.1 Nave Bayes算法 310
11.4.2 kNN算法 313
11.4.3 Rocchio算法 315
11.4.4 SVM算法 316
11.5 方法評測 320
11.5.1 聚類方法評測 320
11.5.2 分類方法評測 321
11.5.3 顯著性檢驗 323
11.6 小結 325
思考題 325
習題 326
參考文獻 328
第12章 Web信息抽取與問答系統 329
12.1 信息抽取概述 329
12.1.1 信息抽取的發展 330
12.1.2 信息抽取的評價指標 331
12.2 Web信息抽取 331
12.2.1 基於關鍵字的Web信息抽取 332
12.2.2 基於模式的Web信息抽取 333
12.2.3 基於樣本的Web信息抽取 338
12.3 問答系統 341
12.3.1 問題分析 344
12.3.2 信息檢索 345
12.3.3 答案抽取 345
12.6 小結 347
思考題 347
參考文獻 348