計算機科學叢書:搜尋引擎:信息檢索實踐

計算機科學叢書:搜尋引擎:信息檢索實踐

《搜尋引擎:信息檢索實踐》介紹了信息檢索中的關鍵問題,以及這些問題如何影響搜尋引擎的設計與實現,很好地兼顧了信息檢索理論以及搜尋引擎的設計、實現和使用中的知識面廣度與深度問題,重點關注於那些對於實現搜尋引擎組件以及組件背後的信息檢索模型最重要的部分,以及網路上使用的搜尋技術。《搜尋引擎:信息檢索實踐》適合作為高等院校計算機科學或計算機工程專業本科生或研究生的教材。

基本介紹

  • 書名:計算機科學叢書:搜尋引擎:信息檢索實踐
  • 作者:克羅夫特(W.Bruce Croft) Donald Metzler
  • 出版社:機械工業出版社
  • 頁數:309頁
  • 開本:16
  • 品牌:機械工業出版社
  • 外文名:Search Engines Information Retrieval in Practice
  • 類型:計算機與網際網路
  • 出版日期:2010年6月1日
  • 語種:簡體中文
  • ISBN:9787111288084, 7111288084
基本介紹,內容簡介,作者簡介,圖書目錄,序言,

基本介紹

內容簡介

《搜尋引擎:信息檢索實踐》:計算機科學叢書

作者簡介

作者:(美國)克羅夫特(W.Bruce Croft) (美國)Donald Metzler (美國)Trevor Strohman 譯者:劉挺 秦兵 張宇 等

克羅夫特(W.Bruce Croft),麻薩諸塞大學阿默斯特分校計算機科學特聘教授、ACM會士。他創建了智慧型信息檢索研究中心,發表了200餘篇論文,多次獲獎,其中包括2003年由ACM SIGIR頒發的Gerard Salton獎。
Donald Metzler,麻薩諸塞大學阿默斯特分校博士,是位於加州Santa Clara的雅虎研究中心搜尋與計算機廣告組的研究科學家。
Trevor Strohman,麻薩諸塞大學阿默斯特分校博士。他開發了Galago搜尋引擎,也是Indri搜尋引擎的主要開發者。

圖書目錄

出版者的話
譯者序
前言
第1章 搜尋引擎和信息檢索
1.1 什麼是信息檢索
1.2 重要問題
1.3 搜尋引擎
1.4 搜尋工程師
參考文獻和深入閱讀
練習

第2章 搜尋引擎的架構
2.1 什麼是軟體架構
2.2 基本的構件
2.3 組件及其功能
2.3.1 文本採集
2.3.2 文本轉換
2.3.3 索引的創建
2.3.4 用戶互動
2.3.5 排序
2.3.6 評價
2.4 搜尋引擎是如何工作的
參考文獻和深入閱讀
練習

第3章 信息採集和信息源
3.1 確定搜尋的內容
3.2 網路信息爬取
3.2.1 抓取網頁
3.2.2 網路爬蟲
3.2.3 時新性
3.2.4 面向主題的信息採集
3.2.5 深層網路
3.2.6 網站地圖
3.2.7 分散式信息採集
3.3 文檔和電子郵件的信息採集
3.4 文檔信息源
3.5 轉換問題
3.6 存儲文檔
3.6.1 使用資料庫系統
3.6.2 隨機存取
3.6.3 壓縮和大規模檔案
3.6.4 更新
3.6.5 BigTable
3.7 重複檢測
3.8 去除噪聲
參考文獻和深入閱讀
練習

第4章 文本處理
4.1 從詞到詞項
4.2 文本統計
4.2.1 詞表增長
4.2.2 估計數據集和結果集大小
4.3 文檔解析
4.3.1 概述
4.3.2 詞素切分
4.3.3 停用詞去除
4.3.4 詞幹提取
4.3.5 短語和n元串
4.4 文檔結構和標記
4.5 連結分析
4.5.1 錨文本
4.5.2 PageRank
4.5.3 連結質量
4.6 信息抽取
4.7 國際化
參考文獻和深入閱讀
練習

第5章 基於索引的相關排序
5.1 概述
5.2 抽象的相關排序模型
5.3 倒排索引
5.3.1 文檔
5.3.2 計數
5.3.3 位置
5.3.4 域與範圍
5.3.5 分數
5.3.6 排列
5.4 壓縮
5.4.1 熵與歧義
5.4.2 Delta編碼
5.4.3 位對齊碼
5.4.4 位元組對齊碼
5.4.5 實際套用中的壓縮
5.4.6 展望
5.4.7 跳轉和跳轉指針
5.5 輔助結構
5.6 索引構建
5.6.1 簡單構建
5.6.2 融合
5.6.3 並行與分散式
5.6.4 更新
5.7 查詢處理
5.7.1 document—at.a.time評價
5.7.2 term—at.a.time評價
5.7.3 最佳化技術
5.7.4 結構化查詢
5.7.5 分散式的評價
5.7.6 快取
參考文獻和深入閱讀
練習

第6章 查詢與界面
6.1 信息需求與查詢
6.2 查詢轉換與提煉
6.2.1 停用詞去除和詞幹提取
6.2.2 拼寫檢查和建議
6.2.3 查詢擴展
6.2.4 相關反饋
6.2.5 上下文和個性化
6.3 搜尋結果顯示
6.3.1 搜尋結果頁面與頁面摘要
6.3.2 廣告與搜尋
6.3.3 結果聚類
6.4 跨語言搜尋
參考文獻和深入閱讀
練習

第7章 檢索模型
7.1 檢索模型概述
7.1.1 布爾檢索
7.1.2 向量空間模型
7.2 機率模型
7.2.1 將信息檢索作為分類問題
7.2.2 BM25排序算法
7.3 基於排序的語言模型
7.3.1 查詢項似然排序
7.3.2 相關性模型和偽相關反饋
7.4 複雜查詢和證據整合
7.4.1 推理網路模型
7.4.2 Galago查詢語言
7.5 網路搜尋
7.6 機器學習和信息檢索
7.6.1 排序學習
7.6.2 主題模型和辭彙不匹配
7.7 基於套用的模型
參考文獻和深入閱讀
練習

第8章 搜尋引擎評價
8.1 搜尋引擎評價的意義
8.2 評價語料
8.3 日誌
8.4 效果評價
8.4.1 召回率和準確率
8.4.2 平均化和插值
8.4.3 關注排序靠前的文檔
8.4.4 使用用戶偏好
8.5 效率評價
8.6 訓練、測試和統計
8.6.1 顯著性檢驗
8.6.2 設定參數值
8.6.3 線上測試
8.7 基本要點
參考文獻和深入閱讀
練習

第9章 分類和聚類
9.1 分類
9.1.1 樸素貝葉斯
9.1.2 支持向量機
9.1.3 評價
9.1.4 分類器和特徵選擇
9.1.5 垃圾、情感及線上廣告
9.2 聚類
9.2.1 層次聚類和K均值聚類
9.2.2 K近鄰聚類
9.2.3 評價
9.2.4 如何選擇K
9.2.5 聚類和搜尋
參考文獻和深入閱讀
練習

第10章 社會化搜尋
10.1 什麼是社會化搜尋
10.2 用戶標籤和人工索引
10.2.1 搜尋標籤
10.2.2 推測缺失的標籤
10.2.3 瀏覽和標籤雲
10.3 社區內搜尋
10.3.1 什麼是社區
10.3.2 社區發現
10.3.3 基於社區的問答
10.3.4 協同搜尋
10.4 過濾和推薦
10.4.1 文檔過濾
10.4.2 協同過濾
10.5 P2P搜尋和元搜尋
10.5.1 分散式搜尋
10.5.2 P2P網路
參考文獻和深入閱讀
練習

第11章 超越詞袋
11.1 概述
11.2 基於特徵的檢索模型
11.3 詞項依賴模型
11.4 再談結構化
11.4.1 XML檢索
11.4.2 實體搜尋
11.5 問題越長,答案越好
11.6 詞語、圖片和音樂
11.7 搜尋能否適用於所有情況
參考文獻和深入閱讀
練習
參考文獻

序言

本書綜述了信息檢索中的重要問題,並介紹了這些問題如何對搜尋引擎的設計與實現產生影響。本書並不是按照相同的詳細程度描述每個主題,相反,我們側重於那些對於實現搜尋引擎組件以及組件背後的信息檢索模型最重要的部分。網路搜尋引擎顯然是一個重要的話題,我們主要覆蓋了在網路上使用的搜尋技術,但搜尋引擎在其他場合中也有套用,這就是為什麼我們重點強調各種搜尋引擎背後的信息檢索理論與概念的原因。
本書的目標讀者群主要是計算機科學或計算機工程的本科生,但研究生也會發現本書是有用的,此外,本書也適合多數情報科學專業的學生。最後,無論讀者是什麼背景,通過閱讀本書都可以對他們動手開發搜尋引擎有所幫助。本書中涉及數學知識,但並不深奧。’書中也有代碼和程式設計的練習,但對於那些已經完成了基本計算機科學與程式設計課程的人來說,完全可以掌握。
每章末尾的練習使用了被稱為Galago的基於Java的開源搜尋引擎。Galago既是為本書所設計的,也借鑑了Lemur和Indri項目的經驗。換句話說,這是一個功能齊全的能夠支持真正套用的搜尋引擎。許多編程練習都是針對Galago組件的使用、修改和擴展。內容
在第1章,我們對信息檢索及它與搜尋引擎的關係做了一個高層次的回顧。在第2章,我們描述了搜尋引擎的架構,這一章全面介紹搜尋引擎的各個組件,但沒有涉及細節問題。在第3章,我們關注於爬取、文檔信息源和其他用於獲取被檢索信息的技術。第4章描述了文本的統計特徵,以及用來處理和識別重要特徵的技術,並為建立索引做準備。第5章描述了怎樣為有效的搜尋建立索引,以及怎樣利用索引處理查詢。在第6章,我們描述了怎樣處理查詢,並把它們轉換為更好的形式,以表達用戶的信息需求。
  

相關詞條

熱門詞條

聯絡我們