搜尋引擎與信息檢索教程

搜尋引擎與信息檢索教程

《搜尋引擎與信息檢索教程》是2008年水利水電出版社出版的圖書,作者是袁津生。

基本介紹

  • 中文名:搜尋引擎與信息檢索教程
  • 作者:袁津生等
  • 類別:搜尋引擎的技術和信息檢索技術
  • 出版社:水利水電出版社
  • 出版時間:2008年4月1日
  • ISBN:9787508453941
內容簡介,目錄信息,

內容簡介

隨著搜尋引擎技術的發展和不斷完善,越來越多的人開始對搜尋引擎原理和技術進行研究,越來越多的人喜歡上了搜尋引擎
本書從教學的角度出發,全面地闡述了搜尋引擎的技術和信息檢索技術,包括:搜尋引擎的基本原理與技術、搜尋引擎的數據結構和搜尋引擎的爬蟲、信息獲取與信息檢索技術、分類與聚類驗洪技術以及Web信息檢索技術。

目錄信息

前言
第1章 搜尋引擎概述
1.1 搜尋引擎的概念
1.2 搜尋引擎臘循擔的發展史
1.3 搜尋引擎的分類
1.4 搜尋引擎的信息檢索模型
1.5 建立搜尋引擎的關鍵技術
1.6 中文搜尋引擎的發展趨勢
1.7 主要搜尋引擎介紹
1.7.1 谷歌(Google)搜尋
1.7.2 雅虎(Yahoo)搜尋
1.7.3 百度(Baidu)搜尋
1.7.4 天網搜尋
1.8 小結
思考題
第2章 搜尋引擎的工作原理
2.1 搜尋訂局采引擎的基本結構及工作原理
2.2 網頁的蒐集
2.3 網頁墊夜兆內容的提取
2.4 查詢服務
2.5 小結
思考題
第3章 信息檢索的模型
3.1 經典模型
3.1.1 布爾模型
3.1.2 向量模型
3.1.3 機率模型
3.2 代數模型
3.2.1 廣義向量空間模型
3.2.2 神經網路模型
3.3 其他機率模型
3.3.1 貝葉斯網路
3.3.2 推理網路模型
3.3.3 信任度網路模型
3.4 小結
思考題
第4章 文本操作
4.1 文本預處理
4.1.1 文本的詞法分析
4.1.2 中文分詞技術
4.1.3 無用辭彙的刪除
4.1.4 詞幹提取技術
4.1.5 索引詞條的選擇
4.1.6 詞典
4.2 文本聚類
4.2.1 文本聚類算法
4.2.2 文本聚類中的相關概念
4.2.3 特徵空間的降維處理
4.3 文本壓縮
4.3.1 基本概念
4.3.2 統計方法
4.3.3 字典方法
4.3.4 倒排文檔壓縮
4.4 小結
思考題
第5章 文本信息檢索技術
5.1 順排文檔檢索
5.1.1 表展開法
5.1.2 邏輯樹展開法
5.1.3 其多敬埋他順排文檔檢索算法
5.2 倒排文檔檢索
5.2.1 倒排文檔的檢索
5.2.2 倒排文檔的建立
5.2.3 逆波蘭表達式
5.2.4 檢索指令表的生駝蘭凝簽成
5.2.5 檢索實施
5.3 布爾檢索
5.4 加權檢索
5.4.1 檢索詞加權檢索
5.4.2 詞頻加權檢索
5.4.3 標引加權檢索
5.5 全文檢索
5.5.1 全文全淚催院檢索的技術指標
5.5.2 全文檢索的實現
5.5.3 全文檢索效率的提高
5.6 超文本檢索
5.6.1 超文本技術概述
5.6.2 超文本的功能及結構
5.6.3 超文本檢索的優缺點
5.7 分散式信息檢索
5.7.1 分散式檢索的查詢協定
5.7.2 分散式檢索系統的結構
5.7.3 分散式信息檢索模式
5.7.4 分散式檢索資源選擇
5.8 分散式資料庫查詢技術
5.8.1 分散式資料庫的基本概念
5.8.2 利用C#實現分散式資料庫查詢
5.8.3 基於.NET Remoting的查詢技術
5.8.4 基於DCOM的分散式查詢技術
5.8.5 基於JDBC的查詢技術
5.8.6 基於Servlet的查詢技術
5.8.7 基於CORBA的查詢技術
5.8.8 基於Agent的查詢技術
5.9 小結
思考題
第6章 信息檢索評價
6.1 相關性
6.1.1 相關性的特徵
6.1.2 相關性研究類別
6.1.3 相關性模型
6.2 信息檢索性能評價
6.2.1 信息檢索系統的有效性
6.2.2 評價指標
6.2.3 Web檢索系統性能評價
6.3 信息檢索領域的相關組織和會議
6.4 小結
思考題
第7章 文本分類與聚類
7.1 分類與聚類介紹
7.1.1 文本分類
7.1.2 文本聚類
7.1.3 文本分類的算法
7.1.4 文本聚類的算法
7.1.5 自動分類與自動聚類
7.1.6 文本分類的評測方法與指標
7.1.7 文本聚類的評測方法與指標
7.2 常用文本分類方法
7.2.1 文本分類的問題
7.2.2 kNN分類算法
7.2.3 NB分類算法
7.2.4 決策樹分類算法
7.2.5 Rocchio分類算法
7.2.6 支持向量機分類算法
7.2.7 特徵選擇分類算法.
7.2.8 文本分類系統的實現
7.3 常用文本聚類方法
7.3.1 層次聚類算法
7.3.2 分割聚類算法
7.3.3 基於密度的聚類算法
7.3.4 基於格線的聚類算法
7.3.5 基於模型的聚類算法
7.4 小結
思考題
第8章 Web信息檢索技術
8.1 Web信息處理的基本技術
8.1.1 Web信息的基本特點
8.1.2 Web信息的表現方式
8.1.3 Web信息系統結構
8.1.4 網路信息資源的組織與管理
8.2 Web數據挖掘
8.2.1 Web挖掘流程
8.2.2 Web挖掘的分類及現狀
8.2.3 Web數據挖掘和Web信息檢索的區別
8.3 Web信息檢索的關鍵技術
8.3.1 文檔蒐集
8.3.2 文檔預處理
8.3.3 索引資料庫的建立
8.3.4 相似度計算與排序方法
8.4 搜尋引擎的基本結構
8.4.1 搜尋引擎的結構分類
8.4.2 網頁收集模組
8.4.3 網頁索引模組
8.4.4 查詢模組
8.4.5 用戶界面
8.4.6 搜尋引擎的主要指標及分析
8.5 搜尋引擎的數據結構
8.5.1 存儲結構
8.5.2 信息庫
8.5.3 文本索引
8.5.4 詞典
8.5.5 採樣表
8.5.6 前向索引
8.5.7 後向索引
8.6 搜尋引擎爬蟲
8.6.1 網路爬蟲
8.6.2 深度優先策略
8.6.3 廣度優先策略
8.6.4 不重複抓取策略
8.6.5 網頁抓取優先策略
8.6.6 網頁重訪策略
8.6.7 網頁抓取提速策略
8.6.8 Robots協定
8.6.9 網頁內容提取技術
8.7 元搜尋引擎
8.7.1 元搜尋引擎的基本構成
8.7.2 常用元搜尋引擎介紹及其分類
8.7.3 與獨立搜尋引擎的比較
8.7.4 主要技術指標及分析
8.8 小結
思考題
第9章 搜尋引擎開發技術
9.1 實例簡介
9.1.1 搜尋引擎的體系結構
9.1.2 網頁蒐集
9.1.3 網頁預處理
9.1.4 查詢服務
9.2 環境搭建與配置
9.2.1 idk 1.6的安裝與配置
9.2.2 eclipse的安裝與配置
9.2.3 Tomcat的安裝與配置
9.2.4 Heritrix的安裝與配置
9.3 網頁蒐集的實現
9.3.1 擴展Heritrix
9.3.2 抓取網頁
9.4 預處理的實現
9.4.1 原始網頁的處理
9.4.2 建立索引——Lucene
9.5 提供查詢服務
9.5.1 搜尋引擎架構設計
9.5.2 後台設計和實現
9.5.3 頁面設計和實現
9.5.4 部署到Tomcat
9.6 小結
實驗
參考文獻
5.2.1 倒排文檔的檢索
5.2.2 倒排文檔的建立
5.2.3 逆波蘭表達式
5.2.4 檢索指令表的生成
5.2.5 檢索實施
5.3 布爾檢索
5.4 加權檢索
5.4.1 檢索詞加權檢索
5.4.2 詞頻加權檢索
5.4.3 標引加權檢索
5.5 全文檢索
5.5.1 全文檢索的技術指標
5.5.2 全文檢索的實現
5.5.3 全文檢索效率的提高
5.6 超文本檢索
5.6.1 超文本技術概述
5.6.2 超文本的功能及結構
5.6.3 超文本檢索的優缺點
5.7 分散式信息檢索
5.7.1 分散式檢索的查詢協定
5.7.2 分散式檢索系統的結構
5.7.3 分散式信息檢索模式
5.7.4 分散式檢索資源選擇
5.8 分散式資料庫查詢技術
5.8.1 分散式資料庫的基本概念
5.8.2 利用C#實現分散式資料庫查詢
5.8.3 基於.NET Remoting的查詢技術
5.8.4 基於DCOM的分散式查詢技術
5.8.5 基於JDBC的查詢技術
5.8.6 基於Servlet的查詢技術
5.8.7 基於CORBA的查詢技術
5.8.8 基於Agent的查詢技術
5.9 小結
思考題
第6章 信息檢索評價
6.1 相關性
6.1.1 相關性的特徵
6.1.2 相關性研究類別
6.1.3 相關性模型
6.2 信息檢索性能評價
6.2.1 信息檢索系統的有效性
6.2.2 評價指標
6.2.3 Web檢索系統性能評價
6.3 信息檢索領域的相關組織和會議
6.4 小結
思考題
第7章 文本分類與聚類
7.1 分類與聚類介紹
7.1.1 文本分類
7.1.2 文本聚類
7.1.3 文本分類的算法
7.1.4 文本聚類的算法
7.1.5 自動分類與自動聚類
7.1.6 文本分類的評測方法與指標
7.1.7 文本聚類的評測方法與指標
7.2 常用文本分類方法
7.2.1 文本分類的問題
7.2.2 kNN分類算法
7.2.3 NB分類算法
7.2.4 決策樹分類算法
7.2.5 Rocchio分類算法
7.2.6 支持向量機分類算法
7.2.7 特徵選擇分類算法.
7.2.8 文本分類系統的實現
7.3 常用文本聚類方法
7.3.1 層次聚類算法
7.3.2 分割聚類算法
7.3.3 基於密度的聚類算法
7.3.4 基於格線的聚類算法
7.3.5 基於模型的聚類算法
7.4 小結
思考題
第8章 Web信息檢索技術
8.1 Web信息處理的基本技術
8.1.1 Web信息的基本特點
8.1.2 Web信息的表現方式
8.1.3 Web信息系統結構
8.1.4 網路信息資源的組織與管理
8.2 Web數據挖掘
8.2.1 Web挖掘流程
8.2.2 Web挖掘的分類及現狀
8.2.3 Web數據挖掘和Web信息檢索的區別
8.3 Web信息檢索的關鍵技術
8.3.1 文檔蒐集
8.3.2 文檔預處理
8.3.3 索引資料庫的建立
8.3.4 相似度計算與排序方法
8.4 搜尋引擎的基本結構
8.4.1 搜尋引擎的結構分類
8.4.2 網頁收集模組
8.4.3 網頁索引模組
8.4.4 查詢模組
8.4.5 用戶界面
8.4.6 搜尋引擎的主要指標及分析
8.5 搜尋引擎的數據結構
8.5.1 存儲結構
8.5.2 信息庫
8.5.3 文本索引
8.5.4 詞典
8.5.5 採樣表
8.5.6 前向索引
8.5.7 後向索引
8.6 搜尋引擎爬蟲
8.6.1 網路爬蟲
8.6.2 深度優先策略
8.6.3 廣度優先策略
8.6.4 不重複抓取策略
8.6.5 網頁抓取優先策略
8.6.6 網頁重訪策略
8.6.7 網頁抓取提速策略
8.6.8 Robots協定
8.6.9 網頁內容提取技術
8.7 元搜尋引擎
8.7.1 元搜尋引擎的基本構成
8.7.2 常用元搜尋引擎介紹及其分類
8.7.3 與獨立搜尋引擎的比較
8.7.4 主要技術指標及分析
8.8 小結
思考題
第9章 搜尋引擎開發技術
9.1 實例簡介
9.1.1 搜尋引擎的體系結構
9.1.2 網頁蒐集
9.1.3 網頁預處理
9.1.4 查詢服務
9.2 環境搭建與配置
9.2.1 idk 1.6的安裝與配置
9.2.2 eclipse的安裝與配置
9.2.3 Tomcat的安裝與配置
9.2.4 Heritrix的安裝與配置
9.3 網頁蒐集的實現
9.3.1 擴展Heritrix
9.3.2 抓取網頁
9.4 預處理的實現
9.4.1 原始網頁的處理
9.4.2 建立索引——Lucene
9.5 提供查詢服務
9.5.1 搜尋引擎架構設計
9.5.2 後台設計和實現
9.5.3 頁面設計和實現
9.5.4 部署到Tomcat
9.6 小結
實驗
參考文獻

相關詞條

熱門詞條

聯絡我們