全文檢索技術

簡介

隨著計算機產業的發展，以計算機存儲設備為載體的電子信息愈來愈多，這些信息大致可分為兩類：結構化數據和非結構化數據，結構化數據指的是諸如企業財務帳目和生產數據、學生的分數數據等等，非結構化數據的則是一些文本數據、圖象聲音等多媒體數據等等。據統計，非結構化數據占有整個信息量的80%以上。

特徵

對於結構化數據，用RDBMS（關係資料庫管理系統）技術來管理是目前最好的一種方式。但是由於RDBMS自身底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足，特別是查詢這些海量非結構化數據的速度較慢。而通過全文檢索技術就能高效地管理這些非結構化數據。

經過幾年的發展，全文檢索從最初的字元串匹配程式已經演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的大型軟體。由於內涵和外延的深刻變化，全文檢索系統已成為新一代管理信息系統的代名詞，衡量全文檢索系統的基本指標也逐漸形成規範。

首先，我們關注的是查全率，即系統在進行某一檢索時，檢索出的相關資料量與系統資料庫中相關資料總量的比率。查準率則是保證我們找到最有用資料的一個關鍵，是系統在進行某一檢索時，檢索出的有用資料數量與檢索出資料總量的比率。檢索速度或者說回響時間是提高工作效率的保障，指的是從提交檢索課題到查出資料結果所需的時間。最基本的檢索速度是應該達“千萬漢字，秒級回響"。還有諸如收錄範圍（所查找的範圍）、用戶負擔（用戶在檢索過程中付出精力的總和）、輸出形式（輸出信息表現形式）等指標也是衡量全文檢索系統優劣的要素。

搜尋引擎應該是全文檢索技術最主要的一個套用。目前，搜尋引擎的使用已成為排在收發電子郵件之後的第二大網際網路套用技術。搜尋引擎起源於傳統的信息全文檢索理論，即電腦程式通過掃描每一篇文章中的每一個詞，建立以詞為單位的到排檔案，檢索程式根據檢索詞在每一篇文章中出現的頻率和每一個檢索詞在一篇文章中出現的機率，對包含這些檢索詞的文章進行排序，最後輸出排序的結果。全文檢索技術是搜尋引擎的核心支撐技術。

一個好的檢索引擎是一個理想站點的關鍵。很多人在訪問一個站點時喜歡使用站點檢索，站點檢索應是分類目錄導航和全文檢索的完美結合，具體包括以下幾個方面：

分類目錄導航的關鍵是檢索範圍，檢索範圍的限制能使得檢索結果不會太多、太濫；

全文檢索對於站點檢索是必不可少的，在通常情況下能夠幫助人們很快地找到所要的網頁；

有時利用分類目錄導航和全文檢索還很難定位到所要的信息，這時就要組合檢索輔助；

必須有相關排序功能，因為當檢索結果太多時，用戶不可能一一瀏覽，大多數用戶只瀏覽前面幾條，沒有相關排序，可能準確的檢索結果排在後面，用戶不能瀏覽到，而排在前面的檢索結果卻相關性很少，造成用戶的錯覺。

此外，我們還要考慮HTML/XML的特殊性、支持大量並發用戶突發訪問、Web站點的動態特性、要求索引維護效率很高等方面。

全文檢索技術

基本介紹

簡介

特徵

相關詞條

熱門詞條