全文檢索

全文檢索

全文資料庫是全文檢索系統的主要構成部分。所謂全文資料庫是將一個完整的信息源的全部內容轉化為計算機可以識別、處理的信息單元而形成的數據集合。全文資料庫不僅存儲了信息,而且還有對全文數據進行詞、字、段落等更深層次的編輯、加工的功能,而且所有全文資料庫無一不是海量信息資料庫。

基本介紹

  • 中文名:全文檢索
  • 外文名:full-text search
  • 定    義:一種新的信息檢索技術
  • 套用學科:計算機技術方法術語
概念,發展歷史,系統及功能,實現技術,

概念

發展歷史

全文檢索是20世紀末產生的一種新的信息檢索技術。經過幾十年的發展,特別是以計算機技術為代表的新一代信息技術套用,使全文檢索從最初的字元串匹配和簡單的布爾邏輯檢索技術演進到能對超大文本、語音、圖像、活動影像等非結構化數據進行綜合管理的複合技術。由於內涵和外延的深刻變化,全文檢索系統已成為新一代管理系統的代名詞,衡量全文檢索系統的基本指標和全文檢索的內涵也發生巨大變化。

系統及功能

全文資料庫是全文檢索系統的主要構成部分。所謂全文資料庫是將一個完整的信息源的全部內容轉化為計算機可以識別、處理的信息單元而形成的數據集合。全文資料庫不僅存儲了信息,而且還有對全文數據進行詞、字、段落等更深層次的編輯、加工的功能,而且所有全文資料庫無一不是海量信息資料庫。對於全文資料庫這種比較非結構化的數據,用RDBMS(關係資料庫管理系統)技術來管理是目前最好的一種方式。但是由於RDBMS底層結構的緣故使得它管理大量非結構化數據顯得有些先天不足,特別是查詢這些海量非結構化數據的速度較慢,而通過全文檢索技術就能高效地管理這些非結構化數據。
關於全文資料庫的特點,空軍政治學院計算機中心王蘭成副教授認為全文資料庫與書目資料庫、事實資料庫相比較主要有如下特點:(1)全文資料庫包含信息的原始性 庫中信息基本上是未經信息加工的原始文本,具有客觀性。(2)信息檢索的徹底性 可對文中任何字、詞、句進行檢索,還可表示檢索之間的複雜位置關係(3)所用檢索語言的自然性 不做人工標引,藉助截詞、鄰接等匹配方法,以自然語言檢索所需文獻。這是與傳統主題詞檢索方法的根本區別。(4)數據相對的穩定性 全文資料庫基本上是封閉的,一般不需更新。(5)檢索結果的準確性(6)數據結構的非結構性

實現技術

全文檢索系統的實現技術分為三個方面:關係型全文檢索系統、層次型全文檢索系統、面向對象的全文檢索系統及自動標引技術。
針對全文數據系統的構建,提出全文檢索系統的實現技術,主要分為5個步驟。
(1)數據準備:它是指針對計畫載入到全文資料庫中的數據進行收集、整理、歸類等預先處理的過程。載入到全文數據中的數據可以從多種途徑獲得,常見的數據來源有:電腦打字產生的檔案,電子印刷產生的文稿,計算機網上傳送的檔案,電子出版物,圖文處理產生的檔案,專門組織人力錄入建庫。
(2)文本預處理:包括規範格式,當格式多種多樣時,應加以整理,使文獻的格式規範化;批式標引,文本預處理階段完成的批式標引,不受全文資料庫結構的限制,效率較高。
(3)數據載入:數據準備好以後,便可以載入(拷入、輸入)到資料庫檔案中去了。載入數據可有單篇方式或批量方式。單篇方式一次載入一篇,適於平時文獻隨時載入的情況。批量方式一次載入多篇,適於集中大量載入的情況。
(4)數據檢索:資料庫建立起來之後,便可根據全文檢索系統提供的檢索功能對資料庫進行檢索。
(5)數據維護:全文數據建立以後,需要經常對資料庫的內容進行索引、更新、追加和清理。

相關詞條

熱門詞條

聯絡我們