計算機信息檢索

計算機信息檢索

計算機信息檢索(computer information retrieval)利用計算機系統有效存儲和快速查找的能力發展起來的一種計算機套用技術。它與信息的構造、分析、組織、存儲和傳播有關。計算機信息檢索系統是信息檢索所用的硬體資源、系統軟體和檢索軟體的總合。它能存儲大量的信息,並對信息條目(有特定邏輯含義的基本信息單位)進行分類、編目或編制索引。它可以根據用戶要求從已存儲的信息集合中抽取出特定的信息,並提供插入、修改和刪除某些信息的能力。

基本介紹

  • 中文名:計算機信息檢索
  • 外文名:computer information retrieval 英文
  • 信息檢索:一次性和二次性信息檢索系統
  • 類別:計算機理論
綜述,信息分析,信息存儲,信息檢索,系統維護,保密性,可靠性,效能評價,套用範圍,

綜述

計算機信息檢索
(英文computer information retrieval)
計算機信息檢索系統可分為:一次性信息檢索系統和二次性信息檢索系統。前者適合於單個條目,即信息量不大而需要經常修改的情況,如航空公司訂票系統。後者適合於信息條目本身信息量較大而不常修改的情況,如圖書或文獻檢索系統。
計算機信息檢索可以概括為兩個部分:信息存儲和信息檢索。

信息分析

目的是確定輸入系統的信息條目的格式和內容,並為建立索引作準備。一次信息檢索系統用於確定邏輯記錄的格式和記錄關鍵字,或記錄之間的關係;二次信息檢索系統用於濃縮原始信息,又稱作標引。這相當於編制題錄或文摘,即找出標識原始信息的一組關鍵字(稱作主題詞或檢索詞),從而產生一部檢索詞典。在詞典中還可以規定同義詞、近義詞關係和各詞語之間的層次關係。標引工作的一部分可由計算機自動完成。例如,利用題內關鍵字索引或頻率統計法等技術從原始信息中抽取出關鍵字。

信息存儲

目的是建立信息庫,以備檢索。為了便於查找,需要合理組織信息條目,可以按檔案形式組織,也可以按資料庫形式組織。信息檢索系統常用的檔案組織形式有:順序檔案、索引順序檔案、倒排檔案和聚類檔案,其中用得較多的是倒排檔案和聚類檔案。
倒排檔案對每個信息條目給出一個表示主要屬性的唯一的關鍵字,稱主關鍵字。所有主關鍵字和相應信息條目在檔案中的地址構成一個索引,稱為主索引。系統還給出允許用戶檢索的信息條目中的次要屬性,稱為次關鍵字。次關鍵字不是唯一的。通過在每個次關鍵字後面列出出現該屬性的信息條目的主關鍵字而構成另一種形式的索引,稱為次索引。從主關鍵字查主索引可以找到信息條目。從次關鍵字查次索引可以找到若干主關鍵字,系統從主索引可以找出若干有關的信息條目。在一次檢索提問中要查找的索引部分是很小的,所以倒排檔案結構的查找時間較短。
聚類檔案是通過分析信息條目之間的相似性來組織的。檢索時,系統查找出與提問關鍵字有相似性的聚集類,聚類檔案結構特別適合於文獻檢索的情況。

信息檢索

脫機處理在線上檢索兩種檢索方式。對於前者,用戶提交書面檢索要求,操作員按期列印出結果交付用戶。對於後者,用戶通過在線上終端打入檢索命令,系統當時給出回答。通過計算機網路,用戶還可以進行遠程脫機處理或遠程在線上檢索
用戶與系統的接口是檢索語言,通過它提出檢索要求。檢索語言通常包括檢索命令和提問邏輯表達式兩個部分。命令傳達用戶對系統的請示,邏輯表達式則提供執行該命令時的邏輯條件。邏輯表達式邏輯運算符(與、或、非)、邏輯關係符和不同屬性的組合。系統提供一組程式來解釋和執行檢索語言。

系統維護

系統提供一組實用程式來進行裝入信息的格式轉換、信息檔案的初始化和故障後系統的重新運行等一般性服務。二次信息檢索系統還提供檢索詞典維護程式,以便能增加、刪除、修改和列印出檢索詞。

保密性

計算機信息檢索系統的保密性是通過對信息條目的存取控制機構來實現的。對於以檔案系統為基礎的信息檢索系統,存取控制一般只能在檔案一級,即通過在打開檔案時核對口令來控制非授權的用戶檢索信息。對於以資料庫技術為基礎的檢索系統,存取控制可以在檔案、記錄,甚至在信息條目中某信息項一級,既可以通過核對口令方式,也可以採取調用用戶編寫的編碼、解碼子程式的方式阻止非授權的用戶調用保密的信息。

可靠性

計算機信息檢索系統的可靠性與計算機系統的可靠性密切相關。它依賴於計算機系統硬體的可靠性、作業系統的故障恢復機構、資料庫管理系統的恢復機構和套用軟體採取的故障處理措施。任何計算機信息檢索系統都不能保證信息不受到破壞,但是它必須具有從破壞中得以恢復的能力。

效能評價

計算機信息檢索系統的效能通常根據漏檢索、誤檢率、檢全率、檢準率和回響時間(對在線上檢索)等來衡量。關鍵字本身錯誤或使用的查找算法不對會引起漏檢。關鍵字的二義性會造成誤檢。檢全率和檢準率主要針對二次信息檢索系統而言的。檢全率指檢出的相關信息條目數與信息庫中的相關條目數之比。檢準率指檢出的相關條目數與所有檢出的條目數之比。這二者是相互制約的。一般認為一個系統檢全率在60%~70%,檢準率在40%~50%即能滿足需要。回響時間的快慢不僅與軟體設計的好壞有關,而且與硬體的性能有關。

套用範圍

計算機信息檢索最初用於圖書、文獻檢索方面,後已用在軍事、工業、醫療、航空、政府機關等各個方面。有的只作信息檢索用,有的則是將信息檢索技術套用在其他綜合的管理信息系統之中,如用於輔助決策的軍事情報檢索系統;航空公司自動訂票系統,醫療情報系統(包括病歷管理、預約登記、通知、病名檢索、病床管理等);旅館床位管理系統;檢索型的輔助設計系統等。此外,政府部門或企業的檔案管理、科研或工程項目管理、基本建設投資管理等都可套用信息檢索技術。

相關詞條

熱門詞條

聯絡我們