檢索訪問方法

在使用計算機進行檢索訪問時,使用一些特定的方法往往能加快搜尋的速度。計算機檢索基本檢索方法主要有布爾檢索截詞檢索、原文檢索、加權和聚類檢索、擴檢和縮檢。

基本介紹

  • 中文名:檢索訪問方法
  • 外文名:Retrieval access method
  • 基本釋義:計算機檢索時用於加快速度的方法
  • 歸屬學科:計算機技術
  • 相關概念檢索
  • 目的:加快搜尋的速度
布爾檢索,截詞檢索,原文檢索,加權檢索和聚類檢索,加權檢索,聚類檢索,擴檢與縮檢,擴檢,縮檢,

布爾檢索

利用布爾邏輯算符進行檢索詞或代碼的邏輯組配,是現代信息檢索系統中最常用的一種方法。常用的布爾邏輯算符有三種,分別是邏輯或“OR”、邏輯與“AND”、邏輯非“NOT”。用這些邏輯算符將檢索詞組配構成檢索提問式,計算機將根據提問式與系統中的記錄進行匹配,當兩者相符時則命中,並自動輸出該文獻記錄。
下面以“計算機”和“文獻檢索”兩個詞來解釋三種邏輯算符的含義。
(1)“計算機”AND“文獻檢索”,表示查找文獻內容中既含有“計算機”又含有“文獻檢索”詞的文獻。
(2)“計算機”OR“文獻檢索”,表示查找文獻內容中含有“計算機”或含有“文獻檢索”以及兩詞都包含的文獻。
(3)“計算機”NOT“文獻檢索”,表示查找文獻內容中含有“計算機”而不含有“文獻檢索”的那部分文獻。
檢索中邏輯算符使用是最頻繁的,對邏輯算符使用的技巧決定檢索結果的滿意程度。用布爾邏輯表達檢索要求,除要掌握檢索課題的相關因素外,還應在布爾算符對檢索結果的影響方面引起注意。另外,對同一個布爾邏輯提問式來說,不同的運算次序會有不同的檢索結果。布爾算符使用正確但不能達到應有檢索效果的事情是很多的。

截詞檢索

截詞檢索就是用截斷的詞的一個局部進行的檢索,並認為凡滿足這個詞局部中的所有字元(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有後截斷、前截斷、中截斷三種類型。
不同的系統所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符只代表一個字元)和無限截詞(一個截詞符可代表多個字元)。下面以無限截詞舉例說明:
(1)後截斷,前方一致。如:comput?表示computer,computers,computing等。
(2)前截斷,後方一致。如:?computer表示minicomputer,microcomputers等。
(3)中截斷,中間一致。如?comput?表示minicomputer,microcomputers等。
截詞檢索也是一種常用的檢索技術,是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛套用。截斷技術可以作為擴大檢索範圍的手段,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。

原文檢索

“原文”是指資料庫中的原始記錄,原文檢索即以原始記錄中的檢索詞與檢索詞間特定位置關係為對象的運算。原文檢索可以說是一種不依賴敘詞表而直接使用自由詞的檢索方法。
原文檢索的運算方式,不同的檢索系統有不同的規定,其差別是:規定的運算符不同;運算符的職能和使用範圍不同。原文檢索的運算符可以通稱為位置運算符。從RECON、ORBIT和STAIRS三大軟體對原文檢索的規定,可以看出其運算符主要是以下4個級別:
(1)記錄級檢索,要求檢索詞出現在同一記錄中;
(2)欄位級檢索,要求檢索詞出現在同一欄位中;
(3)子欄位或自然句級檢索,要求檢索詞出現在同一子欄位或同一自然句中;
(4)詞位置檢索,要求檢索詞之間的相互位置滿足某些條件。
原文檢索可以彌補布爾邏輯檢索、截詞方法檢索的一些不足。運用原文檢索方法,可以增強選詞的靈活性,部分地解決布爾檢索不能解決的問題,從而提高文獻檢索的水平和篩選能力。但是,原文檢索的能力是有限的。從邏輯形式上看,它僅是更高級的布爾系統,因此存在著布爾邏輯本身的缺陷。

加權檢索和聚類檢索

加權檢索

加權檢索是某些檢索系統中提供的一種定量檢索技術。加權檢索同布爾檢索、截詞檢索等一樣,也是文獻檢索的一個基本檢索手段,但與它們不同的是,加權檢索的側重點不在於判定檢索詞或字元串是不是在資料庫中存在、與別的檢索詞或字元串是什麼關係,而是在於判定檢索詞或字元串在滿足檢索邏輯後對文獻命中與否的影響程度。加權檢索的基本方法是:在每個提問詞後面給定一個數值表示其重要程度,這個數值稱為權,在檢索時,先查找這些檢索詞在資料庫記錄中是否存在,然後計算存在的檢索詞的權值總和。權值之和達到或超過預先給定的閾值,該記錄即為命中記錄。
運用加權檢索可以命中核心概念文獻,因此它是一種縮小檢索範圍提高檢準率的有效方法。但並不是所有系統都能提供加權檢索這種檢索技術,而能提供加權檢索的系統,對權的定義、加權方式、權值計算和檢索結果的判定等方面,又有不同的技術規範。

聚類檢索

聚類檢索是在對文獻進行自動標引的基礎上,構造文獻的形式化表示——文獻向量,然後通過一定的聚類方法,計算出文獻與文獻之間的相似度,並把相似度較高的文獻集中在一起,形成一個個的文獻類的檢索技術。根據不同的聚類水平的要求,可以形成不同聚類層次的類目體系。在這樣的類目體系中,主題相近、內容相關的文獻便聚在一起,而相異的則被區分開來。
聚類檢索的出現,為文獻檢索尤其是計算機化的信息檢索開闢了一個新的天地。文獻自動聚類檢索系統能夠兼有主題檢索系統和分類檢索系統的優點,同時具備族性檢索和特性檢索的功能。因此,這種檢索方式將有可能在未來的信息檢索中大有用武之地。

擴檢與縮檢

擴檢與縮檢是檢索過程中經常面臨的問題。在在線上檢索時,由於機時的限制,用戶應該在上機前就擬定好擴檢與縮檢的策略,也就是說,在擬定檢索策略時,應該同時考慮如命中文獻太少或太多時如何處理的辦法。否則,會大大增加機時,而且不易得到滿意的結果。

擴檢

擴檢是指初始設定的檢索範圍太小,命中文獻不多,需要擴大檢索範圍的方法。擴檢的方法主要可以有以下幾種:= 1 \* GB3①概念的擴大;= 2 \* GB3②範圍的擴大;= 3 \* GB3③增加同義詞;= 4 \* GB3④年代的擴大。

縮檢

縮檢是指開始的檢索範圍太大,命中文獻太多,或查準率太低,需要增加查準率的一個方法。縮檢與擴檢相反,即概念的縮小、範圍的限定、年代的減少等。此外,還可以通過以下方法進行限定:= 1 \* GB3①核心概念的限定;= 2 \* GB3②語種的限定;= 3 \* GB3③特定期刊的限定。

相關詞條

熱門詞條

聯絡我們