檢索表達式

檢索表達式

檢索表達式是檢索策略的具體體現之一,簡稱檢索式。檢索式一般由檢索詞和各種邏輯運算符組成。具體來說,它是用檢索系統規定的各種算符將檢索詞之間的邏輯關係、位置關係等連線起來,構成的計算機可以識別和執行的檢索命令式。檢索式構造的優劣關係到檢索策略的成敗。

檢索表達式主要有邏輯表達式、截詞檢索表達式、位置檢索表達式等,其中,最為常用的是邏輯表達式。

基本介紹

  • 中文名:檢索表達式
  • 外文名:Search expression
  • 簡稱:檢索式
  • 用處:檢索策略
  • 組成部分:檢索詞和各種邏輯運算符
  • 分為:邏輯截詞檢索位置檢索等表達式
邏輯,邏輯“與”,邏輯“或”,邏輯“非”,截詞檢索,位置檢索,

邏輯

邏輯表達式是指利用布爾邏輯算符,對檢索詞的關係進行表達,又稱布爾邏輯表達式。布爾邏輯是目前計算機檢索最簡單、最基本的匹配模式,也是計算機檢索領域廣泛採用的邏輯表達方式。布爾算符有“邏輯與”(“AND”)、“邏輯或”(“OR”)、“邏輯非”(“NOT”)等。
布爾邏輯算符示意圖布爾邏輯算符示意圖

邏輯“與”

表示它所連線的兩個檢索詞必須同時出現在結果中,邏輯檢索式可寫為:A AND B。也有些資料庫中用“*”或其他符號表示。例如,要查找關於“計算機檢索”方面的信息,檢索需求可以表述為:“計算機AND檢索”。目前,在一些資料庫(如中國期刊網)中提供的二次檢索,實質上也是邏輯“與”的運算。邏輯“與”的檢索能增強檢索的專指性,使檢索範圍縮小。

邏輯“或”

表示它所連線的兩個檢索詞中任意一個出現在結果中就滿足檢索條件,檢索式可寫為:A OR B。在一些中文資料庫中,用“+”表示邏輯“或”。例如,想檢索關於“計算機”的信息,可以表達為:計算機+電腦。邏輯“或”主要用於表達檢索詞的近義詞、同義詞、全稱和縮寫等,以便全面、完整地表達相關的概念。

邏輯“非”

表示它所連線的兩個檢索詞中,應從第一個概念中排除第二個概念,檢索式可寫為:A NOT B。在一些中文資料庫中用 “-”表示邏輯 “非”。例如,想查找關於“研究生教育”的資料,但要求不包括在職研究生,可以將檢索式寫為:“(研究生*教育)-在職研究生”或“研究生-在職研究生*教育”。邏輯 “非”表示具有不包含某種概念關係的一組組配,用來縮小檢索範圍。但在實際檢索中要慎重使用。
以上邏輯運算符中,其運算優先權順序為“非”、“與”、“或”,但是可以用括弧改變它們之間的運算順序。還要注意的就是對於同一個邏輯運算式來說,不同的運算順序有不同的運算結果。

截詞檢索

截詞檢索表達式指在檢索式中用專門符號(截詞符號)表示檢索詞的某一部分,檢索詞允許有部分變化,檢索詞的不變部分加上由截詞符號所代表的任何變化形式所構成的辭彙都是合法檢索詞。截詞檢索表達式在西方語言檢索中套用比較廣泛,在中文信息檢索中也有一定的套用。採用截詞檢索表達式,既能防止漏檢,又能節省時間,是提高檢索效率的有力措施。不同檢索系統採用的截詞符不完全相同,一般常採用“?”、“*”等。
截詞方式有多種,按截斷的位置來分,截詞有前截斷、中間截斷、後截斷等;按截斷的字元數量來分,可分為有限截斷和無限截斷兩種。
簡介
後截詞,又稱右截詞、前方一致,允許檢索詞尾部有若干變化形式。例如檢索式“Comput*”將檢出包含Computer、Computing、Computed、Computerization等辭彙的結果。
中間截詞,允許檢索詞中間有若干變化形式,例如“wom ? n”就可同時檢索到含有woman和women的結果。
前截詞,又稱左截詞、後方一致,允許檢索詞的前端有若干變化形式,例如檢索 “*physics”就可檢得包含physics、astrophysics、biophysics、chemicophysics等詞的結果。
截詞檢索表達式在使用時,一定要合理使用,截斷部分要適當,不要截得太短,以免增加檢索噪音,查出很多無關的文獻。

位置檢索

位置檢索表達式表示兩個檢索詞之間的位置鄰近關係(不同的的檢索系統採用的表達符號可能不同),
常用的有:
W(nW):W是with的縮寫,(W)表示其兩側的檢索詞必須按前後順序出現在記錄中,兩詞之間不允許插入其它詞,只可能有空格或一個標點符號。(nW)表示兩側的檢索詞中間允許插入的詞最多只能有n個,且檢索詞的位置不能顛倒。
F: 是field的縮寫,(F)表示其兩側的檢索詞必須出現在同一個欄位中,但兩個檢索詞的詞序不限,且兩個檢索詞之間的單詞數量也不限制。如,兩個檢索詞必須同時出現在篇名欄位、文摘欄位或敘詞欄位。
N:是near的縮寫,(N)表示其兩側的檢索詞位置可以互換,在兩詞之間不能插入其它詞,但允許有空格或標點符號。(nN)表示允許在此運算符兩策的檢索詞之間最多插入n個詞,且兩個檢索詞的位置可顛倒。
L:是link的縮寫,(L)表示其兩側的檢索詞之間有主從關係,前者為主,後者為副。L可用來連線主、副標題詞。
S:是subfield的縮寫,(S)表示兩側的檢索詞必須出現在同一個子欄位中,如同一個句子或短語中,但詞序不限,且兩個檢索詞之間可有若干個其它詞。
在某些檢索系統中,還使用雙引號“ ” 標示不可分割的詞組或短語,如“civil engineering”,在檢索結果中civil engineering必須是連在一起的詞組。

相關詞條

熱門詞條

聯絡我們