定義
相關檢索是大多數搜尋引擎提供的一種檢索技術。當使用關鍵字檢索時,除得到相應的檢索結果之外,在結果頁面的上方或者下方會出現與檢索詞相關的一些關鍵字,單擊這些關鍵字,就可以得到相應的搜尋結果。例如,直接輸入漢語拼音,搜尋引擎“百度”會返回最相符的關鍵字供參考。,如“xigua”,將提示“西瓜”。相關檢索可以避免重複輸入搜尋關鍵字,並給出選擇的範圍,使用戶更容易地找到真正想得到的信息,能大大提高搜尋效率,減少找到有效信息所花費的時間。
有關檢索系統
信息檢索(Information Retrieval)是用戶進行信息查詢和獲取的主要方式,是查找信息的方法和手段。狹義的信息檢索僅指信息查詢(Information Search)。即用戶根據需要,採用一定的方法,藉助檢索工具,從信息集合中找出所需要信息的查找過程。廣義的信息檢索是信息按一定的方式進行加工、整理、組織部存儲起來,再根據信息用戶特定的需要將相關信息準確的查找出來的過程。又稱信息的存儲於檢索。一般情況下,信息檢索指的就是廣義的信息檢索。
信息檢索系統
網路信息檢索系統是以Internet上的信息資源作為檢索對象而形成的檢索系統,系統採取客戶機、伺服器結構,彼此之間的關係相等,這樣可以相互訪問和利用對方的資源。由於Internet上的信息資源豐富、類型繁多,因此作為檢索這些資源的網路信息檢索系統也會呈現多樣化。早期的網路信息檢索工具有Archie(針對FTP資源)、WAIS(網上文本信息資源)、Veronica(針對Gopher資源)等。目前針對www資源的檢索系統是網路信息檢索系統的主力,搜尋引擎、入口網站、網路資源指南等都是我們檢索網路信息的主要檢索工具。相關檢索技術是網路信息檢索系統所特有的技術之一。
關聯檢索系統
關聯檢索系統又稱“結合檢索系統”、“相關檢索系統”。一種計算機情報檢索系統。它利用統計算法對同一文獻中共同出現的詞的頻率進行統計,然後在此基礎上確定索引詞典中每個詞的關聯值。在檢索過程中,檢索系統根據檢索詞的關聯值,自動判定與選擇其他有關聯的詞,從而擴大檢索的範圍。這種檢索系統有較高的查全率。
檢索策略
檢索策略,就是在分析檢索提問的基礎上,確定檢索的資料庫、檢索的用詞,並明確檢索詞之間的邏輯關係和查找步驟的科學安排。檢索式(即檢索用詞與各運算符的組配成的表達式)僅僅是狹義上的檢索策略。
內容
(1)確定檢索系統:根據課題選擇合適的檢索系統,它必須包括檢索者檢索需求的學科範圍和熟悉的檢索途徑。在
計算機檢索中還需要確定檢索所
需要的文檔名稱或代碼。
(2)確定檢索途徑:各檢索系統一般都具有許多索引體系(即檢索途徑),應根據課題需要選擇自己熟悉的檢索途徑。可多途徑配合使用。
(3)選定檢索詞:各種檢索途徑均須有相應檢索詞(亦稱入口詞)方可進行檢索。如分類途徑以分類號作為檢索詞,主題途徑以標題詞、關鍵字等作為檢索詞等等。計算機檢索還須選定檢索詞編制布爾邏輯提問式。
(4)調整檢索方案:根據檢索過程中出現的各種問題及時調整方案,擴大或縮小檢索範圍。
構造
1、分析用戶信息需求,明確檢索目的
2、構造與最佳化檢索提問式
3、靈活運用各種運算符號
4、準確構造檢索提問式
基本檢索技術
欄位限定檢索
欄位限定檢索是把檢索詞限定在某個/些欄位中,達到最佳化檢索結果的方法。用戶有兩種方式進行欄位限定檢索。第一,可以利用索引檢索或高級檢索模式下的關鍵字檢索下拉選單將檢索詞限定在特定的欄位。第二,可用欄位標識符進行檢索詞欄位限定檢索。格式為:欄位標識符縮寫後空一格接檢索詞(即:欄位標識符縮寫 檢索詞),例如,TI hypertension表示檢索標題中含hypertension欄位的文獻;AU Zuo X表示檢索作者Zuo X的文章。
布爾邏輯檢索
CINAHL資料庫支持布爾邏輯檢索,也是該庫最基本、最重要的運算方式,利用布爾邏輯運算符對若干個檢索詞進行組合以表達檢索要求的方法。布爾邏輯運算符包括“邏輯與”(AND)、“邏輯或”(OR)、“邏輯非”(NOT)3種(表1),輸入大小寫均可。上述3種布爾邏輯運算符可以單用,也可組合使用。布爾邏輯運算優先順序為:( )>NOT>AND>OR。即先算括弧內的,再依次算NOT,其次AND,最後OR。括弧( )可改變運算順序,將需要優先運算者置於圓括弧中。例如:查找“維生素C或維生素E對糖尿病患者腎臟的保護作用”,檢索提問式為:(維生素C or 維生素E)and 糖尿病 and 腎。
截詞檢索
截詞檢索(truncation searching)是指利用檢索詞的詞幹或不完整的詞形進行檢索,也稱通配符檢索、詞幹檢索或字元禁止檢索。截詞檢索隱含著布爾邏輯檢索的“邏輯或”運算,因此,使用截詞檢索可擴大檢索範圍,避免漏檢,且減少輸入多次的麻煩。但採用截詞檢索既要靈活又要謹慎,截詞部位要適當,若截太短(輸入字元不得少於3個),將增加檢索噪聲,影響查準率。常用截詞方式包括有限截詞和無限截詞2種。有限截詞:指允許截去有限個字元。截斷符常用“?”表示,代表1個字元,也可連續使用多個。詞幹後面連續的數個問號是截斷符,最後一個是終止符,終止符與截斷符之間有一個空格,輸入時定要切記。無限截詞:又稱任意截詞/開放式截詞,指允許截去的字元數量不限。截詞符常用“*”表示,代表零個或多個字元或一個字元串。按照截詞部位不同,無限截詞常包括右截詞(截去詞尾部,詞前方一致)、左截詞(截去詞前部,詞後方一致)、中間截詞(截去詞的中間部分,詞兩邊較一致)和複合截詞(同時採用兩種以上的截斷方式)。
位置檢索
位置算符表示兩個檢索詞之間的位置鄰近關係,用於表示詞與詞之間的相互關係和前後次序,通過對檢索詞之間位置關係的限定,可增強選詞指令的靈活性,提高檢索的查全率和查準率。常見的位置算符包括“N”算符和“W算符”。
短語檢索
短語檢索又稱精確檢索/詞組檢索,是將一個詞組或短語用雙引號“”引起作為一個獨立運算單元,進行嚴格匹配,以提高查準率。這種方法與模糊檢索/概念檢索相區別,要求檢索結果必須含有與檢索表達式完全相同(包括次序)的字串,需完全匹配。倘若含有停用詞(stopword)則可能檢索不出結果。
相關檢索實現
構建過程
為了具體實現楚辭古籍實體款目之間的相關性,我們利用本體論思想和本體建模工具構建楚辭書目本體。Perez 等人按分類法組織和歸納出了本體包含的 5 個基本的建模元語( modeling primitive) , 這些元語分別為類( classes) 、 關係( relations) 、 函式( functions) 、
公理( axioms) 和實例( instances) 。楚辭書目本體的構建基於上文對楚辭書目相關性的詳盡分析,並參照了FRBR 概念關係模型、Perez 的五元組分類法,以《楚辭書目五種》對楚辭相關文獻的歸納與劃分的書目結構為素材,利用本體建模元語構建的楚辭書目本體共包括 35個本體類,24個對象屬性,20個數據類型屬性,約5300個實例。
創建楚辭書目本體的類
本體類是一種特殊的資源, 它描述了具有共同特徵或者在某方面相似的資源的集合。楚辭書目本體的類基於《楚辭書目五種》 以及表 1 對楚辭等古籍實例間的關聯分析,劃分出了35個基本本體類。
定義楚辭書目本體的對象屬性
對象屬性是實體間的聯繫,在資源描述中充當謂語作用。依據《楚辭書目五種》及其涉及的楚辭相關古籍的背景和內容,構建了24個楚辭書目本體的對象屬性。定義域指定了使用當前待描述屬性的陳述中充當主語的所有個體的類型。值域指定了所有個體的類型或者所有文字的數據類型,並且這些個體或文字在使用當前待描述屬性的陳述中充當賓語。
確定楚辭書目本體的數據類型屬性
數據類型屬性用來連線實體的一些文字值,它不可以作為陳述的主語,只能做為賓語。比如人名的字、號、筆名、官職等,書目的出版地、內容等,館藏圖書的版本、版本類型、版本注釋、版本形態、版本評論等, 音樂作品的曾用名、作url 地址等。例如描述人名實體用 string 類型,描述年齡實體int類型等。
用 protégé 工具實現楚辭書目本體
本文採用protégé 軟體來實現楚辭書目本體的可視化,該軟體提供了很好的可視化界面操作, 可以很方便地添加類和屬性, 可以生成 xml、 turtl、 rdf 或 owl 格式的本體檔案, 並提供有 Sparql 查詢接口、 pellet 推理機和 SWRL規則語言編輯添加接口等大量外掛程式。將類和屬性添加到本體中後, 可在 ontoGraf 標籤下看到加入對象屬性之後類之間完整的關聯關係圖。在書目各實體款目類間出現了可能的多種關聯關係, 這為古籍目錄相關性的深入研究和關聯檢索的實現提供了可能性。
通過 “創作關聯 ” 、“年代關聯” 以及“地名關聯” 三個實例具體分析楚辭書目本體類之間的屬性關係: ①創作關聯。作者與作品通過一對相反屬性 owl:isCreatorOf 與 owl: isCreatedBy 構成了楚辭文獻類或參見作品類與人名類之間的創作關聯。在 protégé 工具的預覽圖中, 可以看到創作關聯的關聯效果。②年代關聯。年代關聯通過一對相反對象屬性 owl: isHap-penedTimeAt 與 owl: isHappenTimeOf 或其他表示時間相關的對象屬性對來關聯。③地名關聯。楚辭相關古籍文獻中很多事件都與地點相關, 通過一對相反的對象屬性 owl: isHappenedPlaceAt 與 owl: isHappen-PlaceOf 或其他表示地點相關的對象屬性對來關聯。
各種簡單關聯合併之後使楚辭書目本體形成了複雜的關聯關係, 也正是由於存在這些複雜的關聯才使得本文對古籍書目相關性研究具有很重要的意義, 並且為楚辭書目語義關係查詢提供了可能。
具有推理功能
語義關係查詢是一個發現楚辭書目關聯信息的過程,本文採用 Sparql 查詢語言。SparqL( simple protocol and RDF query language) ,是專門為 RDF 開發的一種查詢語言和數據獲取協定,用於任何可以用 RDF 來表示的信息資源。
直接關聯查詢
直接關聯是指查詢的兩個實例通過某種關係直接關聯起來。
間接關聯查詢
間接關聯查詢是指兩個實例在通常情況下並不相干, 但由於某些中間關係的存在使得本不相干的兩個實例建立了某種關係。
智慧型推理查詢
智慧型推理是指在知識庫中並未明確指出兩者之間的相互關係, 而是通過與其他實體間關聯而潛在蘊含的知識。