簡介
線上詞庫檢索是指通過聯網的方式在詞庫中查詢想知道的詞語的語義解釋或通過
檢索詞檢索有關內容。與在本地詞庫相比,線上詞庫的辭彙總量和解釋差不多是時時刻刻在更新,因此,線上詞庫檢索的內容時效性和權威性更好。要想線上詞庫檢索,與詞庫生成理論分不開,詞庫生成理論關係到檢索內容結果的好壞。線上詞庫檢索是典型的
客戶伺服器模式。
生成詞庫理論
生成詞庫理論是基於計算和認知的
自然語言意義模型,關注詞義的形式化和計算。該理論的核心思想是,詞的意義是相對穩定的,但詞與詞在組合中,可能會通過一些語義生成機制(組合機制)獲得延伸意義,可以通過豐富詞項的辭彙特徵和語義生成機制來解釋詞的不同用法以及在上下文中的創新性用法。其理論框架主要包括兩大部分:詞項的辭彙表征和語義生成機制。詞項的辭彙表征包括四個層面:論元結構、事件結構、物性結構和辭彙類型結構。物性 結構是詞庫生成性特徵的核心,包括四種物性角色:構成角色、形式角色、功用角色和施成角色構成角色描寫事物與其組成部分之間的關係,包括材料、重量、部分和組成成分等;形式角色描寫事物在更大的認知域內區別於其他事物的屬性,包括方位、大小、形狀和維度等;功用角色描寫事物的目的和功能;施成角色描寫事物是怎樣形成或產生的。以“書”為例,它的構成角色包括封面、封底、章節等,形式角色包括書的大小、形狀等,施成角色和功用角色分別是“寫”和“讀”。需要說明的是,每個角色的賦值可 能 不止一個。例如,“出版”也可以看成“書”的施成角色。除了上述四種角色,最近,自然功用角色和規約化屬性也開始被納入廣義的物性結構。自然功用表示事的天然功能,與意圖和目的無關。如“抽壓血 液”是“心臟”的自然功用。規約化屬性指事物的典型特徵,包括自然物的典型用途、與事物相關的常規活動等。例如,“叫”是“狗”的規約化屬性,“消化”是“食物”的規約化屬性。
語言結構的語義並不總是語言成分的語義的簡單相加,可能會出現語義預設(semanticdefault)、 語義富餘(semantic redundancy)和語義限定不足(semantic under- specification)等況, 在上述辭彙語義結構的基礎上,通過一系列的組合機制可以將辭彙在不同語境中的動態性意義表示出來,從而能夠正確地生成語言結構的語義。這些組合機制包括:
純粹選擇(pure selection):函項要求的類型能被論元直接滿足;
類型調節(type accommodation):函項要求的類型能從論元繼承;
類型強迫(type coercion):函項要求的類型被強加到論元上,通過兩種方式來實現—強迫利
用(coercion by exploitation):提取論元類型的一部分來滿足函項的要求;強迫引入(coercion by
introduction):把論元包裝成函項所要求的類型。通過這些組合機制, 詞語之間的語義組合以及組合之後所帶來的語義變化過程能得到反映,從而可以解釋語言中的多義、意義模糊和意義變化等現象。
檢索詞
檢索詞是指能表達檢索課題主題概念和
信息需求的名詞術語、分類號、名稱及代碼等的總稱,包括主題詞、關鍵字、名稱、分類號、分子式、
專利號及各種號碼等。它與檢索途徑相對應,是檢索途徑的具體化。如主題途徑的檢索標識就是主題詞,分類途徑的檢索標識是分類號,著者途徑的檢索標識是著者姓名,其他的則依此類推。
檢索標識的類型
按照規範化程度不同,檢索標識可以分為三種類型。
(1)規範詞是從檢索工具或系統的敘詞表、主題詞表或分類表等詞表中選取的
規範化的字詞、詞組或號碼,因為詞表是資料庫標引和檢索必須共同遵循使用的檢索語言。為了使檢索提問標識與信息特徵標識相一致,獲得最佳的
檢索效果,應優先選用規範詞。
(2)規範化的代碼索引代碼是檢索工具或
系統為某些主題範疇或主題概念規定的索引單元,這類單元有很好的專指性,是一種有較好檢索效果的信息特徵標識。如國際專利分類號IC=、PTS資料庫的產品代碼PC=、標準工業代碼SC=等等。
(3)自由詞是來源於文獻信息且具有實質意義的字詞、短語或號碼。使用自由詞檢索能夠充分利用系統的全文查找功能。
按照表達文獻信息特徵的形式不同,檢索標識可分為四種類型。
(1)表示主題的檢索詞,如標題詞、單元詞、敘詞、關鍵字等。
(2)表示分類的檢索詞,如分類號等。
(3)表示責任者的檢索詞,如作者姓名、機構名等。
(4)表示特定意義的檢索詞,如分子式、專利號、ISBN號、ISSN號、引文標引詞等。
選擇
主題詞、關鍵字、分類號三種檢索標識在課題檢索中使用較多。一般說來,主題詞因其種種優點是檢索時的首選。若無主題詞途徑或無與檢索概念一致的主題詞,機檢可考慮單用
自由詞(關鍵字)檢索或由上位詞與自由詞聯合檢索,或分類與自由詞聯合檢索;手檢可選其上位詞或分類途徑,從中篩選。
主題詞
選擇主題詞應注意其歷史變化和相關主題詞,擴展下位主題詞,提高
查全率,檢索一個主題的所有方面時組配“全部副主題詞(All Subheadings)”,有選擇地組配副主題詞時注意所選詞副主題的適用範圍。頭腦中有一個檢索概念,怎樣獲取恰當表達這個概念的主題詞是初學檢索者常遇到的難題。將檢索概念先用自然語言表達成自由詞,到機檢資料庫中進行檢索,如果檢出結果較多,可限定檢索欄位,如題名、關鍵字欄位等與文獻論述的主要內容密切相關的欄位。瀏覽檢索結果,查看密切相關文獻的主題標引情況,獲取該概念及相關概念的主題詞表達形式(單個主題詞、主題詞與副主題詞組配、多個主題詞的組合等)。
關鍵字
關鍵字檢索時要全面考慮和使用關鍵字的不同拼寫形式和同義詞,注意帶連字元的詞的檢索,“NEAR”等位置算符的使用、限定欄位檢索時欄位的選擇等。獲取關鍵字的不同拼寫形式和同義詞,可瀏覽其自身的檢索結果,可檢索其縮寫。此外在CBMdisc所有欄位中檢索已知英文詞,查看結果中TI欄位與TT欄位的對照及文摘欄位可獲取不同形式的中文關鍵字,反之在TI欄位檢索中文詞,通過TI欄位與TT欄位的對照可能獲取檢索概念的不同英文表達形式。
分類號
分類檢索專指性低,通常文獻的篩選量較大,機檢中一般不單獨使用,可與關鍵字等配合使用。課題檢索中一個檢索概念可能涉及多個類目,需注意相關類目的選擇。
客戶伺服器模式
客戶伺服器模式(Client–server model)簡稱C/S結構,是一種網路架構,它把
客戶端(Client) 與伺服器 (Server) 區分開來。每一個客戶端軟體的實例都可以向一個伺服器或應用程式伺服器發出請求。
客戶伺服器模式通過不同的途徑套用於很多不同類型的應用程式,最常見就是目前在
網際網路上用的網頁。例如,當你在維基百科閱讀文章時,你的電腦和網頁瀏覽器就被當做一個客戶端,同時,組成維基百科的電腦、資料庫和應用程式就被當做伺服器。當你的網頁瀏覽器向維基百科請求一個指定的文章時,維基百科伺服器從維基百科的資料庫中找出所有該文章需要的信息,結合成一個網頁,再傳送回你的瀏覽器。
C/S模式是一個邏輯概念,而不是指計算機設備。在C/S模式中,請求一方為客戶,回響請求一方稱為伺服器,如果一個伺服器在回響客戶請求時不能單獨完成任務,還可能向其他伺服器發出請求,這時,發出請求的伺服器就成為另一個伺服器的客戶。從雙方建立聯繫的方式來看,主動啟動通信的套用叫客戶,被動等待通信的套用叫伺服器。