簡介,檢索詞,概述,檢索詞的選擇,檢索關係,語義查詢擴展,以概念或實體,以關係為中心,中醫語料檢索庫,建立中醫語料檢索庫的可行性,中醫語料的時間跨度,中醫語料檢索庫的結構,資料的分類標準,
簡介
檢索系統是根據對信息資源中不同對象和層次揭示上的需要,文獻目錄、索引、機讀資料庫、網路搜尋引擎等信息資源檢索工具構成的以不同檢索需要為目標的、形式多樣的、完備的系統。檢索庫是指為檢索需要而創建的資料庫。檢索庫一般是根據檢索關係(或檢索詞)而創建,例如在科技文獻語義檢索系統中:有的檢索庫以語義查詢擴展關係而創建的,有的檢索庫以概念或實體為中心而創建的;有的檢索庫以面向知識發現而創建,因此,不同檢索庫,所對應的檢索系統是不相同的。檢索庫應該具有高效性、靈活性、
可擴展性以及
開放性等特點。
檢索詞
概述
檢索詞,是指能表達檢索課題主題概念和信息需求的名詞術語、分類號、名稱及代碼等的總稱,包括主題詞、關鍵字、名稱、分類號、分子式、專利號及各種號碼等。它與檢索途徑相對應,是檢索途徑的具體化。如主題途徑的檢索標識就是主題詞,分類途徑的檢索標識是分類號,著者途徑的檢索標識是著者姓名,其他的則依此類推。
檢索詞的選擇
主題詞、關鍵字、分類號三種檢索標識在課題檢索中使用較多。一般說來,主題詞因其種種優點是檢索時的首選。若無主題詞途徑或無與檢索概念一致的主題詞,機檢可考慮單用自由詞(關鍵字)檢索或由上位詞與自由詞聯合檢索,或分類與自由詞聯合檢索;手檢可選其上位詞或分類途徑,從中篩選。
(一)主題詞
選擇主題詞應注意其歷史變化和相關主題詞,擴展下位主題詞,提高查全率,檢索一個主題的所有方面時組配“全部副主題詞(All Subheadings)”,有選擇地組配副主題詞時注意所選詞副主題的適用範圍。頭腦中有一個檢索概念,怎樣獲取恰當表達這個概念的主題詞是初學檢索者常遇到的難題。將檢索概念先用自然語言表達成自由詞,到機檢資料庫中進行檢索,如果檢出結果較多,可限定檢索欄位,如題名、關鍵字欄位等與文獻論述的主要內容密切相關的欄位。瀏覽檢索結果,查看密切相關文獻的主題標引情況,獲取該概念及相關概念的主題詞表達形式(單個主題詞、主題詞與副主題詞組配、多個主題詞的組合等)。
(二)關鍵字
關鍵字檢索時要全面考慮和使用關鍵字的不同拼寫形式和同義詞,注意帶連字元的詞的檢索,“NEAR”等位置算符的使用、限定欄位檢索時欄位的選擇等。獲取關鍵字的不同拼寫形式和同義詞,可瀏覽其自身的檢索結果,可檢索其縮寫。此外在CBMdisc所有欄位中檢索已知英文詞,查看結果中TI欄位與TT欄位的對照及文摘欄位可獲取不同形式的中文關鍵字,反之在TI欄位檢索中文詞,通過TI欄位與TT欄位的對照可能獲取檢索概念的不同英文表達形式。
(三)分類號
分類檢索專指性低,通常文獻的篩選量較大,機檢中一般不單獨使用,可與關鍵字等配合使用。課題檢索中一個檢索概念可能涉及多個類目,需注意相關類目的選擇。
檢索關係
語義查詢擴展
語義學(Semantics),是一個涉及到語言學、邏輯學、計算機科學、自然語言處理、認知科學、心理學等諸多領域的一個術語。雖然各個學科之間對語義學的研究有一定的共同性,但是具體的研究方法和內容大相逕庭。語義學的研究對象是自然語言的意義,這裡的自然語言可以是辭彙,句子,篇章等等不同級別的語言單位。但是各個領域裡對語言的意義的研究目的不同:語言學的語義學研究目的在於找出語義表達的規律性、內在解釋、不同語言在語義表達方面的個性以及共性;邏輯學的語義學是對一個邏輯系統的解釋,著眼點在於真值條件,不直接涉及自然語言;與計算機科學相關的語義學研究在於機器對自然語言的理解;認知科學對語義學的研究在於人腦對語言單位的意義的存儲及理解的模式。
語義查詢擴展的檢索系統在傳統關鍵字檢索基礎上,對檢索詞進行處理,利用受控詞表和本體對檢索詞進行擴展。例如,PubMed 支持基於 MeSH 的查詢擴展,也有利用 UMLS 的同義詞對 PubMed 查詢進行擴展,QuExT執行面向概念的查詢擴展,檢索結果根據用戶預先分配給概念類別的不同權重進行排序。GO2PUB用基因本體中術語之間的語義繼承對PubMed 查詢進行語義擴展,基因名稱、 符號和同義詞都作為額外的關鍵字提交給查詢處理器。
以概念或實體
客觀上存在且可區分的事物稱為實體。實體可以是人,也可以是物;可以指實際的對象,也可以指某些概念;可以指事物與事物間的聯繫。如學生是一個實體。概念是抽象的、普遍的想法,是充當指明實體、事件或關係的範疇或類的實體。以概念或實體為中心的檢索庫利用本體、主題詞表、敘詞表等對科技文獻進行語義標註,識別文獻中的知識,檢索過程通過匹配用戶查詢和語義標註結果執行,這使得檢索系統能夠利用標註信息查詢到更精確的結果。
以關係為中心
以關係為中心的檢索系統通過文本挖掘技術從科技文獻中發現概念或實體之間的關係能夠提供基於關係的檢索服務。Quertle是一個關係驅動的生物醫學文獻檢索工具,使用基於語義的自然語言處理方法從生物醫學文獻集中抽取主謂賓關係,發現生物醫學實體(如疾病、基因、藥物)之間的一般或特殊關係。用“咖啡因偏頭痛”作為搜尋詞,Quertle 會發現兩個檢索詞之間的關係如“咖啡因治療偏頭痛”,而不是通常搜尋 PubMed 所返回的同時包含“咖啡因”和“偏頭痛”兩個檢索詞的記錄。 CoPub是以共現關係為中心的檢索工具,利用文本挖掘技術檢測 PubMed 摘要中共現的生物醫學概念,如基因本體中的人類/鼠基因、生物過程、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在 CoPub 系統中檢索某個生物醫學概念,可以獲得與其共現的其他生物醫學概念以及共同出現的文摘。PolySearch 抽取人類疾病、基因、突變、藥物和代謝物之間的關係,利用各種文本挖掘和信息檢索技術對內容摘要、段落或句子進行識別和排序, 支持面向十幾個不同類型的文本、科學文摘或生物信息學資料庫的50多種查詢類型, 例如檢索“與乳腺癌有關的基因”。
中醫語料檢索庫
建立中醫語料檢索庫的可行性
中醫用語特點:中醫用語具有學術性語言的共性 : 用詞正式、句子結構嚴密、語篇銜接緊湊。 但也有自身的特點,中醫用語的特殊性主要表現在以下幾個方面。中醫用語目前較混雜。有古人之間,古、今人之間,今人與今人及中國人與外國人之間的不統一、不規範方面。 由於語言的差異,書面形式為主要學習途徑。一物多名現象大量存在。 一物多名指同一中醫術語 ( 指同一所指的一個或多個表達法 ) 在國內人之間與譯為英語時出現多個名稱或譯名的現象。 例如:頭,又稱首、腦袋、泥丸等:胸痹,又稱心痛、真心痛等。 李照國在《中醫翻譯導論》 一書中列舉了三部當時流行的中醫辭典中存在的一物多名詞項,認為名詞術語標準化是中醫英語翻譯的一個重大任務。 一物多名是異域事物進入目標語區時必然出現的一種客觀現象。 “優勝劣汰”這個自然法則也適用於譯名競爭固化的過程。 在語料標記時如何恰當標記一物多名的項目卻是一個需要慎重考慮的問題。
中醫術語的簡約化。中醫善用四字語、內涵豐富的短語,短小的語言形式中蘊含著豐富的具有文化色彩的信息。現代人在繼承傳統中醫中,發揚傳統中醫中,中醫術語的翻譯中,不可避免地在很大程度上就是對歷經數千年壓縮了的信息的漢語解壓縮和英語解壓縮過程,此時,用詞較多是信息再現時迫不得已而採用的手段。 然而,術語偏長卻給學術思想的交流,特別是口語性質的交際造成了負面影響。 隨著中醫教學的不斷完善,這種偏長術語隨著交際在語言學經濟原則的支配下必然向簡單化方向轉化,從而被納入規範化語言的行列。 也就是說,再次出現符合其語用規律的壓縮簡化過程,儘管需要比較長的時間。 至於以何種方式轉化,還有待於研究人員長期的觀察。
英語國家的中醫英語資料與中國國內的中醫英語資料存在重大分歧。這不僅存在於中醫名詞術語翻譯的不一致問題上,而且還存在於對中醫文獻意義的理解方面。 可以說,中西翻譯人員的作品各有優缺點。西方翻譯人員在名詞術語的英語處理方面(特別是信息壓縮方面)具有優勢,但中方的翻譯人員卻在資料語義理解方面發揮著“忠實”的作用。
中醫語料的時間跨度
中醫語料存在著兩種時間問題:原中醫資料出現的時間與翻譯的英語資料出現的時間。 一般英語語料庫都以英語資料的出現年代為標準。 在中醫英語發展的幾百年間,英語語言本身也發生了重大變化。探索當代中醫英語發展規律及翻譯規律的語料庫顯然應該使用當代英語資料。中醫原文資料的歷史已經有幾千年,但是大規模英文翻譯卻始於最近時期。為了確保資料收集中的完整與均衡,同時又照顧英語資料的時間問題,語料收集應先以原始中醫資料出現的時間為序,將其排列,歸類,後以某一時間為起點,以中醫原始資料為內容,按照英語譯文出現的時間順序依次收集對應的英語資料,從而形成英語翻譯資料入選準則。這些也從一定程度說明了漢語語料庫與英語語料庫在中醫學科中的關係與不可分割性。
中醫語料檢索庫的結構
中醫資料存在古今中外資料差異的特點以及各自的優點,說明中醫語料檢索庫的結構首先應該從中國國內的漢語資料、英語語料分界,其各占一定比例,以探求差異點及差異的規律性。 此外,為了對比分析具有統一的基礎,中西方資料應儘量做到一致,也就是說,同一中醫資料,在中西方各具備一份英語語料,此時從理論上講,中西語料應該在數量上相等、結構上相同。 然而,實際存在的語料能夠滿足這個要求的卻極其有限,因此,在無法達到完全一致的要求時,則要求語料題材基本一致,再無法滿足時,則求語料所涉及範圍基本一致。 例如,《黃帝內經》則容易收集到同樣的中西方譯文;而中醫基礎理論性教材卻可以求得內容基本一致的資料;學術性論文就只能從研究課題基本相同入手。 同一專著存在多種版本、譯本的情況也經常出現,此時則可按照權威性標準選取語料。 編、譯者的權威性是衡量語料來源是否可靠的重要標準。
資料的分類標準
所收集資料可以有多種分類標準。 可以分為翻譯資料與自撰資料; 母語為漢語作者的資料與母語為英語作者的資料,也可以分為:兒科、婦科、骨科等資料;專著、雜誌、報刊、演說、教材、廣告說明等性質資料,還可以分為:純學術性資料、較通俗性資料等等。 深入分析所獲資料,找出一種標準既能夠窮盡所有資料,又有利於語料庫中語料的保存、檢索、有利於對語料庫的開發利用是此點研究的基本目標。