跨語檢索

跨語檢索,或稱“跨語資訊檢索”(Cross-Language Information Retrieval,CLIR),其定義採用 Oard, D. W.在1997年發表的文章《Cross-Language Information Retrieval Defined》。跨語檢索意指使用者使用某種自然語言的檢索辭彙檢索由另一種語言表達的檔案。

舉例來說,使用者使用(自己熟悉的)中文產生一組檢索辭彙進行檢索,而其檢索結果皆以(使用者完全不懂或不熟悉)的日文,所撰寫的檔案。

基本介紹

  • 中文名:跨語檢索
  • 外文名:Cross-Language Information Retrieval
  • 定義:Oard, D. W.
  • 要求:允許用戶以他們熟悉的語言
起源與發展,特徵,使用技術,參見,

起源與發展

1969年,Salton,G.發表《Automatic processing of foreign language documents》文章。Salton 以智慧型文本信息檢索系統當作實驗對象,智慧型檢索系統背後有多國語言語料庫的支援,藉由該系統,Salton 使用英文為主要檢索辭彙的語言,檢索德文的檔案和資料,反之亦然。實驗結果發現,採用全自動檔案處理方法(fully automatic text processing methods)的 SMART 檔案檢索系統可以用相對簡單而有效率的方式,進行文獻索引分類搜尋,和檢索等工作。這也是文獻中,第一次提到跨語檢索概念的文章,不過這篇文章尚未正式使用跨語檢索或跨語資訊檢索一詞。
1992年,美國國家標準和科技機構 (National Institute of Standards and Technology, 簡稱 NIST)和美國情報局先進研發活動 (Advanced Research and Development Activity center of the U.S. Department of Defense, 簡稱 DARDA ] 合作舉辦“文字檢索會議”(The Text REtrieval Conference, TREC),一開始是附屬於 TIPSTER Text program底下的計畫,從1992年之後,每年都會舉辦一次TREC會議。TREC 會議成立目的是輔導與支援資訊檢索相關研究,提供標準測試集協助研究者進行測試等。
1996年,美國計算機協會(Association of Computing Machinery,ACM)在瑞士所舉辦的SIGIR-96會議中,首次出現以跨語檢索為研究主題的研討會,與跨語檢索相關的討論,可在這本會議論文集 《Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval》找到。
1998年,召開第一次 NII Test Collection for IR Systems program 會議(NTCIR)。NTCIR會議主要是由日本學術振興會(JSPS)、日本國家科學資訊系統中心(NACSIS),以及日本國立情報學研究所(NII) 共同合作舉辦。其目的是希望,在資訊檢索與自然語言檢索的研究領域中,能發展出以日文為主的標準測試集。至今,已發展出NTCIR1~6的檔案集
2000年,歐盟成立“跨語言資訊檢索論壇”(Cross Language Evaluation Forum,CLEF) ,每年定期舉辦跨語檢索研討會,並且推動跨語檢索技術評比。目前有文字資訊檢索評比,或稱文本信息檢索(text retrieval)評比和跨語圖片資訊檢索評比,或稱跨語圖像檢索(Cross-Language Image Retrieval] )項目,除了跨語檢索技術評比之外,尚包括發展以歐洲語係為主的單語資訊檢索系統(monolingual information retrieval system)的基礎建設,包含測試 (testing)和評鑑(evaluating)等工作,該組織也包含在歐盟的數點陣圖書館(digital library)計畫中。

相關詞條

熱門詞條

聯絡我們