跨語言檢索定義
跨語言信息檢索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的發表。 當時的研究主要針對國際
在線上檢索進行的,由於檢索系統不普及,因而人們對網路信息的需求並不強烈。跨語言信息檢索研究真正成為熱點,是在Internet迅猛
發展的90年代後期,在很大程度上,Internet的全球化信息結構引發了對跨語言信息檢索的迫切需要。這就促使越來越多的研究團體深入研究跨語言信息檢索問題,並研製開發跨語言信息檢索的不同方法。這一時期國際上先後有許多相關
論文發表,一些實驗性跨語言信息檢索技術相繼問世。
國內對於跨語言信息檢索的研究很少,所查找到的一些資料基本都在2001年以後。國際上,從跨語言信息檢索研究領域定期召開的一些會議,也反映了當今跨語言信息檢索的研究熱點和趨勢。這些重要會議分別是
文本檢索會議(TREC)、跨語言評價
論壇(CLEF)、日本國家科學信息系統中心信息檢索
系統測試集會議(NTCIR)、美國計算機協會信息檢索特殊興趣小組會議(ACM
SIGIR)。
其中TREC是由美國國家技術標準局組織召開的國際會議,其旨在促進大規模
文本檢索領域的研究,加速研究成果向商業套用的轉化,促進學術研究機構、商業團體和政府部門之間的交流與合作。TREC-6,7,8,9,10五次會議對於跨語言信息檢索問題給予了極大的關注,每次的側重點不同。TREC-6,7,8這三次會議主要對歐洲語言(英語、法語、德語以及義大利語)的跨語言檢索問題進行了研究;在TREC-9會議上,對中英文的跨語言檢索問題進行了研究;在TREC-10會議上,對於阿拉伯語和英語、法語之間的跨語言檢索問題進行了研究。
跨語言信息檢索需要解決如下幾個主要的問題:
(1)提問與文獻分屬不同語言。這是跨語言信息檢索的最主要特徵,由於提問與文獻分屬不同的語言,因此在兩者之間需要通過詞典等方式建立匹配的對應關係。
(2)詞的歧義和多義性。由於原始提問中有些詞義的不確定性,系統中需要藉助歧義性、多義性分析機制,將原始提問排歧後轉換成最終提問。
(3)提問中詞的切分。一些語言(如中文、日文、韓文等)由於詞與詞之間沒有明顯的分隔設定號,因此詞的切分問題成為此類語言的跨語言檢索研究要點之一。
(4)文獻的多語言性。在跨語言檢索系統中,由於原始文獻是用不同的語言書寫的,因此語種識別是檢索的基本工作,此類情況常出現在
自動標引的系統中。
(5)輸出結果的排序方式。檢索結果中,不同語種的文獻如何排序,如何對不同語種的文獻進行相關度的計算,也是跨語言資訊檢索系統必須研究的問題。
跨語言檢索原理
1 跨語言檢索的相關技術
跨語言信息檢索是指用戶以一種語言提問,檢出另一種語言或多種語言描述的相關信息。例如,輸入中文
檢索式,跨語言檢索系統會返回英文、日文等語言描述的信息。這裡的信息可以是
文本信息也可以是其他形式的信息,目前研究最多的是跨語言文本信息檢索和跨語言語音信息檢索。在跨語言檢索中,提問式所使用的語言通常稱為源語言,源語言一般是用戶的母語;被檢索文檔所使用的語言稱為目標語言,目標語言可以是用戶不熟悉甚至完全陌生的語言。與跨語言檢索相對應,提問式語言和文檔語言相同的檢索稱為單語言檢索(monolingual retrieval)。
網上信息跨語言檢索的過程是:
網路蜘蛛(Web spider)搜尋網路信息,在統計方法、
自動標引技術的支持下編制以語言為基礎的索引,伺服器接受以一種語言描述的提問式,並返回跨語言檢索的結果,這一結果是由不同語言描述的信息集合構成的。在跨語言檢索中主要涉及的技術有
計算機信息檢索技術和機器翻譯技術:計算機信息檢索技術完成提問式與文檔之間的匹配,機器翻譯技術完成不同語言之間的語義對等。
計算機信息檢索技術目前已趨於成熟。在單語言檢索中,
計算機檢索技術主要是自動搜尋技術、
自動標引技術和自動匹配技術。檢索系統利用
網路蜘蛛進行網路信息的收集,然後利用
自動標引技術對蒐集的信息進行標引形成索引資料庫。用戶輸入
檢索式後,計算機把檢索式與資料庫中索引項進行匹配,按檢索式與標引項相關性大小降序輸出檢索結果。跨語言檢索中實現信息檢索的原理和方法與單語言檢索是相同的,只是在檢索的過程中加入語言處理技術,使一種語言能夠與其它語言對應。
1.2 機器翻譯技術
機器翻譯技術實質上是一種能夠將一種語言的文本自動翻譯成另一語言文本的電腦程式。機器翻譯技術的核心是保持兩種文本(源語言文本和目標語言文本)的語義對等,由於在翻譯過程中,源語言文本中的詞往往對應目標語言描述的幾個詞,所以要選擇最合適的詞或其他的處理以達到含義的一致。由於這涉及到複雜的計算機
語義分析技術,因此機器翻譯的效果還遠未達到人們所期望的水平。在跨語言檢索中,需要利用自然語言處理與機器翻譯相結合的技術提高翻譯的準確性,因為在跨語言檢索中,翻譯的準確性直接決定了檢索的準確性。
計算機信息檢索技術和機器翻譯技術是跨語言檢索中所利用的主要技術,由於
計算機檢索技術已比較成熟,而機器翻譯技術的實用性還有待
發展和完善,因此跨語言檢索所要解決的問題實際上是一個語言處理問題。跨語言檢索不同於單語言信息檢索和機器翻譯,也不是兩種技術的簡單疊加,它是一種有機的融合,有著自身的特點和專門的研究內容。
2 跨語言檢索的實現方法
目前跨語言檢索的主要實現方法有:提問式翻譯、文獻翻譯、提問式—文獻翻譯、中間翻譯和非翻譯。
2.1 提問式翻譯方法(query translation)
提問式翻譯的過程是把源語言的提問式利用機器翻譯技術翻譯成目標語言提問式,再進行單語言檢索。利用提問式翻譯的方法進行跨語言檢索的實質是把源語言提問式做了適當轉換,其基本的過程和技術還是單語言檢索,而且檢索返回的結果是用目標語言描述的,這增加了用戶利用信息的難度。當一個源語言提問詞有多個目標語言詞與其應時,通常選擇第一種或全部的釋義作為提問式的譯法。選擇第一種譯法自然存在一定的不合理性,選擇全部的譯法又大大降低了檢索的查準率。針對這一問題,Pirkola等人提出了提問式構造法(query structuring)[4],認為主要有三種構造提問式的方法:基於同源詞的構造法(syn-based structuring)、基於複合詞的構造法(compound-based)、n元匹配法(n-Gram matching)。提問式
構造方法的實質是利用同源詞、複合詞或n元匹配分析提問式中各個詞的權重:只有一種或兩種釋義的詞的權重最高,而有多種解釋的詞用同源詞符、複合詞符或n元匹配符連線以降低其權重。Pirkola等人通過對三種方法實驗,驗證了使用提問式構造法會提高跨語言檢索的檢索性能。
2.2 文獻翻譯方法(document translation)
文獻翻譯方法不對提問式進行翻譯,而是把資料庫中用目標語言描述的文獻翻譯成與提問描述相一致的源語言形式,再通過提問式與
信息庫的匹配,完成檢索過程。運用文獻翻譯方法進行跨語言檢索,返回給用戶的結果是用源語言描述的,用戶能夠方便地選擇利用。文獻層次的翻譯相比於提問層次的翻譯,其語境更加寬泛,進行歧義性分析所能利用的線索比較多。但是這種方法所使用的
文本自動翻譯技術的正確率目前還難以達到實用水平,而且將資料庫中全部文獻從目標語言翻譯到源語言的工作量也是巨大的。文獻翻譯方法只有在翻譯內容有限的情況下才有意義,如對已確定要瀏覽的某個網頁進行翻譯。目前採用這種方法的實驗系統尚未見報導。
2.3 提問式-文獻翻譯方法(query-document translation)
在這一方法中,源語言提問式翻譯成目標語言提問式,與目標語言描述的
信息庫進行匹配,檢出相關信息,然後再把檢索結果的全部或部分翻譯成源語言描述的信息。檢索結果的翻譯一般選擇部分翻譯,因為跟全部翻譯相比,部分翻譯的工作量較少,容易提高翻譯的效率和質量。部分翻譯一般是對結果文本的前兩行、文摘、或文本中重要的詞進行翻譯。在重要詞的翻譯中,如何找出確定重要詞是決定這種方法效果的關鍵。目前的研究主要是根據詞頻並結合禁用詞表和功能詞表來決定詞的重要性。利用提問式-文獻翻譯方法進行檢索,返回給用戶的結果是用用戶所熟悉的源語言描述的,用戶能夠容易地選擇利用檢索出的信息,減少了用戶的翻譯成本,提高了
檢索服務的質量。
2.4 中間翻譯方法(triangulated translation)
在跨語言檢索中,解決語言障礙的基本方法是兩種語言之間的翻譯,然而所有的翻譯方法都離不開機器翻譯、雙語詞典、語料庫等作為翻譯的語言基礎。但是,在跨語言檢索中可能會碰到這樣的情形:兩種語言直接翻譯的語言資源不存在,例如在TREC中很難找到德語和義大利語之間直接對等的語言資源。為此研究人員提出了一種利用
中間語言或中樞語言進行翻譯的方法:將源語言翻譯成中間語言(可以是一種或多種),然後再將中間語言翻譯成目標語言(利用多種中間語言時需要合併)。假定在德語和英語之間不存在直接的翻譯,而是通過西班牙語和荷蘭語兩種語言作為
中間語言進行翻譯。如果被翻譯的源語是德語單詞“fisch”,翻譯成西班牙語為“pez,pescado”,翻譯成荷蘭語為“vis”;西班牙語“pez,pescado”翻譯成英語為“pitch fish,far,food fish”,荷蘭語“vis”翻譯成英語為“pisces the fishs,pisces,fish”,比較合併這兩種翻譯結果便可選擇“fish”’作為德語單詞“fisch”的英語譯文。
2.5 非翻譯方法(no translation)
Deerwester等人1990年在單語言檢索研究中提出了潛在語義標引法(Latent Semantic Indexing-KSI)[5],Dumais等人進一步把這種方法引入到跨語言檢索中[6],他們將英語辭彙、法語辭彙、英法雙語檔案映射到一個向量空間中,儘管這些術語是不同語言描述的,但是可進行語義上的比較匹配,而無需翻譯轉換。Berry等人在希臘文一英文[7]、Oard在西班牙文一英文等不同語言配對上進行了實驗[8],驗證了這種方法具有一定的有效性。
3 跨語言檢索的研究重點
跨語言檢索技術的研究最早可追溯到1973年G.Salton《Experiments in multi-lingual information retrieval》一文的發表,但當時的研究主要是針對國際在線上檢索進行的,人們對網路信息的需求並不強烈,跨語言檢索研究真正活躍並取得成果是Internet飛速
發展的20世紀90年代後期,國際上先後有許多研究
論文發表,一些實驗性跨語言檢索技術和系統相繼問世。當前跨語言檢索的研究重點主要集中在語言資源、翻譯歧義性消解等幾個方面。
3.1 翻譯所需語言資源的研究
在跨語言檢索中,主要解決的問題是語言障礙,因此,兩種或多種語言之間的翻譯對於跨語言檢索的性能有著重要的影響。而翻譯必須以一定的語言資源作為基礎,在跨語言檢索中,常用的語言資源有手工編制雙語詞典(manually generated bilingual dictionary)、機器可讀詞典(machine-readable dictionary)、機器翻譯(machine translation)、語料庫(corpus)等。
手工詞典是翻譯人員進行翻譯必備的工具,具有準確、全面的優點,但在跨語言檢索中難以實現計算機的自動識別處理。
機讀詞典是把手工詞典以機器可讀的編碼形式進行組織,便於實現兩種語言在辭彙層次上的對譯,但沒有人工參與的機讀詞典對翻譯的歧義性問題難以解決。
機器翻譯能夠在語句層次實現兩種語言的翻譯,但目前這種技術還不成熟,基本停留在語言表層的句法層次(syntactic),其語義翻譯(semantic)水平還遠未達到實用的程度。
語料庫是將同一信息或同一主題的信息用兩種或多種語言進行描述,並由人工或機器建立不同語言間的聯繫,在跨語言檢索的翻譯中可以
參考這些聯繫信息進行提問或文檔的翻譯。語料庫根據不同語言間對應層次的不同,可分為辭彙聯結(word alignment)、句子聯結(sentence alignment)、文獻聯結(document alignment)和非聯結(no alignment)幾種。語料庫中聯結的準確性對翻譯的質量至關重要,因此辭彙聯結是最實用有效的語料庫。語料庫可以分為平行語料庫(parallel corpus)和比較語料庫(comparable corpus):平行語料庫是指同一信息用不同的語言進行描述,比較語料庫是指同一主題的信息用不同的語言進行描述。後者的定義較前者寬鬆,因此理論上較容易取得大量的檔案。基於語料庫的跨語言檢索是近些年研究的熱點。
語料庫,尤其是平行語料庫的套用,不僅改善了詞翻譯的不確定性,而且對於專有名詞的翻譯有著重要的意義,因為在平行語料庫中,詞與詞(包括詞與短語和短語與詞)之間的對應是唯一的,很多在手工詞典和機讀詞典中不能獲取的詞都可以在平行語料庫中得到。
各種語言資源在跨語言檢索中的使用不是孤立的,同時使用兩種或多種語言資源會達到更好的效果。
3.2 翻譯歧義性(translation ambigous)的研究
在跨語言檢索的翻譯中最難解決的問題是翻譯的歧義性,也就是說,對於一個單詞,其譯文可能有兩種甚至是多種,出現二義性或多義性。因而,翻譯歧義性問題成為跨語言檢索研究的關鍵問題。
解決語言歧義性的自動處理方法分為兩大類。一類是在一定程度上模仿人類解決歧義性的方法,在處理過程中結合人工構造的語法學、詞法學、句法學、語義學等方面的知識,力求給出文本非歧義的解析表達。但是機器要在這種全文本層次上實現正確有效的分析是相當困難的,其性能水平無法與高昂的語言分析成本相對應,因此,這類方法大都局限在語言的特定子集或較小的論域中。有鑒於此,許多研究者更關注較實用的方法,力圖以較低的成本達到較合理的性能水平。這類方法的重點主要放在辭彙和短語等較低語言層次的歧義消解上,所依賴的工具主要是一些機讀化的語言資源,如詞典、主題詞表、語料庫等,而詞典和語料庫是目前消歧方法中套用較多的兩種。
3.2.1 詞典方法
這種方法分析語言中的辭彙信息及其結構,以識別確定各個單詞間細緻的關係。
Lesk利用詞交迭(overlap)方法推測單詞在給定語境中正確的含義以實現辭彙消歧[9]。該方法將歧義詞的每個含義同與其共現(co-occurrence)詞的定義進行比較,與共現詞定義有最大交迭的那個含義選為歧義詞的正確含義。
Krovetz試圖間接地通過詞根還原技術(Stemming)解決歧義性問題[10]。詞根還原是一種融合(匯聚、)相同概念詞的技術,Krovetz的詞法還原器Stemer根據詞義對詞進行匯聚,被匯聚的詞不一定具有相同的詞根。這種還原器充分利用了各種詞法信息:不規則詞法可用來識別詞義,如antennae是與昆蟲相聯繫的antenna(觸鬚)的複數,而不是與電子設備相關的天線(其複數為antennas);後綴只附著於特定詞類的詞根上,因此這類信息能用於區分同形異義詞。試驗表明,這種詞根還原器能夠顯著改進消歧的效果,尤其是對於
文本較短的情況。
3.2.2 語料庫方法
Brown等人利用平行語料庫在法譯英翻譯中進行單詞的消歧[11]。為消除法語單詞f在英語釋義中的歧義性,一個與f相聯的英語單詞集合Ef被分隔成兩部分,被稱為f信息提供者(informant)的共現詞集合If也進行類似的分隔。算法對Ef和If分別進行劃分以使英語和法語劃分之間的互動信息最大。英語劃分結果定義了f兩個劃分的翻譯等價物,每個法語劃分映射到兩個英語劃分之一上,而該英語劃分中的成員則作為信息提供者來識別f的釋義。
Smadja等人開發了Champollion系統[12],套用語料庫消除固定搭配短語的歧義性。在翻譯中固定搭配短語不能逐字翻譯,Champollion將短語視為一個相鄰單詞或含有任意數量單詞的序列,以建立在句子層次上的平行語料庫為基礎進行短語的翻譯。對於一給定源語言短語,Champollion使用
Dice係數識別與其高度相關的目標語言辭彙,這些辭彙再通過系統化的疊代方法處理而生成源語言短語的譯文。在這種疊代方法中,首先處理目標語言辭彙的每個詞對,選出與源語言短語高度相關的詞對進入下一個步驟;通過向這些詞對加入相關的單詞生成高度相關的三元詞組並進入下一個步驟;這種處理反覆執行直到不再發現高度相關的詞組合。最終目標短語的詞序參照語料庫中的例子確定。
跨語言檢索作用
CLIR是這樣一類技術,它允許用戶以他們熟悉的語言構造檢索提問式,然後使用該提問式檢索以系統支持的任一種語言寫成的文獻。它可用於回溯檢索、定題服務系統以及自適應過濾系統中。跨語言檢索對於能夠閱讀多種語言的用戶,特別是不能有效地用非母語表達其信息需求的用戶,具有十分重要的價值。對於只能閱讀一種語言的用戶,
CLIR系統也可能很有用。有的
CLIR系統能夠對檢索出的文獻進行翻譯。雖然系統顯示給用戶的結果可能只是一種粗略的翻譯,但也足以向用戶提供文章的要點以及幫助用戶作出相關性判斷。此外,即使
CLIR系統不對文獻進行翻譯,用戶也可能通過使用該系統找到若干篇
參考文獻中包含了以該用戶的母語寫成的文章的
論文,這無疑會為該用戶提供很有價值的線索。總之,最重要的是
CLIR系統能夠檢索出多種語言的相關文獻資源,以及能夠指導用戶作出收集與否的判斷。
但是,基於受控詞表的
CLIR系統存在以下缺陷:(1)必須使用受控詞標引文獻,通常由人工完成,成本很高,從而限制了系統的規模;(2)受控詞表更新速度較慢,往往不能及時反映新出現的主題和術語;(3)非專家用戶往往不熟悉多語種敘詞表的用法(此缺陷部分是由早期的用戶界面友好性差造成的。解決的辦法之一是將敘詞表導航功能嵌入
檢索引擎中,MIT的Richard Marcus對這種方法進行了研究)。這些問題激勵著有關研究人員研究開發其它的
CLIR方法。
跨語言檢索用例
CLIR研究始於使用受控詞表的試驗,
發展到今天,面向自由文本的方法成為主流技術。自由
文本方法按照使用的翻譯資源可分為:基於機讀詞典、機器翻譯系統、本體或者基於語料庫的方法。任何方法所採用的跨語言匹配策略都離不開以下四種:同源匹配、提問式翻譯、文獻翻譯或者將提問式和文獻都翻譯為同一種獨立於語言的表示的語間轉換技術。
值得一提的是,為了改進
CLIR方法和系統,近年來舉行了多次有關CLIR的評價會議,其中較大型的兩個會議是TREC(
文本檢索會議)和CLEF(跨語言評價
論壇)。TREC中
CLIR任務的主要目標是:(1)為測試跨語言檢索技術創建基礎結構,通過創建一個大規模的多語種測試集以及一個通用的評價體系;(2)調查某個多語種語境中的有效的評價程式;(3)提供一個交流研究觀點的
論壇。CLEF始於2000年,它將重點放在了歐洲語言的
CLIR上,而TREC更為偏重亞洲語言的跨語言檢索問題。此外,還有十多次關於跨語言檢索專題的評價會議或研討會,Oard對它們做了較為全面的羅列。有關的評價結果和會議
論文都可以從這些會議的網站上獲得。