互譯語言形態非對稱的統計機器翻譯模型構造方法研究

互譯語言形態非對稱的統計機器翻譯模型構造方法研究

《互譯語言形態非對稱的統計機器翻譯模型構造方法研究》是依託中國科學院合肥物質科學研究院,由李淼擔任項目負責人的面上項目。

基本介紹

  • 中文名:互譯語言形態非對稱的統計機器翻譯模型構造方法研究
  • 項目類別:面上項目
  • 項目負責人:李淼
  • 依託單位:中國科學院合肥物質科學研究院
項目摘要,結題摘要,

項目摘要

在統計機器翻譯過程中,由於互譯語言(源語言與目標語言)形態結構不對稱,極易造成譯文錯誤。2005年以來,將語言學形態知識套用於統計機器翻譯的方法引起了國內外學者的廣泛關注,並圍繞英語/捷克語、英語/土耳其語等形態非對稱語言的機器翻譯開展了研究。我國少數民族語言大多屬於形態豐富語言(屈折語、黏著語),而漢語屬非形態語言(孤立語)。在漢/民機器翻譯中,由於語言形態結構不對稱,經常導致譯文在語法、語義、語用等層面出現錯誤。本項目針對上述問題,擬開展以下研究:1、多層級的形態分析方法;2、形態信息與統計模型融合策略;3、融合形態信息機器翻譯解碼算法;並以語言形態差異較大的漢/蒙統計機器翻譯為例,開展相關實驗。.通過上述研究,探索套用形態學知識構建統計模型的機制;為形態豐富的屈折語和黏著語的形態處理提出有效的解決方案;為互譯語言形態非對稱的統計機器翻譯模型構造理論方法提供新思路和依據。

結題摘要

在統計機器翻譯系統中,由於互譯語言形態結構不對稱,極易造成譯文錯誤。我國少數民族語言大多屬於形態豐富語言(屈折語、黏著語),而漢語屬非形態語言(孤立語)。在漢/民機器翻譯中,由於語言形態結構不對稱,經常導致譯文在語法、語義、語用等層面出現錯誤。針對上述問題,在本項目中我們研究了多層級的形態分析方法,為形態豐富的屈折語和黏著語的形態處理提出了有效的解決方案;重點突破了套用形態學知識構建統計模型(尤其是調序模型)的機制,為互譯語言形態非對稱的統計機器翻譯模型構造理論方法提供了新思路和依據;以語言形態差異較大的漢語和蒙古語為例,在機器翻譯系統中進行實驗驗證;探索了基於Web的漢蒙語言資源自動挖掘技術,為中文語言資源聯盟提供了一定的漢蒙平行語料。在2011年和2013年全國機器翻譯研討會(CWMT)的評測項目中,我們取得了良好的成績,驗證了本項目的研究成果。

相關詞條

熱門詞條

聯絡我們