統計機器翻譯領域自適應關鍵技術研究

《統計機器翻譯領域自適應關鍵技術研究》是依託哈爾濱工業大學,由曹海龍擔任項目負責人的面上項目。

基本介紹

  • 中文名:統計機器翻譯領域自適應關鍵技術研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:曹海龍
項目摘要,結題摘要,

項目摘要

如何提高統計機器翻譯系統的領域自適應能力,是一個具有重大實用價值的科學研究問題。本項目針對人類語言的領域多樣性和動態變化等特點,將從三個主要方面對機器翻譯領域自適應問題展開深入研究。第一,從機器翻譯的角度來研究句子聚類方法,把具有相同或相似翻譯規律的句子聚合在一起,把領域混雜的平行語料庫劃分為不同的領域,從而為領域自適應技術的實施提供便利條件。第二,研究一種基於短語格線的主題模型構建方法,能夠在文本的表示方法和粒度上都更適應於機器翻譯任務,使得翻譯系統具有更好的領域區分能力。第三,研究基於單語語料的詞語新譯法自動發現及譯文挖掘方法,能夠從實時更新的單語語料中源源不斷地獲取新的翻譯知識,使得翻譯系統具有應對語言動態變化的能力。綜上,本申請的研究目標是提高機器翻譯系統的領域自適應能力,更好推動機器翻譯走向實用化。

結題摘要

本項目緊密圍繞“提升翻譯系統的領域適應性” 這一核心計畫展開,主要研究內容包括翻譯詞典的自動獲取、句法知識的自動獲取、平行短語翻譯對的抽取。第一,如何從單語數據中自動地獲取翻譯詞典,是一個非常重要的科學問題。這一問題的解決,對於提升翻譯系統的領域適應性具有非常重要的意義。本項目對翻譯詞典的自動獲取這一問題進行了深入的研究和探索。項目組提出了基於分布的無監督翻譯詞典獲取方法、基於點集對齊的無指導翻譯詞典獲取方法、基於核典型相關分析的詞典獲取方法和基於雙語對抗自編碼器的無監督翻譯詞典獲取方法。這四種方法的4篇相關論文分別發表在國際重要會議和期刊上(COLING2016、IJCAI2018、IEEE/ACM Transactions),並多次被頂級會議的相關研究論文所引用和介紹。第二,句法分析對機器翻譯系統具有重要的支撐作用。樹庫資源的不足,是目前中文句法分析器研發麵臨的一個重要問題。這一問題的解決,對於提升翻譯系統的領域適應性具有非常重要的意義。本項目對這一問題進行了深入的研究和探索。項目組提出了一種從海量查詢日誌中挖掘句法依存關係的方法。實驗結果表明,我們的方法利用查詢日誌有效提升了中文句法分析模型的性能。我們將該方法發表在本領域的重要國際期刊TALLIP上。第三, 短語翻譯對的獲取對於提升翻譯系統的領域適應性具有非常重要的意義。項目組提出了一種基於平行語料訓練的篇章級可比語料平行短語對的抽取方法,並於2017年獲得中國國家知識產權局專利授權。綜上,本項目的研究成果對於機器翻譯系統的領域自適應和低資源機器翻譯系統的研究具有重要的支撐作用。

相關詞條

熱門詞條

聯絡我們