基於主題模型的樞軸語言統計機器翻譯研究

《基於主題模型的樞軸語言統計機器翻譯研究》是依託廈門大學,由蘇勁松擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於主題模型的樞軸語言統計機器翻譯研究
  • 項目類別:青年科學基金項目
  • 項目負責人:蘇勁松
  • 依託單位:廈門大學
項目摘要,結題摘要,

項目摘要

樞軸語言方法能夠克服統計機器翻譯缺乏雙語語料的困境,成為近年來機器翻譯研究和產業化的熱點之一。然而,由於語言的多樣性和稀疏性,目前的樞軸語言建模方法無法充分利用樞軸語言翻譯單元的上下文信息,對最終模型產生負面影響。對此,本項目提出引入主題模型來建立上下文相關的樞軸語言統計機器翻譯。項目主要工作包括:① 研究基於主題模型的上下文表示方法,克服傳統方法存在的缺陷,滿足樞軸語言統計機器翻譯建模的需求;② 在基於主題模型的上下文表現形式下,研究引入樞軸語言上下文的詞語對齊建模新方法;③ 在基於主題模型的上下文表現形式下,研究引入樞軸語言上下文的翻譯模型建模新方法。項目充分發揮了主題模型的優勢,推動樞軸語言統計機器翻譯由上下文無關建模發展為上下文相關建模。項目的開展將為如何更好地利用樞軸語言方法來解決訓練資源缺乏問題提供一種新思路,對於資源貧乏語言的機器翻譯具有重要意義。

結題摘要

樞軸語言方法能夠克服統計機器翻譯缺乏雙語語料的困境,成為近年來機器翻譯研究和產業化的熱點之一。然而,由於語言的多樣性和稀疏性,目前的樞軸語言建模方法無法充分利用樞軸語言翻譯單元的上下文信息,對最終模型產生負面影響。對此,本項目提出引入主題模型來改善樞軸語言統計機器翻譯。在項目實施過程中,課題組主要開展了以下研究工作:(1)引入基於主題複述知識的統計機器翻譯模型研究:研究如何引入基於主題模型的篇章上下文信息來改善基於平行語料的複述知識獲取質量;(2)基於主題觸發的統計機器翻譯模型研究:研究如何引入基於主題模型的篇章上下文信息來改善統計機器翻譯模型建模效果;(3)主題敏感的樞軸語言統計機器翻譯模型研究:研究如何引入基於主題模型的篇章上下文信息對改善樞軸語言統計機器翻譯建模效果;(4)面向統計機器翻譯的上下文感知主題模型研究:研究如何利用主題模型來建模雙語平行句對的生成過程,使得不同層次上下文信息對譯文選擇的影響能夠聯合建模;項目充分發揮了主題模型的優勢,推動統計機器翻譯,特別是樞軸語言統計機器翻譯由上下文無關建模發展為上下文相關建模。項目的開展對於統計機器翻譯研究具有重要理論意義與實際意義。

相關詞條

熱門詞條

聯絡我們