面向統計機器翻譯的同步短語樹結構歸約機制研究

面向統計機器翻譯的同步短語樹結構歸約機制研究

《面向統計機器翻譯的同步短語樹結構歸約機制研究》是依託蘇州大學,由段湘煜擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向統計機器翻譯的同步短語樹結構歸約機制研究
  • 項目類別:面上項目
  • 項目負責人:段湘煜
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

同步結構在統計機器翻譯中起關鍵作用。目前的統計機器翻譯系統獲得同步結構通常需要兩個階段:首先從平行語料中獲得詞對齊信息,然後採用一些啟發式規則獲得可能的同步結構。這種相互獨立的分階段模式和啟發式方法缺乏統計理論依據,造成翻譯系統訓練過程和解碼過程的不一致性。本項目以同步短語樹結構的歸約機制研究為切入點,基於貝葉斯理論,探索翻譯系統的統一建模,由模型直接推導出同步短語樹。在建模方面,本項目提出同步成分上下文模型,並為該模型加以兩種稀疏先驗分布假設,使模型傾向於通用性強的同步短語;在對模型各項後驗機率的推導方面,本項目提出兩種貝葉斯推導方法: 漸進式推導方法和基於局部抽樣的推導方法,以克服規約中所面臨的計算瓶頸問題。總的說來,本項目提出的同步結構規約機制可以簡化當前統計機器翻譯系統的基本架構,提供紮實的統計理論依據和高效算法,並為統計機器翻譯系統提供高質量的同步短語。

結題摘要

結構對齊是統計機器翻譯中的重要環節,傳統的結構對齊分為若干割裂的步驟,由最初步驟得到詞對齊後再啟發式地獲得結構對齊,從而導致各步驟在統計理論上不統一。本課題提出同步短語樹結構規約,以一個統一的統計模型一步獲得結構對齊,從而克服傳統方法中的各個割裂的步驟。課題開展四年來,主要從如下幾個方面開展研究:(1)探索適合於短語樹結構規約的機率模型,以用於機器翻譯系統之中;(2)提出同步短語樹結構規約模型,完成雙語同步成分上下文模型的改進模型,以克服過度生成問題和數據稀疏問題;(3)完成對不同先驗機率的套用,以及各機率模型的抽樣推導方法,以克服規約中所面臨的計算瓶頸問題。(4)綜合驗證以上各個模型、各種推導方法所獲得的同步短語樹結構規約結果,分析其對機器翻譯結果的不同影響。研究結果顯示本課題提出的結構規約方法在單語和雙語上均相比傳統方法和相關研究取得了顯著提升,在對齊錯誤率和最終翻譯質量上均優於傳統的基於各個割裂步驟的結構對齊方法。

相關詞條

熱門詞條

聯絡我們