基於圖的統計機器翻譯方法研究

《基於圖的統計機器翻譯方法研究》是依託北京航空航天大學,由巢文涵擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於圖的統計機器翻譯方法研究
  • 依託單位:北京航空航天大學
  • 項目負責人:巢文涵
  • 項目類別:青年科學基金項目
  • 批准號:61003111
  • 申請代碼:F0211
  • 負責人職稱:講師
  • 研究期限:2011-01-01 至 2011-12-31
  • 支持經費:7(萬元)
項目摘要
在統計機器翻譯中,除了語料庫的規模之外,如何充分利用語料庫至關重要。典型的機器翻譯方法,其基本假設是:語料庫中的句對都是高質量的翻譯對,且句對之間互相獨立,該假設過於嚴格。因此,本課題將針對此問題進行深入研究,試圖放鬆該假設的強約束,基本思路是:基於圖構造語料庫中句對或者句子之間的內部聯繫,利用形成的拓撲結構,研究如何提高翻譯模型的質量和解碼的質量。具體包括:1、基於圖的語料庫質量評價模型和最佳化方法研究,力求使得高質量的句對在訓練翻譯模型時獲得更大的比重,以提高翻譯模型的質量;2、基於圖的語料庫選擇方法研究,確保獲得語料庫的完備集合,保證翻譯質量的同時,耗費最少的計算或人工翻譯等資源;3、基於圖的解碼方法研究,利用語料庫的內部結構來指導解碼的完成,提高翻譯的質量。本課題將闡明語料庫的拓撲結構對機器翻譯的影響機制,給出基於圖的語料庫最佳化和選擇算法以及解碼算法,形成基於圖的統計機器翻譯框架。

相關詞條

熱門詞條

聯絡我們