基於圖的統計機器翻譯方法研究

項目摘要

在統計機器翻譯中，除了語料庫的規模之外，如何充分利用語料庫至關重要。典型的機器翻譯方法，其基本假設是：語料庫中的句對都是高質量的翻譯對，且句對之間互相獨立，該假設過於嚴格。因此，本課題將針對此問題進行深入研究，試圖放鬆該假設的強約束，基本思路是：基於圖構造語料庫中句對或者句子之間的內部聯繫，利用形成的拓撲結構，研究如何提高翻譯模型的質量和解碼的質量。具體包括：1、基於圖的語料庫質量評價模型和最佳化方法研究，力求使得高質量的句對在訓練翻譯模型時獲得更大的比重，以提高翻譯模型的質量；2、基於圖的語料庫選擇方法研究，確保獲得語料庫的完備集合，保證翻譯質量的同時，耗費最少的計算或人工翻譯等資源；3、基於圖的解碼方法研究，利用語料庫的內部結構來指導解碼的完成，提高翻譯的質量。本課題將闡明語料庫的拓撲結構對機器翻譯的影響機制，給出基於圖的語料庫最佳化和選擇算法以及解碼算法，形成基於圖的統計機器翻譯框架。

基於圖的統計機器翻譯方法研究

基本介紹

相關詞條

熱門詞條