基於機率化SC文法的多策略機器翻譯研究

《基於機率化SC文法的多策略機器翻譯研究》是依託北京理工大學,由馮沖擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於機率化SC文法的多策略機器翻譯研究
  • 依託單位:北京理工大學
  • 項目負責人:馮沖
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

機器翻譯是一個多學科交叉的研究領域。目前,分別以理性主義和經驗主義思想為指導的規則機器翻譯(RBMT)和統計機器翻譯(SMT)各自都取得了長足進展,但也都存在著一些固有問題。本項目著眼於二者之長,以較成熟的RBMT引擎、大規模語料庫為依託,首先從對SC文法的機率化擴展入手,研究並提出SC文法的機率化擴展模型和對它的參數估計算法;然後,進一步研究如何通過基於樹到串模型的SMT方法來自動校正RBMT引擎的錯誤,特別是如何藉助於SC文法機率化擴展來實現SMT對譯文質量的綜合最佳化;接下來繼續深入研究,設計並分析不同的多策略機器翻譯模式,探索如何綜合運用統計翻譯或規則翻譯的處理技術來取得更為最佳化的譯文。本項目力圖通過嘗試對傳統理論的創新擴展和對不同方法的綜合運用,實現機器翻譯譯文質量的改進。同時,本項目的努力,對單獨使用規則或統計方法的研究,特別是如何迴避、克服的各方法的不足,也都將有所借鑑。

結題摘要

機器翻譯是一個多學科交叉的研究領域,分別以理性主義和經驗主義思想為指導的RBMT和SMT各自都取得了長足進展,但也都存在著一些固有問題。本項目著眼於二者之長,同時以較成熟的RBMT 引擎和大規模平行語料庫為依託,首先從對SC 文法的機率化擴展入手,研究探索了SC 文法的機率化擴展模型和對它的參數估計算法;然後,進一步針對機器翻譯中的長句翻譯難點問題,研究採用統計學習方法與規則方法的融合,來實現對譯文質量的綜合最佳化,提出了基於依存句法的規則匹配切分方法和基於條件隨機場(CRF)序列標註的切分方法,並繼續深入研究兩者的相互補充,共同完成對長句的切分;第三,針對串到樹句法翻譯模型並沒有利用任何語義信息的不足,嘗試在串到樹模型中引入語義角色信息,提出了兩種引入方式(在傳統的句法樹上添加角色標記,或先構建語義角色樹、再在謂詞-論元結構內部補充句法信息),使翻譯系統能夠訓練和選擇更好的翻譯規則, BLEU和NIST分值顯著提高;第四,採用多策略融合的原則研究了機器翻譯中的空語類問題和詞義消岐問題,將領域知識劃分為文本領域和詞義領域兩個層次,提出了一種基於領域知識的圖模型詞義消歧方法,挖掘領域知識來改善消歧性能,在Koeling數據集上,與已有同類研究相比,我們的方法取得了最佳的消歧效果。總之,本項目力圖通過嘗試對RBMT傳統理論的創新擴展和對SMT方法的綜合運用,實現機器翻譯譯文質量的改進。同時,本項目的努力,對單獨使用規則或統計方法的研究,特別是如何迴避、克服的各方法的不足,也都將有所借鑑。
check!

熱門詞條

聯絡我們