串到樹統計機器翻譯的若干關鍵技術研究

中文摘要

統計機器翻譯核心思想是給每個潛在的翻譯結果都賦予一定的機率，並選擇機率最大的翻譯作為最終的翻譯結果。統計機器翻譯的研究和系統開發已經成為自然語言處理乃至整個人工智慧領域的核心問題之一，已經被廣泛地套用在線上翻譯和受限領域的機器輔助翻譯中。串到樹統計機器翻譯是基於句法的統計機器翻譯研究的主流框架之一。本申請課題在深入分析目前基於句法統計機器翻譯模型研究工作存在的一些問題的基礎上，重點研究串到樹統計機器翻譯的一些關鍵問題和改進技術。主要研究內容包括：改善現有語言分析平台、弱指導的疊代式詞對齊、基於多句法分析器的翻譯規則抽取和融合、目標語樹結構評價、基於實例約束的解碼、篇章級翻譯一致性檢測等技術。最終集成這些關鍵技術，構建串到樹統計機器翻譯開放共享支撐平台。

結題摘要

理論上說，句法翻譯模型要比基於詞/短語的模型更有能力處理長距離依賴等翻譯核心問題，但在翻譯文法構建和解碼過程中遇到一些實際困難如：１、句法翻譯規則抽取過於依賴自動詞對齊結果，相對於短語翻譯規則抽取來說，句法翻譯規則抽取對錯誤詞對齊更加敏感；２、句法分析錯誤和不同語言之間的句法結構差異性也會造成很多有用規則無法得到有效抽取；３、源語句法結構對解碼搜尋空間過度限制，對解碼性能具有很大影響；４、模型訓練階段中規則抽取、規則打分、特徵權重最佳化等子階段由於採用不同目標最佳化函式，與翻譯模型最終目標最佳化函式（如BLEU）具有不一致性，造成潛在的訓練最佳化偏置現象；５、缺乏對句子結構及骨架結構有效的使用等。為了解決上述問題，本申請課題重點研究串到樹統計機器翻譯的一些關鍵問題和核心技術，提出了基於主動學習的數據獲取、基於異構樹庫的句法分析最佳化、基於結構對齊的翻譯規則抽取最佳化、基於Coarse-and-Fine的翻譯解碼泛化、篇章級翻譯一致性處理和基於集成學習的系統融合等。2011年7月發布了統計機器翻譯開源系統NiuTrans，目前已經被來自於50多個國家600多個研究機構或個人下載1600多次，免費用於機器翻譯研究工作。研究小組將研究成果在自然語言處理國際頂級會議ACL/Coling、ACM/IEEE Transactions和SCI檢索源國際雜誌上共發表十五篇學術論文，其中包括五篇IEEE/ACM Transactions國際雜誌長文、八篇ACL/Coling論文和兩篇SCI檢索源國際雜誌長文。項目執行期間項目負責人培養畢業了兩名博士生（肖桐、朱慕華）和七名碩士生，正在指導三名在讀博士生和六名在讀碩士生。項目期間研究小組（朱靖波、王會珍和肖桐）獲得了包括三項國家自然科學基金項目資助，利用研究成果和兩家國際知名企業包括日本索尼和香港CIIPS公司建立了語言分析和機器翻譯科研合作，取得了良好的經濟和社會效益。

串到樹統計機器翻譯的若干關鍵技術研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條