利用機器學習改進統計機器翻譯的研究

項目摘要

目前，主流的統計機器翻譯方法面臨以下挑戰：翻譯模型難以表示和容納更豐富的與翻譯過程密切相關的知識，訓練算法從真實文本中獲取的翻譯規則數量巨大且質量良莠不齊，以及解碼算法難以在龐大的搜尋空間中高效準確地定位最優候選譯文。作為一個新興研究領域，統計機器翻譯邊緣性和交叉性的特點決定了它需要從其它學科借鑑新的成功理論來獲得進一步的發展空間。我們認為機器學習能夠為統計機器翻譯提供幫助，因為兩者之間存在緊密的聯繫。從機器學習的角度來看，統計機器翻譯是一個結構化預測的問題。本項目希望在統計機器翻譯和機器學習之間找到恰當的結合點，利用機器學習最新的研究成果（圖模型、結構化半監督學習和近似推斷）來為統計機器翻譯當前所面臨的挑戰提供解決方案，從而進一步推動統計機器翻譯的研究發展。開展此項目的研究，不僅可以讓統計機器翻譯和機器學習獲得共同發展，同時能夠幫助提高機器翻譯系統的性能來為社會大眾提供更好的服務。

結題摘要

本項目嚴格按照計畫書執行，順利完成項目目標，取得預期的研究成果。本項目的目標是在統計機器翻譯和機器學習之間找到恰當的結合點，利用機器學習最新的研究成果為統計機器翻譯所面臨的挑戰提供解決方案。目前，主流的統計機器翻譯方法面臨以下挑戰：翻譯模型難以表示和容納更豐富的與翻譯過程密切相關的知識，訓練算法從真實文本中獲取的翻譯規則數量巨大且質量良莠不齊，以及解碼算法難以在龐大的搜尋空間中高效準確地定位最優候選譯文。針對統計機器翻譯在建模、訓練和解碼這三個關鍵問題上面臨的挑戰，本項目做出以下探索。在建模方面，提出基於同步樹粘結語法的樹到串翻譯模型，克服了傳統方法無法充分利用上下文信息的缺點，為實現從上下文無關到上下文相關的轉變提供了新的思路。在訓練方面，提出了URL模式與HTML結構相結合平行網頁獲取、利用檢索構建平行語料庫、利用調序圖學習辭彙化調序模型、利用權重對齊矩陣抽取規則、翻譯森林快速生成、無監督判別式文法歸納、基於依存森林的規則抽取、最大排序相關訓練等方法。在解碼方面，提出了詞語對齊的對偶分解、聯合詞語切分和翻譯、聯合句法分析和翻譯等算法。本項目的研究工作發表了2篇ACL論文、1篇EMNLP論文、5篇COLING論文、2篇其他國際會議論文和2篇國內會議論文（均標註受本項目資助），其中8篇論文受EI檢索。本項目完成1項國家發明專利的申請。培養3名博士生和2名碩士生。本項目的研究工作在國際機器翻譯評測中得到實際驗證。在2010年的國際口語自動翻譯評測（IWSLT）中，我們開發的機器翻譯系統在多個項目中獲得了自動評測第一的好成績。受本項目資助，項目組成員積極參加學術交流，在ACL 2010做3個小時的講座介紹我們的工作，這是大陸學者首次在自然語言處理的最高會議上開設講座。此外，我們還在IUCS 2010、CJNLP 2010、CINACS 2012等國際會議和研討會上做特邀報告，在國內會議YCCL 2010做特邀報告。我們在交流過程中與國內外研究人員深入討論，建立了良好的合作關係。項目經費嚴格按照基金委相關規定支出，使用情況符合計畫書預算。

利用機器學習改進統計機器翻譯的研究

基本介紹

項目摘要

結題摘要

熱門詞條