基於用戶反饋的多策略翻譯線上融合方法研究

《基於用戶反饋的多策略翻譯線上融合方法研究》是依託哈爾濱工業大學,由楊沐昀擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於用戶反饋的多策略翻譯線上融合方法研究
  • 依託單位:哈爾濱工業大學
  • 項目類別:面上項目
  • 項目負責人:楊沐昀
項目摘要,結題摘要,

項目摘要

隨著網際網路時代對機器翻譯的需求凸顯,如何利用現有翻譯技術滿足廣泛靈活的用戶需求已成為機器翻譯研究的巨大挑戰。多策略機器翻譯方法旨在融合多種翻譯模型的優勢,是解決這一問題的合理對策。與現有系統融合不同,本課題將多策略翻譯視為一種滿足多變用戶需求的線上學習問題。課題首先以譯文融合特徵挖掘為基礎,嘗試解決譯文融合時使用的特徵與翻譯建模過程同構的問題;進而分析翻譯系統用戶的行為,從中量化用戶滿意度而不單純是譯文質量作為融合目標,以解決現有自動翻譯評價傾向於SMT結果的偏置問題;最終針對複雜多樣的實際翻譯需求,引入線上學習機制,探索實現基於線上排序學習的多策略翻譯融合方法。課題目的是研究適用於機器翻譯問題的線上機器學習方法,實現一個性能良好的基於線上學習的多策略機器翻譯模型,為建立一種能夠綜合利用多種翻譯模型和翻譯知識以滿足用戶個性需求的多策略翻譯機理進行有益的探索。

結題摘要

隨著網際網路時代機器翻譯服務需求的日益增加,如何迅速、高效利用用戶使用過程中產生的翻譯反饋來持續改進機器翻譯性能、滿足各種翻譯需求,提升用戶體驗成為一個日益迫切的挑戰。課題研究主要圍繞以下三個方面(共十項研究要點)展開: 在翻譯用戶反饋的獲取與分析方面,課題主要探索了翻譯反饋的眾包獲取、基於用戶反饋信息和多粒度融合的機器翻譯自動評價方法、和翻譯反饋缺失信息的預測三個問題。提出了一種基於多粒度融合的機器翻譯自動評價方法,發表在人工智慧領域頂級會議IJCAI’2013上,實驗結果優於此前國際公開技術評測中的最好性能。 在翻譯反饋的多策略融合方面,課題組開展了四項研究:基於規則的翻譯反饋融合方法、基於實例的翻譯反饋融合方法、基於統計的翻譯反饋融合關鍵技術、和基於偽反饋的翻譯譯文最佳化研究。其中基於實例的翻譯反饋融合技術可以提高公開翻譯引擎的性能0.64個BELU得分,超過該任務上的評測最好成績;基於深度學習的翻譯反饋篇章級建模能夠刻劃句子以上層面的翻譯信息,提升70%以上的句子翻譯質量;基於偽反饋的翻譯譯文最佳化方法可以在缺乏反饋的情況下,提升通用翻譯引擎質量19.4%。 在面向譯文融合的線上學習方法方面,開展了線上翻譯訓練模型的分析與改進、面向翻譯反饋融合的短文本線上學習方法和面向翻譯反饋的排序學習方法研究。針對句子級翻譯反饋的線上學習,課題設計了一種融合歷史信息的線上學習算法,解決了傳統線上學習算法用於短文本數據性能不佳的問題。還提出了一種時間敏感的排序學習方法,解決了無優先權信息的翻譯反饋上的排序損失函式設計。上述兩種方法在微博的過濾和檢索任務上,均超過了以往評測中的最好成績。 課題研究表明,雖然網際網路翻譯用戶的反饋並不像他們的搜尋行為那樣容易獲得,但是即使是小規模的翻譯反饋對於統計機器翻譯的性能提升作用仍然不可忽視。在有限的翻譯反饋數據上,綜合採用多種翻譯策略,可以用戶提供定製的個性化的翻譯結果,進一步提升用戶體驗。

相關詞條

熱門詞條

聯絡我們