引入功能語篇分析的漢英語篇統計機器翻譯方法研究

引入功能語篇分析的漢英語篇統計機器翻譯方法研究

《引入功能語篇分析的漢英語篇統計機器翻譯方法研究》是依託廈門大學,由陳毅東擔任項目負責人的面上項目。

基本介紹

  • 中文名:引入功能語篇分析的漢英語篇統計機器翻譯方法研究
  • 項目類別:面上項目
  • 項目負責人:陳毅東
  • 依託單位:廈門大學
項目摘要,結題摘要,

項目摘要

擴展到語篇層是統計機器翻譯進一步發展的一種可能途徑。這方面的研究目前剛剛起步,特別是,語篇結構分析還不夠深入。針對這一問題,本項目擬以系統功能語言學和修辭學理論為指導,建立以漢語小句功能結構和語篇修辭結構為驅動的漢英語篇統計機器翻譯模型。項目主要研究內容包括有:漢語小句功能分析方法研究、漢語語篇修辭關係分析方法研究、漢語句群劃分方法研究、漢英語篇結構轉譯模型研究、基於句群全局信息的漢英小句翻譯模型研究、英語譯文語篇拼接模型研究等。為實現漢語小句功能自動標註,本項目將研究利用概念、交際和語篇三大純理功能相互關聯與協同互動的特點,藉助協同神經網路模型實現這三個功能的一體化標註;為了對漢語修辭格層進行關係特徵建模,本項目將藉助複雜網路的數據分析方法,這為修辭學的計算研究提供了新思路。很明顯,這項研究無論對統計機器翻譯研究、功能語篇分析研究或是對漢語修辭學研究,都是有著重要理論意義與實際意義的。

結題摘要

本項目旨在以系統功能語言學和修辭學理論為指導實現機器翻譯模型的篇章層改造,項目組圍繞相互關聯的4個方面開展了深入研究:(1)在功能語篇建模與語篇分析相關研究方面,項目組結合系統功能語法和漢語篇章研究成果,制訂了漢語語篇主述標註規範並建設了相關語料,進而實現了漢語語篇主述自動標註方法;同時,針對語篇關係識別問題,項目組提出了結合協同訓練方法、結合雙語限制合成數據和多任務訓練方式、結合語篇增強嵌入表示等多種有效的語篇隱式關係識別方法,這些工作為融合語篇的機器翻譯建模奠定了堅實的基礎。(2)在融合語篇語義的神經機器翻譯研究方面,項目組建立了性能優秀的基線神經翻譯系統,提出了格到序列、結合詞性增強注意力、結合時態注意力等多個創新的神經翻譯改進模型,最終建立了結合主述信息的篇章神經翻譯模型,實現機器翻譯模型的篇章級改造。(3)在語義分析與語義表示相關研究方面,項目組提出了從傳統語義資源構建機率框架庫的方法,建立了基於自注意力機制的深度語義角色標註方法,嘗試了結合腦電技術的辭彙語義相似度標準集建立與驗證方式,提出了融合雙語語義約束的辭彙嵌入表示方法,這些工作對漢語語篇分析起到了良好的輔助和補充。(4)在稀缺資源機器翻譯研究與多模態機器翻譯研究方面,項目組實現了性能優異的藏漢雙向神經翻譯系統,提出了基於增量自學習的多語言機器翻譯方法,建立了漢英語音翻譯模型和相應的同聲傳譯系統,並探索了中國手語神經翻譯方法,這些工作通過拓展套用進一步驗證了篇章增強機器翻譯模型的有效性。整體而言,項目組通過4年的項目執行,達成了預期的研究目標,取得了較豐富的成果:累計在本領域重要學術期刊和會議上發表標註論文19篇,其中SCI檢索7篇,EI檢索13篇,AAAI、ACL、EMNLP等本領域頂級會議論文各1篇;獲得西藏自治區科學技術獎一等獎1次;舉辦全國性學術會議1次;受邀做全國性學術論壇特邀報告1次;培養畢業了2位博士研究生、5位碩士研究生。

相關詞條

熱門詞條

聯絡我們