《基於格依存樹到串模型的日漢機器翻譯研究》是依託北京交通大學,由徐金安擔任項目負責人的面上項目。
基本介紹
- 中文名:基於格依存樹到串模型的日漢機器翻譯研究
- 項目類別:面上項目
- 項目負責人:徐金安
- 依託單位:北京交通大學
項目摘要,結題摘要,
項目摘要
日漢機器翻譯方法研究對我國國防、國家安全和經濟建設具有重要意義。 .本項目提出了融合依存樹到串模型和格語法的日漢機器翻譯方法,創新性主要體現在:充分利用日語格語法特點,提出一種新的格依存句法結構描述形式和一種基於格依存樹到串模型的機器翻譯方法;主要研究內容包括:(1)日語格依存結構描述及其形式化定義;(2)日語格依存句法分析算法設計實現、規則或參數學習等;(3)基於格依存結構的樹到串翻譯方法,包括翻譯數學模型,訓練和解碼。 我們將深入探索基於格依存結構的樹到串模型的形式化描述、面向大規模真實文本的翻譯規則抽取和機率估計以及高效解碼算法等問題。本研究擬採用統計為主規則為輔的研究策略,通過實現高質量的日漢翻譯系統,為黏著語系與孤立語系間的基於句法的統計機器翻譯實現提供借鑑經驗和方法理論依據。
結題摘要
研究背景: 日漢機器翻譯方法研究對我國的國防、國家安全和經濟建設具有重要意義。 主要研究內容: 本項目提出了融合依存樹到串模型和格語法的日漢機器翻譯方法,創新性主要體現在:充分利用日語格語法特點,提出一種新的格依存句法結構描述形式和一種基於格依存樹到串模型的機器翻譯方法;主要研究內容包括:(1)日語格依存結構描述及其形式化定義;(2)日語格依存句法分析算法設計實現、規則或參數學習等;(3)基於格依存結構的樹到串翻譯方法,包括翻譯數學模型,訓練和解碼。 重要結果: 圍繞本項目的主要研究內容展開研發工作,取得了豐碩的研究成果。共發表期刊論文和會議論文總計30餘篇,其中包括Coling、EMNLP、ACL等頂級會議論文3篇、以及SCI論文4篇、EI論文5篇,核心期刊17篇。申報國家級發明專利9項,授權發明專利6項。培養碩士生20餘人,博士生4人。 關鍵數據及其科學意義: 本項目注重機器翻譯理論研究的同時,在培養研究生過程中,注重系統研發,並積累了大量的研究數據,累計構建了機器翻譯平行語料庫5千多萬句對,其中,英漢平行語料庫4千多萬句對、日英漢平行語料庫500萬句對、日漢新聞領域500萬句對、日漢詞典150萬詞、日語動詞詞典4萬詞、日語格框架庫52萬詞、日語名詞格框架庫16萬詞、日漢命名實體翻譯對100萬詞。同時,還搭建了以日英漢三種不同語言為中心的機器翻譯研發平台,包括基於規則/實例/統計機器翻譯、以及神經網路機器翻譯等系統。 本研究採用統計為主規則為輔的研究策略,實現了高質量的日漢翻譯系統,為黏著語系與孤立語系間的基於句法的統計機器翻譯實現提供借鑑經驗和方法理論依據,並具有較大的實用價值。