《基於主幹成分的句法統計機器翻譯模型研究》是依託東北大學,由肖桐擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於主幹成分的句法統計機器翻譯模型研究
- 項目類別:青年科學基金項目
- 項目負責人:肖桐
- 依託單位:東北大學
中文摘要,結題摘要,
中文摘要
統計機器翻譯是當今自然語言處理領域的重要研究課題之一。雖然近些年來已經有一些成功的統計機器翻譯模型被提出,如何更加充分的利用(源語言)句子的結構信息及句子主幹信息來進一步提高翻譯性能仍是十分重要且有待研究的科學問題。本課題研究基於主幹成分的句法統計機器翻譯及相關科學問題,內容涉及中文句子主幹成分自動識別、基於主幹成分的句法統計機器翻譯建模、基於主幹成分的句法統計機器翻譯模型訓練和解碼等內容。本課題將以數據驅動的方法為指導,結合人們在翻譯過程中形成的先驗知識構建整個機器翻譯框架。課題的選題及實施依託於申請人所在團隊(東北大學自然語言處理實驗室)在機器翻譯方面研究的多年積累,課題的研究成果將全部集成到開源統計機器翻譯系統NiuTrans中,無償為學術界共享使用。
結題摘要
機器翻譯是人工智慧及自然語言處理領域的重要基礎研究方向之一。現在機器翻譯方法大多不考慮源語言結構信息,特別是源語言的句子主幹信息在機器翻譯建模中沒有得到考慮。因此如何利用(源語言)句子的結構信息及句子主幹信息來提高機器翻譯的翻譯品質仍是十分重要且有待研究的科學問題。本項目從基於句子主幹的翻譯建模、解碼及模型訓練方面開展了深入研究,研究內容包括:1、在翻譯建模方面,研究了基於句子主幹(或骨架)的的機器翻譯模型,以及將該模型在基於短語和基於句法的模型中的集成方法;2、在解碼方面,研究了樹到串句法翻譯規則在層次短語中的有效集成方法;3、在模型訓練方面,研究了基於損失函式強化的句法機器翻譯模型訓練框架;4、在機器翻譯和語言分析支撐平台構建方面,研發了NiuParser系統並升級了NiuTrans開源統計機器翻譯系統。本項目的研究成果包括8篇高水平論文(其中5篇領域頂級會議及期刊論文,如AAAI、TASLP等),培養了1名博士研究生及5名碩士研究生,並標註了中文主幹成分語料庫。本項目的研究成果集成在NiuTrans開源系統中。NiuTrans系統於2016獲得中國中文信息學會錢偉長中文信息處理科學技術獎一等獎。