面向機器翻譯的多詞表達語義分析及套用研究

面向機器翻譯的多詞表達語義分析及套用研究

《面向機器翻譯的多詞表達語義分析及套用研究》是依託北京交通大學,由陳鈺楓擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向機器翻譯的多詞表達語義分析及套用研究
  • 項目類別:面上項目
  • 項目負責人:陳鈺楓
  • 依託單位:北京交通大學
項目摘要,結題摘要,

項目摘要

多詞表達是自然語言中一類固定或半固定搭配的語言單元。其語義表示、有效抽取及正確翻譯是自然語言處理中的難點。尤其針對漢語多詞表達的抽取和漢英多詞表達的語義結構差異分析的研究,近年來未有明顯進展,已成為信息抽取和機器翻譯等領域的瓶頸問題之一。因此,本項目將在以下方面進行深入研究和探索:(1)充分借鑑和利用已有的語言學資源,提出基於詞向量表示的多詞表達語義理解方法;(2)在此基礎上,提出基於語義理解的漢語/漢英雙語多詞表達抽取模型,在聯合推斷框架下,使得多詞表達抽取與分詞、句法分析以及詞對齊過程相輔相成;(3)構建基於語義計算的多詞表達挖掘框架,從海量網路資源中挖掘新詞,並抽取和過濾出可靠的多詞表達翻譯對;(4)最終面向機器翻譯的套用,提出融合多詞表達語義知識的機器翻譯框架,從兩個層次引入多詞表達的語義知識來輔助翻譯系統性能的提高。本項目開展的研究工作具有重要的理論意義和套用價值。

結題摘要

多詞表達作為一類由若干辭彙組成的慣用搭配語言單元,對其語義分析及深入研究,是實現語言理解的重要工作,也將推動機器翻譯等套用研究領域的發展。在本項目中,我們著重對多詞表達的幾種類型進行了研究,包括命名實體,複述短語,網路新詞,和機器翻譯中的集外詞等。主要研究內容包括以下幾個方面:(1)多詞表達內部語義結構的分析和詞向量特徵的建立;(2)突破雙語平行語料的限制,利用大規模的單語資源來抽取雙語命名實體翻譯對;(3)網路開放域的新詞識別;(4)通過語義概念和句法信息來解決翻譯中的集外詞問題。創新性成果主要體現在:(1)利用上下文和詞向量特徵,提出一種雙層抽取策略來抽取多詞表達,經實驗驗證,取得了比較好的效果,並能改善分詞結果;(2)基於單語語料,提出了基於歸納學習的雙語命名實體抽取模型;(3)在網路開放域上,提出基於改進的C/NC-value算法的新詞抽取模型;(4)在具體套用上,將構建的雙語多詞表達/實體抽取和翻譯模型套用於機器翻譯系統,並提出結合語義計算的集外詞處理方法,實現了較高質量的機器翻譯質量。 本項目重點在於各種類型的多詞表達(包括命名實體,複述短語和網路新詞)的理論分析與套用研究,發表論文30篇,申報並獲授權國家級發明專利3項。培養碩士生15人,博士生2人。同時,在培養研究生過程中,也注重系統研發,積累了大量的研究數據。累計構建了200萬條中英命名實體翻譯對語料;100萬條日漢命名實體翻譯對;日漢詞典150萬詞;日語動詞詞典4萬詞;標註的網路多詞表達語料(複合詞和固定搭配)包含4萬左右的中文詞條和3萬左右的英文詞條。本研究採用統計為主規則為輔的研究策略,在單語方向、雙語方向以及網路開放域上對多詞表達的多種形式展開了研究,特別搭建了以日英漢三種不同語言的命名實體翻譯框架,用於加入到統計機器翻譯系統中,在本項目組參加全國機器翻譯評測(CWMT2015)和亞洲語言翻譯評測(WAT2016)中發揮了重要作用。

相關詞條

熱門詞條

聯絡我們