《漢越雙語語料庫建設及詞對齊方法研究》是依託昆明理工大學,由郭劍毅擔任項目負責人的地區科學基金項目。
基本介紹
- 中文名:漢越雙語語料庫建設及詞對齊方法研究
- 項目類別:地區科學基金項目
- 項目負責人:郭劍毅
- 依託單位:昆明理工大學
項目摘要,結題摘要,
項目摘要
中越雙語語言理解是加強中越兩國文化交流的基礎,漢語-越南語雙語語料資源構建是漢語-越南語雙語理解的必備資源。本課題針對越南語言特點,首先將研究越南語樹庫標記方法,構建越南語依存樹庫;其次,針對越南語句法特點,研究越南語依存關係識別方法,實現越南語依存句法分析器;然後,針對漢語-越南語雙語語言句法特點,研究漢語-越南語雙語詞對齊方法;最後,研究漢語-越南語雙語料選取、標註規範,構建漢語-越南語雙語詞語級對齊語料庫,標註15萬漢越句子詞對齊語料庫,並在此基礎上開發實現越南語-漢語雙語句子檢索原型系統,解決漢語-越南語雙語詞語對齊語料庫資源建設、依存句法分析、詞對齊過程中的難點問題。項目研究成果將為漢語-越南語雙語檢索、雙語機器翻譯提供語料資源和技術支撐。
結題摘要
本課題圍繞漢語-越南語雙語語料庫構建、面向越南語的詞法及句法分析方法、面向越南語依存樹庫構建方法、漢-越雙語對齊語料構建方法、漢-越新聞事件元素抽取開展研究工作,取得了多項創新性研究成果:在國內外期刊發表論文24篇(含錄用),其中SCI/EI收錄11篇,已受理髮明專利13項,獲得軟體著作權8項。在漢-越雙語語料庫構建及詞法句法分析方面,構建了83536個詞的漢-越雙語電子詞典、54839個句對的漢-越雙語句對齊語料庫,183785的漢-越雙語詞對齊語料庫;利用對數線性模型,融合越南語的順行結構、詞性偏序等特點,提出了基於特徵約束的漢-越雙語詞對齊方法;將漢-越雙語詞語轉化成詞向量,採用深層信念神經網路自動學習特徵,利用改進的深層神經網路模型計算辭彙翻譯機率,提出了基於深層神經網路的漢-越雙語詞對齊方法;在對漢語句子做依存關係分析的基礎上,將漢語的依存關係通過漢—越雙語詞對齊關係映射到越南語句子中,構建了158000個句子規模(約600萬詞)的越南語依存樹庫;根據越南語構詞特徵和語言特點,在條件隨機場模型中融入N-Gram模型、字元類型特徵、字元重複特徵、詞素位置機率特徵,並加入交叉歧義模型,提出了基於CRFs和歧義模型的越南語分詞方法,開發了越南語自動分詞平台;在漢-越雙語命名實體和事件要素抽取方面,根據越南語的語言和實體特點,套用最大熵模型和本文制定的命名實體的規則的混合方法進行越南語命名實體識別,提出了融合實體特性的越南語複雜命名實體識別的混合方法;針對越南語句子結構和辭彙語義的特點,選取上下文、鄰近觸發詞以及鄰近實體作為特徵,提出了基於最大熵的越南語新聞事件元素抽取方法。上述方法的提出和漢越雙語語料庫的建設是雙語檢索、雙語機器翻譯、雙語學習等雙語理解的重要知識資源,可以有效的幫助漢越/越漢雙語學習理解,為雙語檢索、機器翻譯奠定基礎,研究有非常重要的理論及套用價值。