《納西-漢語雙語語料庫構建與翻譯方法研究》是依託昆明理工大學,由余正濤擔任項目負責人的地區科學基金項目。
基本介紹
- 中文名:納西-漢語雙語語料庫構建與翻譯方法研究
- 項目類別:地區科學基金項目
- 項目負責人:余正濤
- 依託單位:昆明理工大學
項目摘要,結題摘要,
項目摘要
納西文字是目前世界上唯一活著的象形文字,但在現代文明的滲透下,正在變異和消亡。納西-漢語雙語語料資源構建及納西語言分析方法是納西語言信息處理的基礎課題。本課題針對納西語言特點,首先將研究面向納西-漢語對齊文本的雙語詞語抽取方法,構建納西-漢語雙語電子詞典,其次將研究納西樹庫標記及依存關係識別方法,構建納西依存樹庫,實現納西依存句法分析系統,然後將研究納西-漢語語料選取、標註規範、雙語自動詞語對齊方法,構建納西-漢語雙語詞語級對齊語料庫,最後將研究面向依存句法分析的樹到串的納西-漢語統計翻譯方法,實現納西-漢語雙語句子互譯原型系統,解決納西-漢語雙語知識資源建設、依存句法分析及機器翻譯過程中的難點問題。項目研究成果將為機器理解納西語言提供語言及語料資源,同時提出的納西-漢語雙語機器翻譯方法將推動納西語與漢語的互譯互通,為保護、普及及傳承納西語言奠定基礎。
結題摘要
納西語是世界上唯一活著的象形文字,納西文字信息化及翻譯研究對納西文化的傳承和保護有著重要的作用。項目圍繞納西語言信息化過程中的納西字型檔製作,納西-漢語雙語詞典、納西依存樹庫、納西-漢語雙語語料庫構建,納西依存句法分析、納西-漢語雙語詞對齊方法及納西-漢語雙語機器翻譯等關鍵問題展開研究和探討,取得了以下進展:1.收集了4186個納西象形文字,採用Unicode編碼,製作了納西字型檔,構建了6891個詞的納西-漢語-英語三語電子詞典,研發了中文、英文和納西拼音三種方式的納西文字輸入法;2.在納西依存樹庫構建及依存句法分析方面,提出了基於漢語-納西語語言對齊關係及協同訓練的納西語依存樹庫構建方法,制定了納西依存樹庫標註規範,構建了3萬句的納西依存樹庫,研發了規則與統計相結合的納西依存句法分析器;3.在納西-漢語雙語語料庫構建及詞對齊方法方面,針對納西-漢語的語言特點,提出了融合特徵約束及實體約束的納西-漢語雙語詞語對齊方法,有效提高了納西-漢語雙語詞對齊準確率,制定了雙語詞對齊標註規範,研發了雙語詞對齊的標註和管理工具,構建了23000句漢語-納西語詞對齊語料庫;4.在納西-漢語雙語機器翻譯方面,針對納西-漢語的語法差異,提出了改進的依存樹到串、樹到樹及子樹對齊的漢語-納西語機器翻譯方法,針對納西語言的詞義及語義的特點,在統計句法翻譯模型的基礎上,探討了融合謂詞-論元、詞義歸納及語義角色的翻譯方法,設計實現了納西-漢語雙語翻譯系統,表現了好的效果,為實現納西-漢語雙語學習系統奠定了基礎。5.項目發表論文18篇,其中SCI收錄3篇,EI收錄10篇,受理髮明專利1項,授權軟體著作權5項,項目負責人通過培養入選中組部首批“萬人計畫”和國家“百千萬人才”,培養博士研究生3名,培養碩士研究生16名,獲得省級優秀碩士論文1篇。