基於本體的多策略民漢機器翻譯研究

項目摘要

機器翻譯是國際上激烈競爭的多學科交叉高難研究課題，具重大的理論研究意義和套用前景。而民漢機器翻譯研究對於促進我國民族團結以及民族地區的經濟社會發展更具有緊迫的現實意義與深遠的歷史意義。本項目針對民族語言資源相對匱乏，統計為主的方法難以奏效的不足，提出一種以語言模型為主的基於語義本體的有機結合了基於規則的多知識一體化分析、基於統計的最小遞歸語義組塊識別及獲取、基於實例模式的泛化匹配、及基於可信度反饋的統計譯後校正等多種處理策略的民(維/藏)漢機器翻譯方法，深入研究其中所涉及的基於本體的語言特徵體系設計及語言知識本體構建、基於語言知識本體的語義計算框架及多知識一體化語言分析算法、基於最小遞歸語義的語言組塊識別及其雙語對齊算法、基於語義本體的多策略民漢機器翻譯模型研究等關鍵科學技術問題。該項研究不僅能滿足對民漢翻譯技術的迫切需求，也能對機器翻譯及其它自然語言處理研究提供經驗和寶貴的語言資源。

結題摘要

藏漢、維漢機器翻譯研究對於促進我國民族團結及地區經濟、社會發展具有緊迫現實意義。民族語言資源匱乏，目前統計機器學習為主的方法難以達到理想的翻譯性能，開展面向資源稀缺語言的、以機器翻譯為主的智慧型信息處理研究具有重要理論意義與價值。本項目深入研究了藏語黏寫、句法功能、長句切分及維語詞綴詞幹切分等難題，開創性研究了藏語語義角色標註，並率先開展了藏語樹庫建設；提出了基於通用規範維語詞幹詞綴切分、基於多形態語音和諧規律的維語詞幹識別等方法，制定完成了維語詞類、詞幹、詞尾標註規範，推動了相關國家標準的進程；構建了大規模維、藏知識庫與資源，極大改善了藏、維語言智慧型信息處理的研究生態環境。提出了基於語言知識本體的語義計算框架及多知識一體化語言分析算法，藉助本體知識庫分類特性，提升了知識庫在知識表示、存儲和共享等方面的性能；創新性地提出了將異構結構化知識庫與非結構化自然語言轉化為同構三元組形式的表示學習方法，利用翻譯表示的思想學習實體、關係和自然語言的向量表示；提出了引入概念信息的短文本向量化建模方法，並基於注意力模型進行擴展，有效增強短文本向量的語義表達能力和甄別能力。提出了基於異構關係網路圖、基於依存適配度、基於領域知識的圖模型詞義消歧方法，顯著提升了消歧性能；提出了以最小遞歸語義組塊為基本單元的組塊邊界界定、屬性繼承傳遞，及雙語最大名詞組塊分離-融合翻譯方法，引入最小遞歸語義實現動賓語義搭配一致性分析；提出了基於雙語協同訓練的類組塊MNP識別方法，顯著提高了雙語MNP的跨領域識別性能。設計研製了基於本體的多策略藏漢、維漢機器翻譯系統，及一系列針對語言分析處理軟體工具。部分成果已在國家安全及國防有關部門部署套用。項目研究發表論文62篇，其中CCF A類期刊/會議論文5篇，SCI收錄7篇，出版專著等4部，申請專利17項，授權6項。培養研究生81名，舉辦學術會議4次，參加國際頂級評測1次。

基於本體的多策略民漢機器翻譯研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條