多民族文字識別及理解的理論與方法研究

《多民族文字識別及理解的理論與方法研究》是依託清華大學,由丁曉青擔任項目負責人的重點項目。

基本介紹

  • 中文名:多民族文字識別及理解的理論與方法研究
  • 依託單位:清華大學
  • 項目負責人:丁曉青
  • 項目類別:重點項目
項目摘要,結題摘要,

項目摘要

我國多民族文字文化信息化關係國家統一和民族團結,如網際網路上大量圖片形式出現的藏維文信息檢索過濾等迫切需求。針對我國多民族文字印刷及手寫文檔識別及機器翻譯的理論和方法的關鍵科學問題,構建多民族文字識別、文檔圖像分析和內容理解理論體系。深入研究蒙、藏、維文的印刷及限定手寫文檔圖像識別理解的綜合最佳化計算模型,實現連寫、強變形的蒙藏維文檔的無切分識別算法,重點探索擴展統計與結構相結合詞識別,結合蒙藏維上下文相關的全局最佳化字元串識別計算理論模型和算法。發展基於蒙藏維文檔詞識別的、蒙藏維文與漢語之間,融合語料庫和規則的、基於詞基元翻譯的具有一定可懂度的機器翻譯理論和方法,探索基於識別詞、短語基元的蒙藏維文至漢語的跨語言理解理論和算法。實現從蒙藏維文檔圖象文字識別信息獲取到漢語翻譯理解的無縫信息整合系統。建立以漢語呈現的統一平台跨語言蒙藏維印刷及手寫民族文檔識別及內容翻譯理解系統。

結題摘要

本項目“多民族文字識別及理解的理論與方法研究”,目標為研發國家迫切需要的民族文字識別與理解技術及系統,主要解決了民族文字全局最佳化無切分文檔識別、民族文字對漢語的翻譯理解,以及基於蒙藏維文檔識別理解的跨文種一體化平台的構建等難題。項目研究主要創新及工作如下: 1.在民族文字識別方面,克服傳統上字元切分和字元識別分開研究的弊端,提出並實現識別驅動的基於隱含馬爾可夫模型(HMM)的“無切分”民族文字文檔識別。 (1)提出了多種民族文字字形結構特徵提取新方法,並首創基於序列線性鑑別分析的特徵降維方法。 (2)在模型訓練方面,提出了基於狀態信息熵與距離度量的模型狀態最佳化方法、基於聚類算法的引導式模型預訓練策略以及低資源樣本遷移學習方法。 (3)在模型解碼方面,提出了基於文字書寫規則的限制性隱含馬爾可夫模型(HMM)解碼網路,通過利用語言知識可提高不限辭彙集合的識別解碼準確率。 2.在以漢語為目標語言的民族文字翻譯理解方面,提出並實現了民族文字與漢語對照的關鍵字檢索,以及維漢、藏漢、蒙漢全文翻譯理解方法。 (1)在維吾爾文理解方面,提出了基於維吾爾語特點的詞幹、詞綴維漢翻譯理解訓練方法,將維吾爾語文本分解成詞幹、詞綴形式,並以此為理解的基本單元,緩解了統計機器翻譯中數據稀疏問題。 (2)在藏文理解方面,提出採用基於條件隨機場及緊縮詞處理模型的藏文分詞方法、最大熵藏文詞性標註模型以及改進的短語抽取等方法,最終實現了基於短語的藏漢翻譯理解方法。 (3)在蒙古文理解方面,提出並實現了基於統計和規則的蒙漢翻譯理解方法。 3.首次提出和實現民族文字識別與民漢對照關鍵字檢索、基於短語的民漢全文翻譯的識別理解無縫連線,解決了民族文字文檔經掃描圖像識別輸入計算機、以及將漢語作為目標語言的跨文種識別理解的難題。實現的系統具有單機版和網路平台(http://www.netocr.com:8888/ocr/),使系統在網際網路上加以推廣套用。 4.在資源建設方面,建立了民族文字識別研究所需的標準樣本庫,以及民族文字理解研究所需的民族文字與漢語對照的詞典及平行語料庫等資源。 研究成果可廣泛套用於民族文字辦公自動化、電子出版、網際網路信息資源建設等領域,將在我國民族文化信息化事業中發揮重要作用。

相關詞條

熱門詞條

聯絡我們