《多文種文檔圖像識別的多層次馬爾可夫隨機場模型研究》是依託清華大學,由彭良瑞擔任項目負責人的面上項目。
基本介紹
- 項目名稱:多文種文檔圖像識別的多層次馬爾可夫隨機場模型研究
- 批准號:60872086
- 項目類別:面上項目
- 申請代碼:F0116
- 項目負責人:彭良瑞
- 負責人職稱:副教授
- 依託單位:清華大學
- 研究期限:2009-01-01 至 2011-12-31
- 支持經費:30(萬元)
項目摘要
近年來,我國漢字及主要少數民族文字等現代印刷文檔識別研究已取得重要成果。中華民族文化的信息化及國際化發展亟待更有效地解決多文種印刷及手寫文檔識別領域中的文種及文檔類型擴展問題。本項目在原有研究尚未考慮的文檔圖像分割和識別統一建模方面,提出系統描述不同文種文檔版面分析、文本行字切分和字元識別整個過程的多層次馬爾可夫隨機場(Hierachical Markov Random Field, HMRF)模型理論方法。研究內容為:對於不同體系文種,在圖像頁面、區域、文本行、字元多個層次上進行文檔圖像HMRF模型構造的方法;利用標記樣本和大量實際未標記樣本的半監督學習進行HMRF模型訓練;利用已訓練的模型對輸入文檔圖像進行識別的最佳化求解方法。前期相關研究說明該理論方法具有可行性。研究難點為綜合利用圖像全局和局部信息以及先驗知識來提高文檔識別率;研究創新點為首次提出多種文檔圖像分割與識別的統一理論模型。