簡介,定義,研究背景,研究歷史及發展,印刷中文文檔識別,概述,漢字識別的分類,漢字識別的研究歷程,困難,印刷英文識別,系統要求,難點,系統的體系結構,行字切分,後處理,數學公式識別,
簡介 定義 印刷文本識別是指印刷在紙張上的中文或英文文檔,用掃瞄器或者其他光學方式輸入後得到灰度或者二值圖像,然後利用各種模式識別算法對文本圖像中的文字進行定位,提取文字的特徵,之後再與識別字典中的標準字元進行匹配判斷,從而達到識別文檔內容以及任意修改文檔內容的目的。其實質是讓計算機能夠“看懂”輸入文檔的內容。
研究背景 隨著資訊時代的來臨,各種各樣的信息充斥在人們周圍。信息存儲和傳播形式的多樣性加大了信息處理的難度,如何快速、有效的管理、組織數量日益膨脹的信息,以方便檢索、利用,是當今社會越來越迫切的需求之一,
可視化的信息,尤其是各種文檔,一直是最重要的信息存儲和傳播形式之一,但是,傳統的紙質文檔不利於長期保存,且有不易檢索、傳播成本高且速度慢的缺點,具有強大多媒體處理能力的計算機出現後,人們開始廣泛使用計算機處理和存儲各種文檔,並提出了無紙化辦公的概念,但是,由於紙質文檔閱讀方便且閱讀成本低,不需要特殊閱讀設備,而且某些文檔(如契約,證書等)必須以紙質形式保存,隨著印表機等計算機輸出設備的普及,紙質文檔的數量不但沒有減少,反而以比從前更快的速度增加,為了能夠使用計算機管理、存儲、傳播和共享記錄在紙張上的信息,必須將紙質文檔通過掃描或人工錄入等手段電子化,而靠人工將大量文本重新錄入計算機顯然是不現實的。目前,將紙質文檔轉化成電子化的最簡單手段,是通過掃瞄器等計算機輸入設備將文檔以圖像格式輸入計算機系統。
研究歷史及發展 為實現從文檔圖像中自動提取其文字部分所包含的信息的目的,研究者們提出了光學字元識別(Optical Character Recognition,簡稱
OCR )技術,事實上,OCR的概念早在數字計算機能夠進行文字處理之前就被提出了。早在十九世紀,就有人申請了關於輔助盲人閱讀和輸入電報報文的OCR方面的專利,現代意義上的OCR是一個涉及到模式識別、人工智慧、模糊數學、計算機科學等多學科的的綜合課題,具有大概40年的發展史,19世紀五十年代,能夠識別以特殊設計的字型(稱為OCR字型)列印的數字的OCR系統首次投入商用,隨著個人計算機、掃瞄器等設備的迅速發展和普及,OCR系統的價格不斷降低,從上世紀八十年代起,各種各樣的OCR系統開始大量出現在市場上。漢字識別的研究雖然開始稍晚,但發展迅速,上世紀九十年代起,我國市場上開始出現多種漢字識別系統,漢王、清華文通、清華紫光等公司都相繼推出了各種用於中文文本和特定格式表格(如機票、保險單)的OCR系統。
印刷中文文檔識別 概述 中文文檔識別是指印刷在紙張上的中文文檔,用掃瞄器或者其他光學方式輸入後得到灰度或者二值圖像,然後利用各種模式識別算法對中文文檔圖像中的文字進行定位,提取文字的特徵,之後再與識別字典中的標準字元進行匹配判斷,從而達到識別文檔內容以及任意修改文檔內容的目的。其實質是讓計算機能夠“看懂”輸入文檔的內容。印刷體中文文檔識別技術主要包括輸入文檔圖像的預處理、識別和後處理三個階段,其中文檔的識別是難點和熱點問題。
印刷中文文檔識別技術屬於文字識別的一種。文字識別技術又叫做OCR技術,經過近一個世紀的發展,OCR已經成為當今模式識別領域中最活躍的研究內容之一。它綜合了數字圖像處理、計算機圖形學和人工智慧等多方面的知識,並在計算機及其相關領域中得到了廣泛套用。通常OCR識別方法可以分為如下3類:統計特徵字元識別技術、結構特徵字元識別技術和基於人工神經網路的字元識別技術。
目前,對於純漢字的中文文檔而言,現有的OCR技術已經有較高的識別率。然而,對於一些科技文檔(漢字與數學公式混排)而言,現在還沒有較成型的技術。這種中文文檔識別起來就相對更複雜更困難些,首先,要將文檔圖像中的漢字和非漢字字元進行分離,因為漢字與其他字元有較大的區別無法混為一談。其次,在提取特徵時要注意根據不同字元的不同特徵進行提取,最後,要根據不同字元的特徵設計出不同的分類器。
漢字識別的分類 中國的漢字其數量是很多的,按
GB2312-80 標準漢字共有6763個,其中包括一級漢字3768個,二級漢字3008個。因此,漢字識別問題屬於超多類模式集合的分類問題。目前漢字識別技術按照字型的不同可分為:
1)單體印刷體漢字識別(primed character recognition):僅識別某種單一印刷體字型或者某種印表機、照排機輸出的文字。
2)多體印刷體漢字識別(multi-font printed character recognition):能識別出印刷出的多種字型文字,如黑體,宋體,楷體等等。
3)手寫印刷體漢字識別(hand primed character recognition):用於識別人寫在紙上的規整漢字,不能連筆,書寫比較受限。
4)特定人手寫體漢字識別(personal handwritten character recognition):是手寫體識別的一個特例,筆跡鑑別也屬於這一類。
5)非特定人手寫體漢字識別(unconstrained handwritten characterrecognition):對於任何人自由書寫的文字都能正確識別,這是手寫體識別的最終目的。
漢字識別的研究歷程 據文獻記載,印刷體漢字的識別最早可以追溯到60年代。1966年,
IBM 公司的Casey和Nagy在一篇文章中利用簡單的模板匹配法識別了1000個印刷體漢字。1977年東芝綜合研究所研製了可以識別2000個漢字的單體印刷體漢字識別系統。80年代初期,日本舞藏野電氣研究所研製了可以識別2300個多體漢字的印刷體漢字識別系統,代表了當時漢字識別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研製的印刷漢字識別系統。這些系統在方法上,大都採用了基於K—L變換的匹配方案,使用了大量專用硬體,其設備有的相當於小型機甚至大型機,價格極其昂貴,因而並沒有得到廣泛的套用。
我國對印刷體漢字識別的研究開始於70年代末、80年代初,大致分為以下三個階段:
1)第一階段:從70年代末期到80年代末期,主要是算法和方案探索。
2)第二階段:90年代初期,中文OCR由實驗室走向市場,初步試用。
3)第三階段:目前,主要是印刷體漢字識別技術和系統性能的提高,包括漢英雙語混排識別率的提高和穩健性的增強。
雖然漢字識別在我國研究的起步較晚,然而經過多年的努力,印刷體漢字識別技術的發展和套用已有了長足的進步:從簡單的單體識別發展到多種字型混排的多體識別,從中文印刷文檔的識別發展到中英文混排的文檔識別。
如今,各種漢字系統可以支持簡、繁體漢字的識別,解決了多體多字號混排文本的識別問題,對於簡單的版面可以進行有效的定量分析,同時漢字識別率己達到了98%以上。
困難 正如前面提到的,很多已有的文檔識別OCR技術的漢字識別率已經相當可觀。但是,現有的OCR技術在對於一些中文文檔中出現的公式字元的識別問題還是存在著一些困難的。近些年,中文文檔識別系統一直以來備受研究者的關注,但仍有一些困難還尚未解決。
中文文檔圖像版面內容是多樣的,這就大大的加大了文檔識別的難度。不能對版面中的每一個不同對象都採用同一個識別方法,為了實現文檔中不同內容採取不同方式進行更加有效的處理,在文檔識別系統中要加入可將原始文檔圖像中的不同內容進行分離的功能。
對於含有公式的中文文檔而言,如何將漢字與公式字元分開是一直以來的難點,特別是對內嵌在漢字中的公式字元的定位是最為困難的,而且公式字元定位的好壞,可以直接影響到整個文檔識別系統的識別率的高低。
印刷英文識別 印刷體英文識別,又稱英文OCR,是文字識別領域的一個比較古老的分支。在本世紀初,國外就已經開始研究數字識別技術,並成功地套用於郵政編碼的識別。
系統要求 一個實用的印刷英文識別系統,至少應該是一個高性能的多字型、多字號的字元識別系統。高性能的字元識別系統首先對單字元具有極高的識別率,其次,它不但對質量好的文本圖象有很高的識別率,而且還應有較強的魯棒性,即使在文本圖象質量較差(如文本中存在大量的噪聲,筆畫斷裂嚴重或者多字元嚴重粘連等)的情況下仍能保持較高的識別率;對於多字型的要求,需要能夠識別數百種常見字型,以及它們的各種變體包括黑體、斜體等;對於字號應有較廣的適應範圍,可以從小的( 號字一直到常見的文章大標題。前面兩個問題的解決依賴於高性能的分類器設計和魯棒的切分算法。後面兩個問題,主要是通過對大量的不同字型不同字號的樣本進行訓練和歸一化來解決。
難點 人們往往以為英文的類別(52個大小寫字母、10個數字以及一些常用的符號)少,對印刷體英文的識別的難度就小。實際上,多字型印刷體英文的識別存在著如下幾個難點:
字母寬度、大小不一,增加了切分的難度;
字元簡單,包含的分類信息少,有些字元很相似,如“’1”、“I”、“l”、“|”等,較難區分;
字型千變萬化,總的字型有上千種,常用的字型也有數百種,每一種字型還有黑體、斜體等的變化,而且不同字型間的差別很大,在字元的高度,寬度,筆畫分布和筆畫粗細等都有很大的變化;
常見字母組合在投影上為一整體,許多常見的字母組合象“fl’”、“fi ”、“ff”、等,實際上為不可分的整體,另有一些組合,象“fe”、“fo”等,特別在字型為斜體時,儘管字母之間互不粘連,但在投影上也是不可分的,雖然有些高級的切分技術象“繞切法”可以採用,卻增加了不少的處理時間;
字母與字母的組合容易相互混淆,有些字母切分成兩半後仍為合理的字母組合,像“m”變成“rn”;有些字母組合粘連在一起則可能成為合法的字母,象粘連的“cl ”變成“d ”。對於這些混淆,即使採用帶回溯的切分方法或利用識別結果指導切分,都難以得到滿意的結果;
英文字元本身結構簡單,因此噪聲影響明顯,劣化文本圖象的識別常常難度很大。
系統的體系結構 採用模組化的方法來進行系統的開發。為此,首先按照不同的功能和處理時間上的先後把系統分成主要的四大模組:預處理,行字切分,特徵提取和分類器設計,後處理。實現的印刷體英文識別系統的構成框圖見圖。
多體印刷英文識別系統的構成框圖 其工作過程大致如下:利用輸入設備如掃瞄器等,形成待識別印刷體英文文本的圖象數據,對該數據進行預處理,主要是去除噪聲及進行版面理解,接著將其中文本屬性的圖象塊送入切分模組,進行行切分和字切分,切分後的結果便可以由識別模組進行識別,根據不同的識別方法,利用事先訓練學習得到的識別字典進行模式分類,得到一個初步識別結果,這一結果還應經過識別後處理模組加以進一步糾錯,例如可以利用一些簡單的規則或採用查字典作拼法檢查的方式等。在字元切分和識別模組之間,還有一個反饋的過程,利用識別結果的致信度來指導切分過程。
行字切分 行字切分是整個識別系統中極為重要的一個環節,因為正確的識別往往依賴於正確的切分。當切分錯誤時,很難得到正確的識別結果。如果行切分錯誤,常常會導致整行識別錯誤,嚴重影響系統的整體性能。在實際的文本中,由於斷裂和粘連的存在,在字切分中也常常存在錯切或者漏切,而降低系統的整體識別性能。現有的字元識別系統,對於單獨的字元或者高質量的文本都能取得很高的識別率,但是對於嚴重粘連或者斷裂的文本,識別率通常都很低,大部分的識別錯誤都是由於切分錯誤引起的。
在正常的掃描文本中,相鄰兩行之間都存在著空白行,因此可以採用對圖象進行水平投影的方法來進行行切分,在投影值為" 的位置即為正確的切分位置。這種方法簡單快捷,但是由於掃描操作不當,字元圖象常常有一定程度的傾斜,再加上噪聲的影響,以及一些字型造成的相鄰行之間字元的粘連,使得水平投影不可分,用簡單的投影難以得到正確的行切分。這時常用的是分段投影的方法,在短的分段內相鄰文本行的投影依舊可分。
後處理 要構建一個高性能的
OCR 系統,有效的後處理是必不可少的。這是因為分類器在進行判決的時候往往孤立地對待一個個待識字元,而丟失了這些字元所處周圍環境的一些重要的相關信息,這樣的判決結果,儘管對於分類器具有較高的可信度,發生錯誤卻是難免的。為了提高系統的性能,必須充分有效地利用上下文信息。常見的利用上下文信息的處理技術有:基於機率統計的方法、基於詞典的方法以及混合方法等。基於機率統計的方法主要有馬爾可夫方法和n元組方法兩種。
數學公式識別 數學公式作為科技文獻的重要組成部分,廣泛存在於大量的科技文獻中。這些公式對於在整篇文檔中的地位往往非常重要,很多文檔一旦失去了公式,將變得難於理解甚至毫無意義。目前,關於檢索和重用包括數學公式在內的非文本的研究已經得到了廣泛的關注,但是,現階段的研究成果遠遠沒有對於普通文本檢索和重用成熟。數學公式一般由特殊符號、希臘字母、英文字元和數字組成,這些符號通常通過定義特定的格式輸入計算機,輸入複雜度遠遠大於普通的文本。如果依靠手工重新錄入文檔中的所有數學公式,將消耗大量的人力資源。如何實現文檔中數學公式的高效率重複使用,一直是一個困擾著廣大用戶的問題。
目前,計算機在光學字元識別方面已經取得了很好的成績,對普通文本的識別率已經達到了一個很高的水平.因此,研究者們構想,如果能利用計算機自動處理文檔圖像,從中提取出包含的公式,經過識別、分析、重組,最終轉化成可編輯的通用格式(如
LATEX 格式的文本或Microsoft Word公式編輯器對象),將能夠有效的擴展光學字元識別系統的套用範圍。