簡介
電子文檔識別系統是指通過
模式識別和機器學習有關技術,識別電子文檔中內容,並能對電子文檔內容進行修改的系統。為了方便對電子文檔的識別,電子文檔識別系統中,一般將電子文檔轉換成圖像(
文檔圖像),利用圖像識別有關技術,進行電子文檔識別,例如版面分析需要用到
圖像分割技術。
文檔圖像預處理
文檔圖像即圖像格式的文檔。它是通過某種方式將紙質文檔等轉化為圖像格式的文檔,以供用戶電子閱讀。對於一個輸人文檔圖像而言,預處理是字元識別的首要環節。文檔圖像的預處理是字元識別的前提條件,只有預處理較好的文檔圖像才對文檔內容的識別有意義。考慮到一般圖像的處理步驟和公式識別的特點,系統採用了較為常用的圖像預處理方法,包括
圖像二值化、平滑去噪、細化和歸一化處理。
(1)
圖像二值化。將輸入的灰度圖像轉化成只有0和1值的二值化文檔圖像。
(2)平滑去噪。對輸人的文檔圖像進行去噪處理,使圖像質量較高,提高文字的識別率。
(3)細化和歸一化。在對某個字元進行定位切分之後,提取特徵之前採用的兩種圖像處理方法。細化後的文字既保留了原文字絕大部分的特徵,又利於特徵提取。歸一化是為了使不同字型、不同大小的文字達到一個統一的標準,進行特徵提取匹配。
版面分析
版面分析是指對印刷文檔圖像的版面進行分析,提取其中的文本、圖形、表格等各個不同區域,並確定其屬性。版面分析的目的是將不同的區域分割出來,對每個區域使用不同的處理方法進行相應處理。版面分析算法的分類目前,版面分析的算法通常可分為三類:
(1)自頂向下方法。從頁面的整體人手,重視整體信息,將文本圖像劃分為若干區域,再根據文本圖像的層次化結構信息,對主要區域繼續進行劃分。其優點是簡單、快速;缺點是在區域分割過程中需要藉助於先驗域值,對複雜版面適應性不強。
(2)自底向上方法。從圖像的像素級開始分析,重視局部信息,將圖像小區域逐步合併成大區域,直至覆蓋整個文本圖像。其優點是對版面的適應性比較好,可以處理複雜的版面;缺點是計算量大,比較費時。
(3)非層次性方法。同時使用整體和局部特徵處理比較複雜的版面,既保證了分割的精確性,又兼顧了處理的時間效率。的連通域,提取其中大連通域區域,然後對其他連通域區域進行文本行列級別處理,最後直到文本塊區域級別。其中,連通域是最基本的級別,也是最為關鍵的處理對象。投影分析法是一個補充算法,其主要功能是對上述連通域級別中提取出的大連通域區域進行區域屬性判定。其原理是根據待分析文檔中的表格區域與圖像區域的行列投影特徵是否包含周期性的尖峰,判斷區域屬性。周期性是指區域中尖峰的投影值相同並且多次出現。
圖像分割
圖像分割即將圖像分成具有各自特性的同質區域並提取出感興趣目標物體的技術和過程, 它是圖像處理到圖像分析的關鍵步驟,是圖像處理和機器人視覺領域的基本問題之一,近年來已成為社會研究的熱點,被越來越廣泛地套用於各種領域,如遙感氣象服務,醫學影像分析,軍事研究領域、交通圖像分析、圖像壓縮、圖像檢索等。圖論是套用數學的一個分支, 主要以圖為研究對象 與圖像之間有很好的映射關係,近年來使用圖論中許多成熟的理論和數學工具進行圖像分割已成為圖像分割領域研究的熱點。其主要思想是將待分割圖像映射為加權圖,圖像的像素構成圖的頂點集,其特徵信息(灰度、顏色等)對應每個頂點的屬性,像素之間的相鄰關係對應圖的邊集,邊的權值對應像素之間的相似性或差異性。將圖像映射為圖後,圖像分割過程可以看作是根據像素的特徵信息,對每一個像素分配標記的過程,相同特性的像素具有相同的標記,不同特性的像素具有不同的標記。如何定義一個好的分割方法,其面臨的問題是:如何為一個好的分割定義直觀有效的分割準則;如何在提高分割性能的同時降低計算的複雜度;如何評價一個分割方法。由於主觀傾向,什麼是一個好的分割尚在討論,如果該問題已明確,如何定義一個最優分割準則仍然是一個挑戰。根據
格式塔理論,圖像分割與感知聚類和數據聚類密切相關,好的分割指視覺上比較重要的且能夠反映圖像局部特性或全局特性的類別,而人類感知系統則主要使用一系列分割準則,例如相似性、相近性、連續性、完整性以及同向性等進行分類標記。該理論一經提出,引起了廣大研究者的研究熱情。到目前為止,國內外研究者已經提出很多種圖像分割方法,主要分為兩種策略:
1) 根據圖像灰度值的相似性或同質性將圖像劃分為區域,目標物體通過部分區域的合併產生,例如閾值法、聚類法、區域分離以及區域融合等。
2) 根據圖像灰度值的不連續性和突變性尋找目標物體或其輪廓的位置, 根據該位置進行空間上的延伸,即通過檢測圖像的特徵點、線、面進行圖像分割,例如邊緣檢測法。
光學字元識別
用光電方法自動識別手寫或印刷字元的技術。先用光學掃描裝置掃描人眼可讀的文字,經文字反射的強弱不等的光線照射在接收裝置的光電元件陣列上,轉換成相應的電脈衝信號;然後以電信號記錄的文字圖形被讀入存貯元件陣列,與預先存貯在那 里的文字圖形進行比較,從而將輸入的文字信息加以鑑別和分類。用這種技術識別的字型尚有限制,現常用的有A型和B型兩種用拉丁 字母、阿拉伯數字以及其他符號組成的字元組。用
光學字元識別方法 可把文字信息直接輸入電子計算 機,避免了用鍵盤,穿孔帶等方式輸入文字信息時易於產生的錯誤,而且工作程式十分簡便。
模式識別
模式識別(Pattern recognition),就是通過計算機用數學技術方法來研究模式的自動處理和判讀。我們把環境與客體統稱為“模式”。隨著計算機技術的發展,人類有可能研究複雜的信息處理過程。信息處理過程的一個重要形式是生命體對環境及客體的識別。對人類來說,特別重要的是對光學信息(通過視覺器官來獲得)和聲學信息(通過聽覺器官來獲得)的識別。這是模式識別的兩個重要方面。市場上可見到的代表性產品有光學字元識別、
語音識別系統。
計算機識別的顯著特點是速度快、準確性高、效率高,在將來完全可以取代人工錄入。
識別過程與人類的學習過程相似。以
光學字元識別之“漢字識別”為例:首先將漢字圖像進行處理,抽取主要表達特徵並將特徵與漢字的代碼存在計算機中。就像老師教我們“這個字叫什麼、如何寫”記在大腦中。這一過程叫做“訓練”。識別過程就是將輸入的漢字圖像經處理後與計算機中的所有字進行比較,找出最相近的字就是識別結果。這一過程叫做“匹配”。