電子文檔識別系統

簡介

電子文檔識別系統是指通過模式識別和機器學習有關技術，識別電子文檔中內容，並能對電子文檔內容進行修改的系統。為了方便對電子文檔的識別，電子文檔識別系統中，一般將電子文檔轉換成圖像（文檔圖像），利用圖像識別有關技術，進行電子文檔識別，例如版面分析需要用到圖像分割技術。

文檔圖像預處理

文檔圖像即圖像格式的文檔。它是通過某種方式將紙質文檔等轉化為圖像格式的文檔，以供用戶電子閱讀。對於一個輸人文檔圖像而言，預處理是字元識別的首要環節。文檔圖像的預處理是字元識別的前提條件，只有預處理較好的文檔圖像才對文檔內容的識別有意義。考慮到一般圖像的處理步驟和公式識別的特點，系統採用了較為常用的圖像預處理方法，包括圖像二值化、平滑去噪、細化和歸一化處理。

(1)圖像二值化。將輸入的灰度圖像轉化成只有0和1值的二值化文檔圖像。

(2)平滑去噪。對輸人的文檔圖像進行去噪處理，使圖像質量較高，提高文字的識別率。

(3)細化和歸一化。在對某個字元進行定位切分之後，提取特徵之前採用的兩種圖像處理方法。細化後的文字既保留了原文字絕大部分的特徵，又利於特徵提取。歸一化是為了使不同字型、不同大小的文字達到一個統一的標準,進行特徵提取匹配。

版面分析

版面分析是指對印刷文檔圖像的版面進行分析，提取其中的文本、圖形、表格等各個不同區域，並確定其屬性。版面分析的目的是將不同的區域分割出來，對每個區域使用不同的處理方法進行相應處理。版面分析算法的分類目前，版面分析的算法通常可分為三類：

(1)自頂向下方法。從頁面的整體人手，重視整體信息，將文本圖像劃分為若干區域，再根據文本圖像的層次化結構信息，對主要區域繼續進行劃分。其優點是簡單、快速；缺點是在區域分割過程中需要藉助於先驗域值，對複雜版面適應性不強。

(2)自底向上方法。從圖像的像素級開始分析，重視局部信息，將圖像小區域逐步合併成大區域，直至覆蓋整個文本圖像。其優點是對版面的適應性比較好，可以處理複雜的版面；缺點是計算量大，比較費時。

(3)非層次性方法。同時使用整體和局部特徵處理比較複雜的版面，既保證了分割的精確性，又兼顧了處理的時間效率。的連通域,提取其中大連通域區域，然後對其他連通域區域進行文本行列級別處理，最後直到文本塊區域級別。其中，連通域是最基本的級別，也是最為關鍵的處理對象。投影分析法是一個補充算法，其主要功能是對上述連通域級別中提取出的大連通域區域進行區域屬性判定。其原理是根據待分析文檔中的表格區域與圖像區域的行列投影特徵是否包含周期性的尖峰，判斷區域屬性。周期性是指區域中尖峰的投影值相同並且多次出現。

圖像分割

圖像分割即將圖像分成具有各自特性的同質區域並提取出感興趣目標物體的技術和過程，它是圖像處理到圖像分析的關鍵步驟，是圖像處理和機器人視覺領域的基本問題之一，近年來已成為社會研究的熱點，被越來越廣泛地套用於各種領域，如遙感氣象服務，醫學影像分析，軍事研究領域、交通圖像分析、圖像壓縮、圖像檢索等。圖論是套用數學的一個分支，主要以圖為研究對象與圖像之間有很好的映射關係，近年來使用圖論中許多成熟的理論和數學工具進行圖像分割已成為圖像分割領域研究的熱點。其主要思想是將待分割圖像映射為加權圖，圖像的像素構成圖的頂點集，其特徵信息(灰度、顏色等)對應每個頂點的屬性，像素之間的相鄰關係對應圖的邊集，邊的權值對應像素之間的相似性或差異性。將圖像映射為圖後，圖像分割過程可以看作是根據像素的特徵信息，對每一個像素分配標記的過程，相同特性的像素具有相同的標記，不同特性的像素具有不同的標記。如何定義一個好的分割方法，其面臨的問題是：如何為一個好的分割定義直觀有效的分割準則；如何在提高分割性能的同時降低計算的複雜度；如何評價一個分割方法。由於主觀傾向，什麼是一個好的分割尚在討論，如果該問題已明確，如何定義一個最優分割準則仍然是一個挑戰。根據格式塔理論，圖像分割與感知聚類和數據聚類密切相關，好的分割指視覺上比較重要的且能夠反映圖像局部特性或全局特性的類別，而人類感知系統則主要使用一系列分割準則，例如相似性、相近性、連續性、完整性以及同向性等進行分類標記。該理論一經提出，引起了廣大研究者的研究熱情。到目前為止，國內外研究者已經提出很多種圖像分割方法，主要分為兩種策略：

電子文檔識別系統

基本介紹

簡介

文檔圖像預處理

版面分析

圖像分割

光學字元識別

模式識別

相關詞條

熱門詞條