文檔識別

文檔識別

文檔識別主要套用於學習工作等一些關於文檔處理的辦公領域,可以快速高效利用OCR技術對文案文檔、證書、票據、病歷、說明書、簡歷、契約等各類紙質文檔進行識別,另外可以通過雲端技術將識別後的內容以及圖像上傳到伺服器進行備份儲存,並具備方便的檢索功能,可以使用戶簡單方便的找到備份的內容。

基本介紹

  • 中文名:文檔識別
  • 外文名:Document recognition
  • 使用技術:OCR
科學名詞定義,原理,

科學名詞定義

  • 中文名稱:文檔識別
  • 英文名稱:Document recognition
  • 定義:文檔識別是指用OCR技術將文本從圖片形式識別成計算機可讀的形式,比如doctxtexcel, PDF, html等輸出格式。

原理

圖像輸入:讀取不同圖像格式檔案的算法。
圖像預處理:主要包括圖像二值化,噪聲去除,傾斜較正等算法。
版面分析:將文檔圖片分段落,分行的算法就叫版面分析算法。
字元切割:字元切割算法主要處理因字元粘連、斷筆造成字元難以簡單切割的問題。
字元特徵提取:對字元圖像提取多維的特徵用於後面的特徵匹配模式識別算法。
字元識別:將當前字元提取的特徵向量與特徵模板庫進行模板粗分類和模板細匹配,識別出字元的算法。
版面恢復:識別原文檔的排版,按原排版格式將識別結果輸出到word或pdf等格式文檔,叫做版面恢復算法。
後處理校正: 根據特定的語言上下文的關係,對識別結果進行較正的算法。

  

相關詞條

熱門詞條

聯絡我們