簡介
OCR技術是光學字元識別的縮寫(Optical Character Recognition),是通過掃描等光學輸入方式將各種票據、報刊、書籍、文稿及其它印刷品的文字轉化為圖像信息,再利用文字識別技術將圖像信息轉化為可以使用的計算機輸入技術。可套用於銀行票據、大量文字資料、檔案卷宗、文案的錄入和處理領域。適合於銀行、稅務等行業大量票據表格的自動掃描識別及長期存儲。相對一般文本,通常以最終識別率、識別速度、版面理解正確率及版面還原滿意度4個方面作為OCR技術的評測依據;而相對於表格及票據, 通常以識別率或整張通過率及識別速度為測定OCR技術的實用標準。
解析
採用OCR識別技術,可以將其套用於銀行票據光碟縮微系統,可以自動提取票據要素,可減輕操作員的工作量,減少重複勞動,尤其是在與銀行事後且監督系統相結合後,可以替代原先的操作人員完成事後監督工作。由計算機自動識別票據上的日期、帳號、金額等要素,通過銀行事後監督系統與業務系統中的數據進行比較,完成傳統的事後監督操作;配有印章驗證系統後,自動將憑證圖像中的印章與系統中預留的印鑑進行比較,完成印章的真偽識別。
OCR識別技術不僅具有可以自動判斷、拆分、 識別和還原各種通用型印刷體表格,在表格理解上做出了令人滿意的實用結果,能夠自動分析文稿的版面布局,自動分欄、並判斷出標題、橫欄、圖像、表格等相應屬性,並判定識別順序,能將識別結果還原成與掃描文稿的版面布局一致的新文本。表格自動錄入技術,可自動識別特定表格的印刷或列印漢字、字母、數字,可識別手寫體漢字、手寫體字母、數字及多種手寫符號,並按表格格式輸出。提高了表格錄入效率,可節省大量人力。同時支持將表格識別直接還原成PTF、PDF、HTML等格式文檔;並可以對圖像嵌入橫排文本和豎排文本、表格文本進行自動排版面分析。
利用目前的高新技術-OCR,直接從憑證影像中提取金額、帳號等重要數據,代替人的手工錄入,與條碼識別/流水識別緊密結合,實現建立事後副本帳、完成事後監督的工作。OCR處理一般使用性能較好的PC機,OCR處理程式一經啟動會自動掃描資料庫中的憑證影像,發現有需OCR處理而未處理的,提取到本地進行處理。
OCR手寫體、印刷體識別技術,能識別不同人寫的千差萬別的手寫體漢字和數字,套用於本系統,識別憑證影像中儲戶填寫的信息,如大寫金額、小寫金額、帳號、存期、日期、證件號等,可以代替手工錄入。同時被識別得出的金額還要與流水識別所得的金額進行核對,核對成功,則OCR識別成功。這樣處理是為了避免誤判。
經過對銀行產生的實際憑證進行的大量測試,在實際開發過程中,根據銀行的實際需求,OCR技術在票據和表格識別能力和手寫體自動識別能力上不斷提升,目前處理速度可達到每分鐘60~80張票據,存摺識別率已經達到了85%以上,存單、憑條識別率達到90%以上,而85%以上的識別率就能減少80%以上的數據錄入員。
在檔案領域OCR技術使檔案掃描成果達到了全文可識別,將檔案數位化發展提升到了一個新的階段,是原本掃描出來的圖片變得更容易進行檢索,為數字檔案館的數據查詢提供了技術支持,是檔案數位化發展中必不可少的一環。