概述
OCR通過掃描和攝像等光學輸入方式獲取圖像上的文字信息,利用各種模式識別算法分析文字形態特徵,判斷出文字的標準碼,並按通用格式存儲在文本檔案中。所以OCR是一種非常快捷、省力的文字輸入方式,也是在文字數據量大的今天被人們廣泛採用的輸入方法。
OCR技術並非一項新的技術,遠在計算機之前就有了。早在1929年,德國的科學家Tausheck首先提出了OCR的概念。幾年後,美國科學家Handel也提出了利用光學技術對文字進行識別的想法。在20世紀60、70年代,世界各國就開始有OGR的研究,在研究的初期,多以文字的識別方法研究為主,且識別的文字僅為0—9的數字。以同樣擁有方塊文字的日本為例,1960年左右開始研究OCR的基本識別理論,初期以數字為對象,直至1965—1970年之間開始有一些簡單的產品,如印刷文字的郵政編碼識別系統,用來識別郵件上的郵政編碼,幫助郵局做區域分信的作業。也因此至今郵政編碼一直是各國所倡導的地址書寫方式。
系統構成
一個OCR系統可分為3個部分。
預處理部分
首先把待識別的文本通過掃描設備輸入系統,由
硬體、
軟體完成
數字圖像處理,把待識別文本中的照片、圖形與文字分離開來,並將分離出的文字分割成單個符號圖形供識別部分使用。
識別部分
把分隔出的文字圖形規格化,提取文字的幾何特徵和統計特性,並把特徵送入識別器,得到待識別文字的內碼作為結果。
後處理部分
綜合考慮識別結果以及預處理部分的某些因素,生成具有一定格式的識別結果,然後對整個識別結果進行語言學方面的檢查,糾正誤識成分,從而產生OCR系統對該識別文本的最終結果。
OCR技術的套用
目前印刷體OCR的識別技術已經達到較高水平。OCR產品已由早期的只能識別指定的印刷體數字、英文字母和部分符號,發展成為可以自動進行版面分析、表格識別,實現混合文字、多字型、多字號、橫豎混排識別的強大的計算機信息快速錄入工具。對印刷體漢字的識別率達到98%以上,即使對印刷質量較差的文字,其識別率也達到95%以上,對手寫體漢字的識別率也達到70%以上。
基於傳統OCR技術的掃瞄器因其功能單一、套用及攜帶不方便等諸多弊病,已成為OCR技術廣泛普及套用的主要障礙之一。與此同時,
數位相機、
攝像機、PDA、拍照手機正在迅速普及,利用這些設備拍攝的自然視覺圖像與掃瞄器輸出的圖像不同,它往往會有焦距變化、角度形變、光線變化、背景變化等多種複雜情況出現,因此需要藉助超越傳統掃瞄器的OCR新技術來實現對這些圖像的識別。目前OCR技術已經迎來了新的套用高潮,例如,可以直接把OCR移植到數字移動產品上,當用戶利用數位相機、數碼攝像機或手機等設備把文章或資料拍下來之後,就可以把這些數字圖像資料傳入計算機,然後再通過OCR識別軟體,變成可供編輯、使用、保存的文本資料。OCR技術與數字移動產品相結合,使OCR的套用領域更加豐富、普及。