識別看看

別看看是一款優秀的文字識別(OCR)軟體,可以將一般圖片或 PDF 中的文字識別、抄錄出來,從而省去不必要的打字時間。且有比較好的識別率和識別速度,有大量掃描圖像或文檔時特別有用識。

基本介紹

  • 軟體名稱:識別看看
  • 軟體版本:2.0
  • 軟體語言:中文
  • 軟體大小:15.6M
軟體信息,軟體介紹,版本更新,ocr文字識別技巧,

軟體信息

軟體類別: 套用其他
軟體產地:國產軟體
套用平台:WinXP, win7, WinAll

軟體介紹

不論 PDF 圖片清淅與模糊,版面不論簡單與複雜,TryOCR 的識別率和速度都表現得相當出色,應該是目前國內比較好的 OCR 工具。
測試發現 TryOCR 簡單易用,支持文檔識別、框選識別、多行識別三種模式,另外還有額外的文字識輔助別功能,包括二值化、旋轉校正、版面分析、框線去除、噪聲去除等,避免了著作權風險。

版本更新

2.0版本更新內容:
1、增加中文識別(含標點符號),暫不支持中英混合,暫不支持中文數字混合,暫不支持二級字型檔,暫不支持繁體,暫不支持筆畫粘連
2、增加“配置”選項
3、增加右鍵快捷選單

ocr文字識別技巧

在最近幾年中,ocr識別技術隨著掃瞄器的普及得到了飛速的發展,掃描、識別軟體的性能不斷強大並向智慧型化不斷升級發展。但是要想快速地獲取正確的掃描結果,得到高效率的文字錄入,必須認真學習有關知識,結合實踐經驗,摸索出自己的全套解決方案。有時我們在作文字識別工作時識別率非常低,根本達不到軟體所說的95%以上,請先不要責怪硬體或軟體,其實這是沒有掌握好掃描及ocr識別技巧的原因。
下面是文字識別操作中經常用到了一些方法和技巧。
1.解析度的設定是文字識別的重要前提。一般來講,掃瞄器提供較多的圖像信息,識別軟體比較容易得出識別結果。但也不是掃描解析度設得越高識別正確率就越高。選擇300dpi或400dpi解析度,適合大部分文檔掃描。注意文字原稿的掃描識別,設定掃描解析度時千萬不要超過掃瞄器的光學解析度,不然會得不償失。下面是部分典型設定,僅供參考。
(1)1、2、3號字的文章段,推薦使用200dpi。
(2)4、小4、5號字的文章段,推薦使用300dpl
(3)小5、6號字的文章段,推薦使用400dpl
午(4)7、8號字的文章段,推薦使用600dpi。
2. 掃描時適當地調整好亮度和對比度值,使掃描檔案黑白分明。這對識別率的影響最為關鍵,掃描亮度和對比度值的設定以觀察掃描後的圖像中漢字的筆畫較細但又不斷開為原則。進行識別前,先看看掃描得到的圖像中文字質量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應減小亮度後再試試。
3.選好掃描軟體。選一款好的適合自己的ocr軟體是作好文字識別工作的基礎,一般不要使用掃瞄器自帶的oem軟體,oem的ocr軟體的功能少、效果差,有的甚至沒有中文識別,經過比較,我認為清華紫光ocr2003專業版和尚書ocr6.0文本自動識別輸入系統的識別能力與使用功能更突出一些。再選一個圖像軟體,ocr軟體不是有掃描接口嗎?為什麼還找圖像軟體?第一,ocr軟體不能識別所有的掃瞄器;第二,也是最關鍵的,利用圖像軟體的掃描接口掃描出來的圖像便於處理;一般選用photoshop。
4.如果要進行的文本是帶有格式的,如粗體、斜體、首行縮進等,部分ocr軟體識別不出來,會丟失格式或出現亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟體是否支持文字格式的掃描。也可以關閉樣式識別系統,使軟體集中注意力查找正確的字元,不再顧及字型和字型格式。
5.在掃描識別報紙或其他半透明文稿時,背面的文字透過紙張混淆文字字形,對識別會造成很大的障礙。遇到該類掃描,只要在掃描原稿的背面附。蓋一張黑紙,掃描時,增加掃描對比度,即可減少背面模糊字型的影響,提高識別正確率,
6.一般文本掃描原稿都為黑、白兩色原稿,但是在掃描設定時卻常將掃描模式設為灰度模式。特別是在原稿質量較差時,使用灰度模式掃描,並在掃描軟體處理完後再繼續識別,這樣會得到較好的識別正確率。值得注意的是ocr識別軟體可以自己確定閥值,幾個百分點的閥值差異,可能就會影響識別的正常進行。當然,得到的圖像檔案的大小會比黑白檔案大很多。在進行大批量文稿掃描時,必須對原稿進行測試,找到最佳的閥值百分比。
7.遇到圖文混排的掃描原稿,首先明確使用的識別軟體是否支持自動分析圖文這一功能。如果支持的話,在進行這類掃描識別時,ocr軟體會自動計算出文本的內容、位置和先後順序。文字部分可以按照標示順序正常識別。
8.手動選取掃描區域會有更好識別效果。設定好參數後,先預覽一下,然後開始選取掃描區域。不要將要用的文章一股腦兒選在一個區域內,因為現在的文章排版為了追求更好的視覺效果,使用圖文混排的較多,掃成一幅圖像會影響ocr識別。因此,要根據實際情況將版面分成n個區域,怎么劃分區域呢?每一區域內的文字字型、字號最好一致,沒有圖形、圖像,每一行的寬度一致,遇到長短不一,再細分,一般一次最多可掃描10個選區。根據不同情況,合理地設定識別區域的順序。不要嫌這個過程太煩,那可是提高識別率的有效手段。注意各識別區域不能有交叉,做到一切覺得完好以後再進行識別。這樣一般的識別率會在95%以上,對於識別不正確的文字進行校對後,就可以進入相應的文字處理軟體進行所需的處理了。
9.在放置掃描原稿時,把掃描的文字材料一定要擺放在掃描起始線正中,以最大限度地減小由於光學透鏡導致的失真。同時應保護掃瞄器玻璃的乾淨和不受損害。
文字有一定角度的傾斜,或者是原稿文字部分為不正規排版,必須在掃描後使用旋轉工具,進行糾正;否則ocr識別軟體會將水平筆劃當做斜筆劃處理,識別正確率會下降很多。建議用戶儘量將掃描原稿放正,用工具旋轉糾正會降低圖像質量,使字元識別更加困難。
10.先”預覽”整體版面,選定要掃描的區域,再用”放大預覽”工具,選擇一小塊進行放大顯示到全螢幕幕,觀察其文字的對比度,文字的深淺濃度,據情況調整”閥值”的大小,最終要求文字清晰,不濃(文字成團),不淡(文字斷筆伐),一般在”閥值”80左右為宜,最後再掃描。
11.用工具擦掉圖像污點,包括原來版面中的不需要識別的插圖、分隔線等,使文字圖像中除了文字沒有一點多餘的東西;這可以大提高識別率並減少識別後的修改工作。
12.如果要掃描印刷質量稍微差一些的文章,比如說報紙,掃描的結果將不會黑白分明,會出現大量的黑點,而且在字型的筆畫上也會出現粘連現象,這兩項可是漢字識別的大忌,將嚴重影響漢字識別的正確率。為獲得較好的識別結果,必須仔細進行色調調節,反覆掃描多次才能獲得比較理想的結果。另外由於報紙很薄且大部分紙質不高,導致掃瞄器上蓋板不能完全壓住報紙(有縫隙),所以一般情況下報紙的掃描識別效果沒有雜誌的效果好。解決辦法是在報紙上壓一至兩本16k的雜誌,效果還是不錯的。

相關詞條

熱門詞條

聯絡我們