尚書7號OCR軟體是MICROTEK中晶科技公司,向漢王科技購買授權,贈送給用戶使用的軟體。尚書七號是一款專門為識別文字而研發的軟體,尚書七號是套用OCR技術,為滿足書籍、報刊雜誌、報盤票據、公文檔案等錄入需求,實現系統管理方式而設計的軟體系統。尚書七號OCR軟體適用於個人、小型圖書館、小型檔案館、小型企業進行大規模文檔輸入、圖書翻印、大量資料電子化的軟體系統。
基本介紹
- 中文名:尚書七號
- 類型:軟體
- 特色:可支持繁體WINDOWS系統
- 研發公司:MICROTEK中晶科技公司
軟體特色,使用方法:,詳細操作,識別,識別說明,識別步驟,注意,文檔識別,OCR識別,轉換技巧,
軟體特色
簡繁字集:除了簡體漢字外,還可以混識台灣繁體字5400多個以及香港繁體字和GBK漢字。
識別字型種類:能識別宋體、仿宋、楷、黑、魏碑、隸書、圓體、行楷等一百多種字型,並支持多種字型混排。
識別字號:初號 小六號字型。
表格識別:可以自動判斷、拆分、識別和還原各種通用型印刷體表格。
可支持繁體WINDOWS系統
使用方法:
1、打開尚書七號,選擇打開圖象。(我用的版本可以識別的格式有bmp、tif、jpg)
2、選擇開始識別或按F8。識別結果將顯示在視窗上部,下部顯示版面分析結果。其中紅線為可識別部分,綠線為不可識別。
3、選擇輸出--到指定格式檔案,將識別結果保存為需要的格式。
詳細操作
1.尚書7號OCR軟體是MICROTEK中晶科技公司,向漢王科技購買授權,贈送給用戶使用的軟體,該軟體是放在了掃瞄器隨機的驅動光碟中,用戶可以選擇安裝。
2.軟體安裝完畢後,用戶請點擊桌面左下角“開始”,找到“尚書7號OCR”軟體圖示,並點擊。打開尚書7號OCR的使用界面。
3. 打開尚書7號OCR的“檔案”采單下的“選擇掃瞄器”,選擇對應掃瞄器的驅動“MICROTEK SCANWIZARD 5”的選項。並選擇“確定”。
4. 選擇“檔案”選單下的“掃描”,將打開掃瞄器的驅動。下面的界面是掃瞄器的“高級控制臺”。
5. 用戶請注意選擇SCANWIZARD 5軟體中,左面“設定”視窗中的“圖像類型”,請選擇“RGB色彩”或者“灰階”的類型,並注意掃瞄器解析度是300PPI。
6. 當用戶作完“預覽”後,設定需要掃描的範圍,就可以點擊“掃描”按鈕,掃瞄器將開始掃描的工作。將掃描好的檔案,直接傳遞到尚書7號OCR默認的目錄中(默認的存儲圖像檔案的目錄是用戶計算機C糟下的SHOCR2002目錄下的IMAGE目錄)。掃描完畢後,請用戶關閉掉掃瞄器驅動程式SCANWIZARD 5.用戶可以看到需要掃描的檔案已經傳遞給尚書7號中,默認的檔案名稱是HW001.JPG。
7. 請用戶選擇尚書7號軟體中的“編輯”選單下的“自動傾斜校正”,讓尚書7號軟體對掃描進來的圖像作相應的旋轉,以保證圖像中的文字是水平排列,而非傾斜。因為太過傾斜的文字,將影響到尚書軟體的識別效果。
9. 版面分析完畢後,用戶可以看到對應的文字塊,都有對應的識別框被選擇。
10. 用戶此時,請注意,對應的識別框,其屬性是否正確。識別框分別有“橫欄”、“豎欄”、“表格”和“圖像”等四種屬性,分別有四種不同顏色的選框來表示。
11. 核對無誤後,用戶可以使用“識別”選單下的“開始識別”按鈕。得到結果......
12. 此時實際上已經進入文字校對狀態......
13. 當用戶校對完畢後,或者不在尚書7號內作校對,用戶可以選擇“輸出”選單下的“到指定格式檔案”.
用戶可以看到,識別的結果,有TXT、RTF、HTML、XLS等格式可以選擇。默認的輸出的目錄是用戶計算機C糟下的SHOCR2002目錄下的OUTPUT目錄。用戶選擇一個對應的檔案名稱,就可以存檔了。為了方便,用戶可以選擇“輸出到外部編輯器”的選項,這樣存檔的同時,尚書7號OCR會自動調出對應的編輯軟體,如TXT存檔可以自動調用NOTEPAD軟體,RTF存檔將自動調用WORD軟體,XLS存檔將自動調用EXCEL軟體。
一個簡單的OCR操作就此完成了。
識別
識別說明
用掃瞄器掃描的文字圖像,不能對個別文字進行編輯修改,在教學中,需要利用文字識別軟體,將文字圖像進行識別,將圖像格式轉化成文本格式,常見的文字識別軟體有很多,主要功能基本相同,尚書七號就是其中很優秀的一款。用尚書七號對文字圖像識別轉化的過程,利用其主選單:“檔案”、“編輯”、“識別”、“輸出”可以很方便地完成。
識別步驟
步驟1:獲取文字圖像檔案。
選擇“檔案”選單下的“掃描”或“打開圖像”(將已經掃描好的圖像檔案打開)命令,打開圖像檔案。如果連線了多台掃瞄器,可以選擇“檔案”選單下的“選擇掃瞄器”命令,調用掃瞄器。
步驟2:對掃描的圖像頁進行調整
步驟3:版面分析與文字識別轉化
版面分析,選擇識別範圍,在進行文字識別前要選擇識別範圍,識別過程的核心是“版面分析”。尚書七號的自動版面分析功能很強,對報紙雜誌等複雜的版面,也能保持很高的分析正確率。
設定好後,直接點擊“開始識別”的按鈕就可以進行文字識別了。
步驟4:校對修改
自動識別完畢,識別結果的“文本視窗”會彈出,這個視窗能夠提供識別結果的校對,為了校對方便,尚書七號增加了游標跟隨顯示原圖像行的校對方法(如圖3出現的黃色提示行的出現)。
提供的校對方法,一眼就能夠看到圖像原文和識別出文本的差別,如果發現識別有誤,可以進行修改。
步驟5:輸出
如果檢查修改後確認無誤,選擇識別結果的“輸出”選單,輸出的檔案格式有:RTF、HTML、XLS、2126,可以根據自己的需要選擇對應的格式。如果用戶想得到類似原文的識別結果,請選擇RTF格式。把RTF格式輸出的檔案用WORD打開後,會發現幾乎保留了原文的所有痕跡,包括原來頁面中的彩色圖像,都已經保留在WORD中了。
注意
1、圖片質量。批量識別時,首先應確保要識別的圖片質量。如不能識別還需要重新處理,甚至會導致軟體死掉,浪費時間。我本人就曾深受其苦。圖片解析度應稍高,肉眼看感覺偏大,因為識別工具是有點近視的,文字和底色對比要求不高,通常來說,肉眼能看清楚即可,底色發灰或發黑基本不會影響識別結果。
2、避免有不規則形狀(圖片)出現。識別工具在進行版面分析時,只能採用方形切割,當圖片中存在文字環繞不規則形狀時,則無法將文字和該形狀劃分開,則將出現錯誤或無法識別。此時,較快的辦法是在PS中,吸取該圖片附近的頁面底色,用粗畫筆將該區域塗上,不必講求效果,顏色沒有太大差別即可,重新保存圖片。
3、避免圖象傾斜。尚書七號中也有自動傾斜校正和手動傾斜校正工具,但即使經過校正,識別率還是低很多。如果是拍攝的書本,可能會產生一定弧度,此時保證行的兩端對齊即可。另外在拍攝時應避免高光等會使圖象各部分亮度反差大的情況。
4.為了得到較好的OCR使用效果,建議用戶將掃瞄器的驅動SCANWIZARD 5軟體,由初始安裝的標準控制臺,切換到高級控制臺狀態。
文檔識別
1. 過程與上面所介紹,基本一樣,只是用戶需要注意存檔格式。
2. 一般,如果用戶需要對該文字,進行重新排版工作,請用戶選擇TXT存檔,然後再將其內容拷貝到WORD中。
3. 如果用戶希望保留稿件的原有格式,並能夠作版面的恢復,請使用RTF格式存檔,該格式將有版面的恢復功能。但是用戶只能針對其中的文字,作一些個別字的調整,無法作大範圍的排版方式的修改。
OCR識別
1. 其中,掃描、自動傾斜矯正過程同普通文稿是一樣的。
2. 但是注意“版面分析”後,對其結果進行檢查。應該在表格上,經過版面分析後,有一個蘭色的框,選中了表格部分,如果不是,用戶需要修改欄屬性或者考慮手動劃定識別區域。
3. 注意輸出結果的選擇,如果是需要重新排版,用戶應該分別用TXT和XLS格式存檔,然後將TXT中的文字和XLS中的表格分別拷貝到WORD,進行排版。
轉換技巧
1、可以將書攤平,一次將兩邊都掃描或拍攝下來,節省時間。處理圖片時不必剪開,這時要用到尚書七號的分欄工具了。直接用滑鼠在打開的圖象上拖拽,可出現選框,分成左右兩個分欄,分欄左上角的編號就是識別結果的排列順序。它會將自動按照編號順序將所有分欄的內容連線在一起。
2、手動分欄可解決部分圖象無法識別的問題。在進行識別後,可以看到版面分析結果,有時候由於圖象質量原因,自動分析出的有效版面只是很小的一部分。此時可以按ctrl+del取消版面分析結果,用滑鼠拖拽,劃定需要識別的範圍,重新進行識別。當圖片質量問題不大時,這個辦法有效。
有時候(尤其是拍攝所得圖片),文字扭曲嚴重,即使用PS也無法調整好。可嘗試手動分欄,多劃分幾欄,每一欄包含一行或少數幾行文字,這樣對於每個分欄來說,它所包含的範圍內誤差度相對減小,可提高識別率。
3、使用批量識別功能。尚書七號可以一次性識別大量圖片。但在實際套用中,依次識別不宜過多,便於隨時檢查識別結果,發現錯誤及時修正。
4、批量識別圖象時,保存檔案也要花費大量時間。事實上,尚書七號在識別檔案的同時,會在圖片所在資料夾生成文本文檔,名稱與圖片名稱相同。因此,如果不是特別需要,可以不必再保存輸出結果。
如所識別內容屬於一部分,可以將左側的圖象列表全選(ctrl+A),再選擇“輸出--到指定格式檔案”,則當前所有識別內容按照圖片排列順序保存在一個檔案中。
5、如果想保留檔案中的圖片,在輸出結果時選用RTF格式,再用word打開,可以看到格式完全正確的文字和圖片了。