點鈔機冠字號識別專為A類點鈔機的人民幣的冠字號而設計的識別方法。
出處,釋義,意義,相關說明,
出處
2010年中華人民共和國質量檢驗檢疫總局、中國國際標準化管理委員會發布了點驗鈔機國家標準GB16999-2010《人民幣鑑別儀通用技術條件》(以下簡稱“新國標”),並於2011年5月1日開始實施。新國標第5條中將冠字號碼識別技術納入點驗鈔機鑑別技術種類。
釋義
此專為A類點鈔機的人民幣的冠字號而設計的識別方法。根據使用CIS採集圖像及點鈔機的運行特性,冠字號圖像已在鈔票走完後即完成冠字號圖像部分的旋轉及提取,已經轉換為280*50的圖像(所有票值的人民幣都可正確提取),根據鈔票字元的固有特性(筆畫亮度、粗細、高度、間隔等)取出冠字號的二值化圖像。
意義
“冠字號碼”是人民幣的“身份證號”,在紙幣流通、管理和金融安全等日常生產、生活經濟活動中有著重要作用。
將“冠字號碼識別技術”引入標準(套用),對鑑別儀機具技術發展及套用、紙幣運行管理、貨幣反假、公共安全管理和保護銀行、商業及消費者合法權益,有著深遠意義。
相關說明
所有面值的鈔票整個冠字號長度基本相同,約220點像素(需要根據鈔票的傾斜角度進行校正);所有面值的鈔票的最大高度一樣(此高度通過電機的速度可算出字元在圖像的像素點數);100元、50元的字型一樣(50元線條更細點),字型中間最大,兩邊最小,同樣高度及間距相應變化;20、10、5元的字型一樣,都是前面4個字元中的兩個字母高度最高,其餘的高度一樣;所要識別的字元都比較正;由於受電機速度和採集紅外的影響,字元的橫線比較容易模糊甚至斷筆(特別是50元以下);
總體思路:識別的字元只限於26個大寫的英文字母和10個0~9的數字,字元比較固定(以後的版本一般也是這些字元),字型也相對比較固定,用分類法識別加上每個字元的固有特性,用一個或多個特徵把字元由大類分成小類,直到分出所有字元;由於字元大小及間距都已經確定,可利用筆畫特徵進行分類,分類法對於哪裡出錯一目了然,程式維護更加容易;這樣點鈔機可真正做到分級把控(前面的程式已經做到分級,如,圖像採集-角度計算-正反面判斷-冠字號圖像定位-冠字號圖像提取-字元定位-字元切分-二值化圖像等),分類法可大大避免特徵的重複計算,針對性更強。
完全基於字元特徵的字元識別
考慮到人民幣冠字號字元筆畫中橫豎特徵比較明顯的這一特徵,通過筆畫的橫豎特徵能在一定程度上劃分字元集,但常用的方法都是先判斷字元的筆畫是否有橫或者豎,而未綜合橫豎兩個特徵來進行字元集的初步劃分,這樣劃分得到的字元集往往都是不太理想的,本文採用方法是利用特徵向量記錄下橫豎特徵,然後根據特徵向量來進行字元集的初步劃分,能得到劃分比較理想字元集。最後再根據每個字元集中所包含的字元進一步利用字元特徵來進行所有冠字號的識別。本法的流程圖如圖29所示:
圖29 完全基於字元特徵的字元識別
流程圖相關說明:
(1)字元“1”和“I”的判斷(不考慮1元的)。直接用字元寬度來鑑別;鑒於05版面額50元、100元的“1”上邊有“帽”,99版的和50元以下的這兩個字元字型一樣。無“帽”的情況下,若字元位於冠字號第二位,則是“I”,若是第三位,則看第二位識別的結果。類似的“0”和“O”也如此判斷。當有斷筆情況發生時,別的字元也有可能寬度太小的情況,如7、T、J、L,甚至Y也有可能,所以判斷這兩個字元時,也需要判斷其豎線特徵及還有沒有別的特徵;
(2)特徵向量為一個位元組,高4位表示豎線特徵,取值為0到7,分別代表:第4位左豎線、第5位代表中豎線、第6位代表右豎線;低4位代表橫線特徵,取值為:第0位上橫線、第1位代表中橫線、第2位代表下橫線。
根據橫豎特徵組合初步劃分的字元集如表1所示。
表1 初步劃分字元集
從表中可以看出同一個字元由於傾斜、噪音等因素的影響,可能出現不同的特徵。上表是通過對一定量的圖片進行仿真劃分得到的字元集,從表中可以看出初步劃分的字元集還是比較理想的。
1、識別到每個字元。其中除了根據特徵,還得結合位置來進行識別,所謂根據位置識別則是利用了冠字號的特徵,由於目前05版紙幣僅有二冠號和三冠號,所以字母僅可能出現在前三位,且第一位必定為字母,後七位必定為數字,第二位和第三位可能為字母,也可能為數字;通過特徵識別會有一定的誤識別,因此通過結合位置識別來提高識別率。具體到每個字元集的劃分,利用特徵如下(步驟比較多的結合以流程圖說明):