全稱為哈爾濱工業大學多人手寫庫(Harbin Institute of Technology-Multiple Writers Database,縮寫為HIT-MW庫)。
基本介紹
- 中文名:哈爾濱工業大學多人手寫庫
- 外文名:Harbin Institute of Technology-Multiple Writers Database
- 縮寫:HIT-MW庫
- 製作單位:哈工大人工智慧研究室
全稱為哈爾濱工業大學多人手寫庫(Harbin Institute of Technology-Multiple Writers Database,縮寫為HIT-MW庫)。 HIT-MW庫是哈工大人工智慧研究室製作的。它是國內第一款脫機手寫中文文本庫(與以往的單字型檔不同),包含20萬字,有超過780書寫者書寫。
HIT-MW庫的收集過程,採取了多種措施來保證樣本的真實性和代表性,因此庫中包含了很多複雜手寫現象,不僅包括歪斜的文本行,還有交疊和粘連文本行;除了抄寫錯誤,還有塗改文字的存在。HIT-MW庫適合於研究手寫文檔的糾斜、文本行的切分和無切分策略的脫機手寫識別等面向實際套用的任務。