智慧型圖文信息處理研究室隸屬於清華大學電子工程系圖象圖形研究所,從事智慧型圖文信息處理。
基本介紹
- 中文名:清華大學智慧型圖文信息處理研究室
- 外文名:Intelligent Information Processing Laboratory of Tsinghua University
- 成立時間:1984年
- 地理位置:北京市海淀區
智慧型圖文信息處理研究室隸屬於清華大學電子工程系圖象圖形研究所,也是清華信息科學與技術國家實驗室的一部分。研究室主體位於信息科學技術大樓(FIT)1區502室,具有良好的工作環境。研究室主任丁曉青教授、王生進教授、劉長松副教授、方馳副研究員、彭良瑞講師、文迪助研以及二十餘名博士生、十多名碩士生構成了朝氣蓬勃的學術研究梯隊。
研究室承擔了多項國家自然科學基金項目及863項目,自上世紀80年代開始,從事智慧型圖文信息處理,特別是文字和圖像的識別理解研究,致力於賦予計算機視覺感知功能。在漢字及多文種文字識別、多模式生物特徵身份認證方面取得了多項具有國際領先水平的研究成果,形成Th-OCR系列文字識別軟體和TH-ID生物特徵(人臉、筆跡等)認證軟體產品,成功地進行了產業化推廣,廣泛套用於國內外市場,與微軟、諾基亞、西門子、三星、IBM、惠普等多家國際知名公司開展了技術授權和研究合作。目前的研究工作主要包括多文種(漢、日、韓、英、藏、維吾爾、哈薩克、柯爾克孜、阿拉伯、蒙古文等)文檔識別,CameraOCR,在線上及脫機手寫文字識別,表格識別,生物特徵認證、視頻監測與分析等。
清華大學智慧型圖文信息處理研究室於1984年開始了文字識別研究領域的探索。1989年開創我國第一套“多字型多字號印刷漢字識別系統”,以THOCR品牌推向產品化,獲得1991年國家教委科學技術進步一等獎和1992年國家科技進步三等獎。1994年完成我國首套中英文混排印刷文本識別系統“THOCR-94高性能漢字英文混排印刷文本識別系統”,獲95年北京市科技進步二等獎,同時被評為94年全國十大電子科技成果。1997年研發成功的“THOCR-97綜合集成漢字識別 系統”,集印刷漢字識別、在線上手寫漢字識別、脫機手漢字識別和表格識別於一體,涵蓋全部漢字識別,獲99年國家科技進步二等獎和98年國家教委科技進步一等獎。
為了解決大規模的文檔自動數位化的急迫需求,1999年“基於識別的原文重現電子出版物製作系統”研製成功。該系統完全自動化地實現了從版面分析、文檔識別、版面重構在內的全信息數位化系統,為我國文檔大 規模數位化創造條件,獲北京市科技進步二等獎。為參與文字識別的國際競爭,2000年研製成功“高性能中日韓東方文字文檔識別系統”,以其國際領先的漢字、日文和韓文的識別性能,在微軟Microsoft office 2003的中日韓識別項目招標國際競標中一舉奪標,THOCR系統走向了世界。2003年“高性能東方文字(漢日韓)文檔全信息數位化系統”獲國家科技進步二等獎。
在對漢字和其它文字識別研究取得了國際領先研究成果的基礎上,於2000年開始了對安全關鍵的生物特徵身份認證的研究工作,研製成功了整體性能居國際領先水平的TH-ID多模生物特徵(人臉筆跡簽字虹膜)身份識別認證系統。其中,TH-FaceID人臉識別系統在2004年國際模式識別會議舉辦的FAT2004人臉認證競賽中以全部測試指標第一而獲得“全面性能最優成就獎”;在2004年的863人臉識別評測中各項指標均獲第一。
1984年至1990年 | 開始漢字識別的探索 | 1.國家教委科技進步獎一等獎,國家科技進步獎三等獎 2.TH-OCR 90實用多字型多字號混合版面印刷體漢字識別系統 | TH-OCR 3.5 |
1992年 | 多字型印刷漢字識別 | TH-OCR 92高性能實用簡/繁體多字型多功能印刷漢字識別系統 | TH-OCR 4.0 |
1995年 | 漢英混排文檔識別 | THOCR-94高性能漢英混排印刷文本識別系統 | TH-OCR 5.0;TH-OCR 6.0 |
1997年 | 印刷、在線上及脫機手寫漢字識別 | 1.THOCR-97綜合集成漢字識別系統 2.1999年國家教委科技進步一等獎;國家科技進步二等獎 | TH-OCR 7.50; 文通筆; 表格識別系統 |
1999年至2002年 | 1.高保真文檔全信息數位化 2.智慧型校對工具,差錯率< 0.03% | 基於識別的原文重現全信息自動電子出版物製作系統 | TH-OCR 2000/8.0; TH-OCR 2003 |
批量表格數據自動錄入 | 高性能表格識別系統 | 金稅工程增值稅發票識別系統 | |
高性能漢日韓文檔分析、識別、理解 | 1.高性能中日韓文檔識別理解重構系統 2.2003年國家科技進步二等獎 | 1.TH-OCR 9.0 2.授權微軟公司在Office 2003 亞洲版中使用 | |
2002年至2004年 | 藏、維等少數民族文字以及阿拉伯文識別 | 1.多字型印刷藏文(混排漢英)文檔識別系統 2.維哈柯(漢英)阿(英)雙向印刷文檔識別系統 | TH-OCR Tibetan;TH-OCR UKK; 維吾爾、哈薩克、柯爾克孜以及阿拉伯文;TH-OCR Arabic |
2005年至今 | 蒙古文識別; 生物特徵身份認證; 視頻監測及分析 | TH-ID多模生物特徵(人臉筆跡簽字虹膜)身份識別認證系統 | TH-Face ID人臉認證軟體; 計算機筆跡鑑別系統; 在線上簽字識別認證 |