基於局部特徵的自然場景下文字定位和識別研究

基於局部特徵的自然場景下文字定位和識別研究

《基於局部特徵的自然場景下文字定位和識別研究》是依託上海交通大學,由周異擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於局部特徵的自然場景下文字定位和識別研究
  • 項目類別:青年科學基金項目
  • 項目負責人:周異
  • 依託單位:上海交通大學
項目摘要,結題摘要,

項目摘要

自然場景中的文字定位和識別在網際網路信息理解/智慧型交通等眾多領域具有重要的套用價值,但該研究面臨複雜背景、低圖像質量以及文字變形等諸多挑戰。本課題研究包括:(1)結合圖像檢索/物體識別領域的研究方法和成果,提出LCR模型,並基於該模型設計基於局部特徵的文字定位和識別總體架構,設計幾何約束算法和樣本庫構建算法;(2)研究文字結構及統計特性,提出一種面向文字的局部不變性特徵檢測及特徵描述算法,並研究利用局部特徵改進文字定位/字型識別的方法。目前基於局部特徵的方法尚處於起步階段,該方法基於局部特徵本身具有不變性特徵(旋轉不變性、尺度不變性、仿射不變性、灰度不變性等),在解決複雜背景與布局、低質量及文字變形的挑戰方面展現了巨大的研究潛力。本課題將結合申請人已有的研究成果,形成文字定位和識別系統的研究平台,為自然場景中文字定位和識別提供理論依據和實踐基礎。

結題摘要

圖像文字識別是目前數字圖像處理和內容識別領域的一個重要研究方向。與掃描圖像相比,自然場景圖像文字識別存在以下挑戰:1、文本字型和筆畫粗細多樣;2、文本字元排列布局多樣;3、背景和紋理複雜多樣;4、相機視角與載體扭曲引起字元幾何形變;5、光度不均與噪聲導致圖像解析度低下等特性。上述特性使得針對複雜背景和自然拍攝圖像的文本識別成為一個具有困難和挑戰的問題。常用的基於光學字元識別(OCR)的方法在處理自然場景圖像時,不僅受到前期文本定位與切分等預處理技術的影響,同時由於OCR對輸入圖像在文本結構規範上的要求與限制,使得目前基於OCR技術的識別方法在自然場景圖像文字識別中存在較大的局限性。本文在實驗室前期圖像和文字處理研究的技術積累上,提出將局部特徵、卷積神經網路相結合套用到圖像文字識別的新框架LHCR(Local Feature and High-Dimension based Character Recognition),有效實現了自然場景的圖像文本識別。我們的圖像文字識別框架區別於基於OCR的傳統識別框架,而是將局部特徵高維檢索、卷積神經網路相結合,利用文字具有明顯的紋理信息和結構信息的特點,實現自然場景圖像文字識別。框架內容包括: (1)計算機自動構建模板文字圖像庫,有效防止樣本類別缺失和極大的降低了人工收集樣本的成本;(2)基於局部特徵的定位切分方法,將識別和定位相結合,最大限度降低識別誤差;(3)採用卷積神經網路框架實現識別流程。我們在該框架下實現一個通用的圖像文字識別系統,系統的創新點包括:(1)使用卷積離散自編碼器算法來進行非監督學習,可以使用無標註的圖像對卷積神經網路進行預訓練。(2)使用文字結構部件檢測器提取文字結構特徵,根據不同的文字結構部件構建了不同尺寸的卷積窗,豐富了圖像特徵的數量,增強了特徵描述的獨特性。(3)使用空間金字塔模型增強了卷積神經網路的尺度不變性,並使用多輸入的深度置信網路作為全連通網路,有效整合了提取到的特徵,增強了特徵表達的準確性和區分能力。我們使用一個多語言的文字檢測資料庫對算法進行評估。該資料庫將中文、英文和數字區域進行了單獨標註。實驗結果表明我們的中文字檢測算法比基本算法提高了11%。本文的研究結果已成功套用於973項目、863項目和上海市科委項目。

相關詞條

熱門詞條

聯絡我們