《中文印刷體文檔識別技術(附光碟1張)》一書全面闡述了中文印刷體文檔識別的原理、方法和系統組成,依據中文印刷體文檔的特點,分別介紹了文檔圖像預處理、版面分析、漢字識別、公式的定位與提取、公式字元分割與識別、公式結構分析與表示、圖表處理等內容的基本原理和技術實現方法,並提供了一個中文印刷體文檔識別系統實例。
基本介紹
- 書名:中文印刷體文檔識別技術
- ISBN:7030287606, 9787030287601
- 頁數:203頁
- 出版社:科學出版社
- 出版時間:第1版 (2010年8月1日)
- 開本:16
目錄
《智慧型科學技術著作叢書》序
前言
第1章 緒論
1.1 中文印刷體文檔識別基本原理
1.2 中文印刷體文檔識別研究現狀
1.2.1 印刷體文檔的漢字識別
1.2.2 p刷體文檔的公式識別
1.2.3 口刷體文檔的表格識別
1.3 中文印刷體文檔識別中的難點
第2章 中文印刷體文檔圖像預處理
2.1 中文印刷體文檔圖像採集
2.1.1 文檔圖像採集
2.1.2 文檔圖像顯示
2.1.3 文檔圖像格式
2.2 中文印刷體文檔圖像特點
2.3 二值化處理
2.3.1 圖像灰度化
2.3.2 圖像二值化
2.4 平滑去噪
2.4.1 鄰域平均法
2.4.2 中值平均法
2.4.3 噪聲直接去除法
2.5 傾斜校正
2.5.1 圖像傾斜檢測
2.5.2 圖像傾斜校正
第3章 版面分析
3.1 版面結構
3.2 版面分析方法
3.2.1 基於連通域的版面分析方法
3.2.2 分法
3.2.3 基於組合特徵的版面分析方法
3.2.4 基於神經網路的版面分析方法
3.2.5 基於最近鄰連線強度和行列可信度的版面分析方法
3.3 版面理解
3.3.1 文字區域
3.3.2 圖片區域
3.3.3 表格區域
3.3.4 版面結構表示與存儲
3.4 版面重構
第4章 印刷體漢字識別
4.1 文本區域預處理
4.1.1 文本增強
4.1.2 字元分割
4.1.3 字元細化
4.1.4 字元歸一化
4.1.5 文本區域處理效果圖
4.2 印刷體漢字的特徵提取
4.2.1 印刷體漢字的統計特性
4.2.2 印刷體漢字的常用特徵
4.3 印刷體漢字識別的實現方式
第5章 公式的定位與提取
5.1 印刷體文檔公式的特點
5.2 基於投影的公式定位和提取
5.2.1 獨立行公式的定位
5.2.2 內嵌公式的定位
5.3 基於Parzen窗的獨立行公式定位和提取
5.3.1 待分類文本行的特徵數據提取
5.3.2 Parzen窗方法
5.3.3 公式定位與提取效果
5.4 基於字元寬度中心矩的公式定位和提取
5.4.1 文本區域基本數據獲取
5.4.2 含公式的文本行提取
5.4.3 文本行中公式判別
5.4.4 獨立行公式的定位
5.4.5 內嵌公式的定位
5.4.6 公式定位與提取效果
5.5 基於漢字拒識的內嵌公式定位和提取
5.5.1 內嵌公式的定位
5.5.2 公式定位與提取效果
第6章 公式字元分割與識別
6.1 公式字元的特點
6.2 公式字元的分割
6.2.1 基於輪廓跟蹤的字元分割
6.2.2 基於連通域的字元分割
6.3 公式字元的識別
6.3.1 公式字元圖像預處理
6.3.2 基於模板匹配的公式字元識別
6.3.3 基於特徵的公式字元識別
6.3.4 印刷體公式字元識別的實現
6.3.5 公式字元識別方法
第7章 公式結構分析與表示
7.1 公式結構分析的難點
7.1.1 數學運算符的模糊性
7.1.2 符號的上下文敏感性
7.1.3 表示習慣的差異性
7.1.4 公式的複雜性
7.1.5 公式的多行結構
7.2 公式結構分析前的字元預處理
7.3 公式結構分析方法
7.4 公式結構表示方法
7.4.1 公式的典型表示方法
7.4.2 實驗結果
第8章 圖表處理
8.1 文檔中圖形圖像的表示與處理
8.1.1 遊程壓縮
8.1.2 霍夫曼編碼壓縮
8.1.3 算術壓縮方法
8.1.4 Rice壓縮方法
8.1.5 LZW壓縮方法
8.2 文檔中表格的分析與識別
8.2.1 表格預處理
8.2.2 表格直線提取
8.2.3 表格結構分析
8.2.4 表格字元提取與識別
第9章 中文印刷體文檔識別軟體HEUOCR的設計與實現
9.1 應用程式框架的構建
9.1.1 框架風格
9.1.2 數字圖像處理類
9.2 文檔圖像預處理
9.2.1 圖像灰度化
9.2.2 圖像平滑濾波
9.2.3 圖像閾值分割
9.3 文檔圖像版面分析
9.3.1 基本連通域提取
9.3.2 基本連通域分析
9.4 文本漢字識別
9.4.1 字元分割
9.4.2 字元識別
9.5 公式識別
9.5.1 公式定位
9.5.2 公式字元分割
9.5.3 公式字元特徵提取
9.5.4 公式字元識別
9.5.5 公式結構分析
參考文獻