《PDF文字提取方法和裝置》是深圳市億圖軟體有限公司於2017年11月10日申請的專利,該專利公布號為CN108038093B,專利公布日為2021年6月15日,發明人是晏檢平。
基本介紹
- 中文名:DF文字提取方法和裝置
- 授權公告號:CN108038093B
- 授權公告日:2021年6月15日
- 申請號:2017111062310
- 申請日:2017.11.10
- 專利權人:深圳市億圖軟體有限公司
- 地址:518000廣東省深圳市南山區粵海街道高新區社區科技南路16號深圳灣科技生態園11棟A1204
- 發明人:晏檢平
- Int. Cl.:G06F40/126(2020.01)I; G06K9/00(2006.01)I
- 專利代理機構:北京超凡宏宇專利代理事務所(特殊普通合夥)11463
- 代理人:程曉
對比檔案,專利摘要,
對比檔案
CN 105512096 A,2016.04.20; CN 105654022 A,2016.06.08; CN 109492199 A,2019.03.19; CN 105320933 A,2016.02.10; CN 101782896 A,2010.07.21; CN 102063415 A,2011.05.18; CN 104463153 A,2015.03.25; CN 105488471 A,2016.04.13; US 2013322759 A1,2013.12.05; US 2011188761 A1,2011.08.04
擺卿卿.PDF檔案處理系統.《中國優秀碩士學位論文全文資料庫信息科技輯》.2010,(第2期),; 周海燕.基於病毒碎片思想的英文文本數字水印算法研究.《中國優秀碩士學位論文全文資料庫信息科技輯》.2007,(第5期),; Kurt Pfeifle.How can I extract embedded fonts from a PDF as valid font files?.《https://stackoverflow.com/questions/3488042/how-can-i-extract-embedded-fonts-from-a-pdf-as-valid-font-files》.2010,
專利摘要
本發明適用於文字識別技術領域,提供了一種PDF文字提取方法和裝置,所述方法包括:獲取PDF頁面中的各個文本對象的第一編碼、字形點陣圖、內嵌信息和字型信息;根據所述文本對象的字型信息判斷所述文本對象的字型類型得到第一判斷結果,根據所述文本對象的內嵌信息判斷所述文本對象是否內嵌在所述PDF頁面中得到第二判斷結果;根據所述第一判斷結果和所述第二判斷結果對所述文本對象進行提取。本發明實現了提高PDF文字提取的正確率,並且不需要將所有PDF文字進行OCR識別,節約了PDF文字提取的時間。