PDF文字提取方法和裝置

對比檔案

CN 105512096 A,2016.04.20; CN 105654022 A,2016.06.08; CN 109492199 A,2019.03.19; CN 105320933 A,2016.02.10; CN 101782896 A,2010.07.21; CN 102063415 A,2011.05.18; CN 104463153 A,2015.03.25; CN 105488471 A,2016.04.13; US 2013322759 A1,2013.12.05; US 2011188761 A1,2011.08.04

擺卿卿.PDF檔案處理系統.《中國優秀碩士學位論文全文資料庫信息科技輯》.2010,(第2期),; 周海燕.基於病毒碎片思想的英文文本數字水印算法研究.《中國優秀碩士學位論文全文資料庫信息科技輯》.2007,(第5期),; Kurt Pfeifle.How can I extract embedded fonts from a PDF as valid font files?.《https://stackoverflow.com/questions/3488042/how-can-i-extract-embedded-fonts-from-a-pdf-as-valid-font-files》.2010,

專利摘要

本發明適用於文字識別技術領域，提供了一種PDF文字提取方法和裝置，所述方法包括：獲取PDF頁面中的各個文本對象的第一編碼、字形點陣圖、內嵌信息和字型信息；根據所述文本對象的字型信息判斷所述文本對象的字型類型得到第一判斷結果，根據所述文本對象的內嵌信息判斷所述文本對象是否內嵌在所述PDF頁面中得到第二判斷結果；根據所述第一判斷結果和所述第二判斷結果對所述文本對象進行提取。本發明實現了提高PDF文字提取的正確率，並且不需要將所有PDF文字進行OCR識別，節約了PDF文字提取的時間。

PDF文字提取方法和裝置

基本介紹

對比檔案

專利摘要

相關詞條

熱門詞條