一種基於PDF的複雜版面的標引方法

專利背景

在報業、出版社等行業中，使用排版軟體排版完成後，需要從已經生產的版面中提取文章以及相關的元數據信息，以便進一步利用，就是文章信息的重構和標引。為了更真實還原版面的內容，除了需要文章本身的內容信息（如標題、引題、副題、作者、正文等多項信息）以外，在標引時還提取需要文字塊的位置、字型字號等信息。

2007年12月前，從版面中提取文章信息的方法（也稱反解和標引）有以下幾種：

（1）通過排版軟體本身的能力導出xml檔案，一般都包含文章的內容信息，但不同排版軟體輸出的內容不同，如有些不提供標題信息，多數的排版軟體並不導出文字塊的位置信息，使得文章的信息不完整，往往需要通過手工的方式進行補充，效率非常低；另外，套用該方法還必須能夠獲得原始排版檔案，而一些需要反解和標引的場合下，是無法獲得原始排版檔案的；

（2）通過軟外掛程式技術對排版軟體進行擴充，允許進行一些半自動化的信息提取和人工標引。專利CN200610112710.9公布了“一種提取見報資料數據信息的方法”可以基於版面檔案結合人工干預來提取和表演文章。這種方法的優點是可以提取比較完備和準確的信息，其缺點是：a）不同的排版軟體需要開發不同的軟外掛程式，開發難度和工作量大；b）必須能夠提供原始的排版檔案，才能進行標引。c）隨著排版軟體本身的發展和升級，一些老的數據格式不再支持，因此大量的歷史數據無法進行標引和重新利用；

（3）對排版軟體輸出的結果檔案格式（PS格式）進行標引，其中的代表性的技術是“方正全真軟體”，用來反解和表演方正飛騰排版輸出的PS檔案。由於對PS的反解技術，主要是利用PS中的注釋進行的，不同排版軟體輸出的注釋不同，導致反解和標引軟體不同通用。隨著印刷技術的發展，基於PDF的RIP技術慢慢取代PS，因此有些排版軟體和流程中直接得到的就是PDF而不再是PS了。另外，大量的歷史數據是PDF格式的而不存在PS檔案，導致PS反解和標引無法套用；

一種基於PDF的複雜版面的標引方法

基本介紹

專利背景

發明內容

專利目的

技術方案

改善效果

附圖說明

權利要求

實施方式

榮譽表彰

相關詞條

熱門詞條