金軟PDF文本抽出是一款由北京信久通科技有限公司獨立開發的專門從PDF檔案批量抽出文本的工具,它可以批處理同時為多個PDF檔案抽出文本。
基本介紹
- 中文名:金軟PDF文本抽出
- 公司開發:北京信久通科技有限公司
- 功能:同時為多個PDF檔案抽出文本
- 版本:PDF 1.2
程式支持的PDF版本:
PDF 1.0
PDF 1.1
PDF 1.2
PDF 1.3
PDF 1.4
PDF 1.5
PDF 1.6
PDF 1.7
可以從上述檔案的各種編碼字元集數據中抽取文本。
程式支持的可轉換的字元集:
EUC-JP
EUC-JP-FIX
ISO-10646-UCS-2
ISO-10646-UCS-4
ISO-2022-JP
ISO-8859-1
Shift_JIS
UTF-16
UTF-8、WINDOWS31J
ChineseGBK
ChineseBIG5
GB18030
KoreanKSC
Shift_JIS-2004
ISO-2022-JP-2004
EUC-JIS-2004
程式支持的可抽出的字元串:
Unicode字元集
日語
英語(只限於拉丁字母字元集ISO_8859-1)
漢語(簡體字 GB18030、GBK、繁體字Big5)
韓語(KS_C_5601_1987)的字元串
使用上述語言外的字型時,無法保證抽出結果的正確性。
抽出後的文本有17種字元編碼集可供選擇。抽出後文本的編碼方式所使用的基本字元集中所沒有的字元,轉換為類似的字元(1個字元或1個字元的組合)。當沒有類似的字元時替換為"〓"(2個位元組)、"?" (1個位元組)。
無法從有密碼保護的檔案中抽出文本。有密碼保護的檔案必須事先在源程式中解除安全設定。
金軟PDF文本抽出工具還具有快速、穩定、安全的特點,其操作方便,簡單;界面清爽,靈動。它是PDF的一個輔助軟體,其操作方便簡單。
功能介紹:
支持17種常見可轉換字元集
支持5中常見的語言
支持在輸出檔案名稱末尾加檔案生成日期後綴
支持批量處理,操作簡便,節省時間
金軟PDF文本抽出主界面 |
北京信久通科技有限公司將致力於該軟體的進一步開發與研究,不斷的提高軟體質量,完善軟體功能,希望廣大用戶提出寶貴意見。