TextPorter是集"文本抽出、全文檢索、文字編碼轉換、快速瀏覽"於一身的應用程式軟體, 支持對多種格式文檔的自動識別而且支持多語言顯示和編輯。
軟體簡介,軟體功能特色,支持對多種格式文檔的自動識別,支持多語言顯示和編輯,可指定抽出文本內容的大小,指定是否抽出檔案中的OLE內容,可指定Excel和AutoCAD文檔數據間分割符種類,可指定輸出和標記,對PDF檔案的支持,
軟體簡介
TextPorter是集"文本抽出、全文檢索、文字編碼轉換、快速瀏覽"於一身的應用程式軟體, 它採用了16位UNICODE字元集作為其編輯器的內碼,再加上通用文本抽出庫(DMC)對多語言 的良好的支持能力,使得不用安裝其他應用程式,在一個程式中實現對多種常用應用程式的 不同語言版本的檔案的文本內容進行操作成為可能。即使在不同語言的作業系統環境、或者 用戶指定不同的顯示字元集,UNICODE編碼都能成功的保證數據的準確性。在 Windows 9X和 Windows NT/2K/XP系統共存今天,面對各種紛繁複雜的電子文檔,TextPorter可以提供一種簡便、 高效和實用的文檔處理方法。
軟體功能特色
支持對多種格式文檔的自動識別
不用安裝任何相關應用程式,TextPorter能夠對包括MS Office系列、MS Works、 RTF、PDF、PageMaker、TXT等十多種檔案的自動識別,對MS Office系列檔案還能 夠識別出檔案的語言類型;特別是對於格式檔案中的OLE對象,TextPorter能夠進 行自動識別;對於TXT檔案,可以判斷出檔案的字元集形式。
支持多語言顯示和編輯
TextPorter提供了一個多語言編輯器,對文本內容可以根據預定的語言類型進行 顯示、查找、替換及檔案保存。目前支持包含簡體中文、繁體中文、日文、韓文 和英文在內的13種字元集。同時編輯器還支持多種語言的輸入法,可以自動識別 各輸入法的國別信息。
目前支持的字元集有:
* 中文字元集合:ChineseGBK(包含GB2312),ChineseBIG5
* 日文字元集合:Windows-31J、Shift_JIS、EUC-JP、EUC-JP-FIX、ISO-2022-JP
* 朝鮮語字元集合:KoreanKSC
* 英文字元集合:ISO8859-1
* 國際字元集合:UTF-8、UTF-16、ISO-10646-UCS-2、ISO-10646-UCS-4
可指定抽出文本內容的大小
對於存在較大檔案的情況下,使用該選項可大大增加檔案的抽出速度和瀏覽速度,方便查找所需內容。
指定是否抽出檔案中的OLE內容
檔案中的OLE對象的內容是檔案的重要的組成部分,有了該選項,即保證了檔案內容抽出的靈活性,也保證了檔案內容的完整性。
可指定Excel和AutoCAD文檔數據間分割符種類
對於Excel和AutoCAD文檔,抽出時指定數據間的分割符號,可以極大的提供該類文本數據檔案的可管理性,同時也方便了用戶對檔案內容的瀏覽、管理和檢索。
可指定輸出和標記
對於PowerPoint的幻燈片文檔,抽出時指定輸出和標記,在抽出文本內容時候,應用程式自動會把每個顯示頁上的文本內容括在標記內,而把備註中文本內容括在標記內。用戶在瀏覽時就可以非常清楚的分辨出幻燈片和備註的內容,同時也大大增強了文本數據本身的可管理性。
對PDF檔案的支持
PDF檔案作為國際通用電子文檔格式,它的電子文檔一直都廣泛套用於各個行業和領域中, 特別是它安全特性,一直都受到良好的評價,近幾年隨著Internet的發展和普及,PDF的應 用將更加深入。DMC庫對PDF檔案也提供了良好的支持,它不僅支持通常的多種語言的PDF文 件的文本抽出,而且還支持具有“安全性口令”保護的PDF檔案的文本抽出,同時又提供了 對具有“打開口令”保護的PDF檔案的支持方法,只要在“口令對話框”中輸入正確的檔案 口令,就可以瀏覽到指定檔案的文本內容了。