匯智複合報庫

PDF提取:本公司提供PDF檔案的數據提取工具,可以從PDF檔案提取出文字和圖片,創建特定格式的XML檔案,該檔案可以直接提交到系統的數據伺服器添加到系統資料庫中。

基本介紹

  • 中文名:匯智複合報庫
  • 功能:數據提取工具
  • 簡介:從PDF檔案提取出文字和圖片
  • 創建:特定格式的XML檔案
數據製作,數據管理,最新數據,日期選擇,版面選擇,熱門文章,版面瀏覽,版面導航,文章選擇,文章瀏覽,數據檢索,

數據製作

⑴區域識別:任意打開一版PDF檔案,系統自動將其劃分為若干個區域塊(或者叫做文章塊):相鄰且相同字型字號的文字塊被劃分到一個區域內,圖片單獨劃分為一個區域。
⑵特徵識別:在文章塊上單擊滑鼠左鍵,系統會根據特徵配置檔案的參數設定,自動把文章塊標識為相應的特徵項,並把文章框裡的內容相應地複製到左邊欄的特徵框內,被選中的文章框變成紅色。
本採集系統支持設定任意多個不同數據類型的特徵項目,主要通過各個特徵項在PDF檔案中所使用的字型信息,如字型、字號、顏色和字型屬性等進行識別。
⑶特徵修正:如果某個文章塊符合2個或者2個以上特徵項的設定標準,系統將彈出一個選擇框供用戶選擇;如果選定的文章塊不符合任何特徵項的設定標準,或者系統根據設定標準判斷的結果出現偏差,可以通過單擊右鍵把該文章塊定義為指定的特徵項。
⑷文章轉版:重複⑵和⑶,直到文章的所有特徵項目和正文選擇完成。如果文章內容有轉版(系統假定每一個PDF檔案對應一個版面):
①下轉:後續的文章內容轉到另外一個版面時,單擊文章正文的“下轉”標識(通過特徵配置檔案設定),系統將彈出一個“轉版到”版號選擇視窗,設定好文章內容的下轉版號以後單擊“確定”按鈕。
②上接:文章內容自另外一個版面轉過來時,點擊文章正文的“上接”標識(通過特徵配置檔案設定),系統將彈出一個“上接”內容選擇視窗,設定文章內容的上接版號;如果選定的版面有多篇文章轉出,還應該為本文章選擇一個上接的文章標題。設定好以後單擊“確定”按鈕。
⑸文章完成:上述所有信息全部確定好以後,點擊“確定”按鈕,系統把所選擇的所有文章塊合併成一個大的矩形框,形成文章區域,並在其上方用半透明的綠色布遮住,框線用黃色顯示,用以表示一篇文章採集完成。
⑹版面完成:重複⑵到⑸,直到整個PDF(版面)採集完成後,點擊“導出”按鈕,系統根據該版採集到的文章內容創建特定格式的XML檔案,同時創建採集的圖片檔案和PDF的版面縮略圖。最後把創建的所有檔案移動到配置檔案指定的目錄下。
⑺採集結果:採集到的結果檔案(XML、PDF和圖片檔案)可以複製出來用於其它套用,也可以在本採集系統中點擊“上傳”按鈕,讓系統自動把它們打包傳送到數據伺服器,由數據伺服器處理並以新的數據組的形式添加到系統資料庫中。
二、其它數據:本系統的數據伺服器可以從自定義格式的檔案(.TXT純文本檔案或者XML檔案,包括ANSI編碼和Unicode、UTF-8編碼)中解析出系統數據,但需要在系統的構建之初提供該格式的足夠樣本檔案,用以製作數據解析器程式並嵌入到本系統中。
三、特徵提取:本系統的特徵提取器可以自動為文章提取關鍵字和內容摘要,也可以自動為文章分類,並且一起添加到文章特徵項目中。如果需要,這些提取工作可以在數據處理的過程中自動完成,不需要人工干預。

數據管理

一、數據存儲系統資料庫中的數據採用2級管理模式進行管理。
⑴報刊:系統支持在資料庫中同時存在若干種不同的報刊(書籍,或者其它類型)的數據,瀏覽和檢索時可以對其中的部分(一種或者多種)或者全部進行操作。高級檢索的檢索範圍一般以報刊單位進行選擇。
數組:每種報刊下面又可以同時有若干個數據組存在,數據的添加、刪除和合併都以數據組為單位。數據導出的內容一般以數據組為單位進行選擇。
二、數據添加:目前系統支持以下幾種向系統資料庫中添加數據的方式,每一次數據添加將在系統資料庫中創建一個新的數據組。
⑴自動上傳:主要適合利用本系統配套的數據提取工具從PDF提取數據後直接確定上傳到數據伺服器的情況,參見“第二部分 數據製作”。
⑵手動上傳:主要適合脫離PDF數據加工工具,用其它方式加工並處理好數據後再上傳到數據伺服器的情況。用數據處理工具將加工好的數據打成壓縮檔後(用FTP上傳工具)上傳到數據伺服器的指定位置,由數據伺服器添加到系統資料庫中。
⑶網頁指令:在數據組管理模組點擊“入庫”按鈕,向數據伺服器提交數據所在位置的必要信息,通知數據伺服器到指定位置取得數據並添加到系統資料庫中。
三、數據刪除:當系統資料庫中的數據不再需要時,可以將其從系統資料庫中刪除。數據的刪除最小以數據組為單位。在數據組管理頁面,勾選數據組前面的複選框,然後點擊“刪除”按鈕即可將選中的數據組從系統資料庫中刪除。
四、數據合併:當系統資料庫中的數據組太多時,可以將若干個數據組合併成一個數據組,以便於系統的管理。只有同一報刊下的數據組才能合併。在數據組管理頁面,勾選數據組前面的複選框(2個或者更多),然後點擊“合併”按鈕,系統將進行下列工作:
⑴合併:將選中的這些數據組合併成一個數據組。
⑵刪除:將選中的這些數據組從系統資料庫中刪除。
⑶添加:將新合併成的數據組添加到系統資料庫中。
五、數據導出:可以將系統內的數據導出為外部檔案,以做他用。
⑴導出格式:系統支持將數據導出為以下格式:
①系統數據:本系統可以直接添加到系統資料庫的格式,方便將數據移植到其它的數據伺服器資料庫中。
②光碟系統:本公司光碟版的信息倉儲系統所使用的數據格式,將導出檔案下載並解壓縮以後就是一個完整的本系統的光碟子系統,可以製作成光碟的形式發布。
文本文檔:將文章內容導出為純文本格式的文檔,支持ANSI和Unicode編碼方式。該格式可以通過模板定義導出內容和格式,但有可能會損失一些圖表信息。
Word文檔:將文章內容導出為Word格式的文檔。該格式可以通過模板定義導出內容、格式和版式,並且保留所有的圖表信息。
PDF文檔:將文章內容導出為PDF格式的文檔。該格式可以通過模板定義導出內容、格式和版式,並且保留所有的圖表信息。
⑵導出內容:可以通過下列方式選擇導出內容。
①指定數組系統資料庫中的部分(一個或者多個數據組)或者全部數據組所包含的文章。注意:每次只能選擇同一種報刊下的不同數據組。
②檢索結果:本用戶所有檢索結果中的部分(一個或者多個)或者全部所包含的文章(選擇多個檢索結果時,取它們的並集)。
③自定義類:用戶自定義分類中的一個或者多個條目所包含的文章(取各個條目所含文章的並集)。
④特徵條目:某個特徵項目下的一個或者多個條目所包含的文章(取各個條目所含文章的並集)。注意:每次只能選擇同一特徵項目下的不同條目。
⑶檔案下載:導出的檔案存儲在伺服器的指定位置。用戶可以在“下載管理”模組查詢自己的所有導出任務(未完成任務的處理進度及已完成任務的導出檔案下載)。導出任務完成以後,用戶可以將這些檔案下載到本地,並且可以在下載完成後刪除這些檔案以釋放伺服器的磁碟空間。

最新數據

系統預設顯示最新入庫的數據內容(對於報紙,一般都是以版為單位顯示,所以總是顯示當天的第一版;對於雜誌,則可能以最新一期的分類目錄進行索引),包括版圖和該版的文章列表。

日期選擇

系統提供“往期查詢”功能。
⑴相鄰日期:點擊“ ”或“ ” 可以快速地選擇與當前日期相鄰的前一日期和後一日期(系統會自動跳過沒有數據的日曆日期)。
⑵任意日期:點擊日期編輯框或者“ ”標識則可以選擇任意日期(有數據的日期顯示為黑色,沒有數據的日期則顯示為灰色)。
①當前月份:日曆預設顯示當前月份,點擊標題行的“今天”可以快速回到當前月份。
②相鄰月份:點擊標題行的“上月”或者“下月”可以切換到當前月份的上一月份和下一月份。
③任意年月:標題行下面的下拉框中列出系統資料庫中所有有數據的年份和月份,從中可以選擇任意的年月。

版面選擇

對於報紙,系統以版為單位顯示版面圖和文章列表。
⑴相鄰版面:點擊版面圖下的“上一版”或“下一版”可以快速地選擇與當前版相鄰的上一版和下一版。
⑵任意版面:點擊頁面右側的“今日版面”中的任意版號和版名可以選擇當前日期的任意一個版面。

熱門文章

:系統可以分別列出當天、最近一周和最近30天內最熱門(被點擊次數最多)的若干文章,點擊其標題即可瀏覽其詳細內容。

版面瀏覽

一般情況下,系統顯示圖片版的版面,但也支持PDF版的版面供下載和瀏覽。
⑴當前版面:點擊版面圖下面的“ ”標識,可以下載並瀏覽當前版的版面PDF。
⑵任意版面:點擊“今日版面”下任意版號和版名右側的“ ”,可以下載並瀏覽該版的版面PDF。

版面導航

點擊頁面頂部的“版面導航”,系統將列出當前日期下的所有版面圖及每個版面所包含的文章列表。
翻頁:列表提示當前頁碼和版面圖的總頁數,可以點擊“首頁”、“末頁”翻到第一頁和最後一頁,點擊“上頁”、“下頁”翻到相鄰的上頁和下頁,也可以輸入頁碼數值,直接翻到指定的頁。
⑵文章:點擊版面圖的文章區域(紅色矩形框)或者文章列表中的標題可以瀏覽文章的詳細內容(參見“文章選擇”)。

文章選擇

⑴區域選擇:將滑鼠移動到版面圖的某篇文章位置上,系統就會用紅色矩形框框住滑鼠所在文章的區域,並顯示該文章的標題,點擊該文章區域就可以瀏覽該文章的詳細內容。
⑵標題選擇:點擊文章列表中的文章標題可以瀏覽該文章的詳細內容。

文章瀏覽

⑴版面位置:左側版面圖用藍框顯示當前文章在版面上的位置。
⑵文章摘要:文章摘要部分顯示的是文章的特徵項及其取值,點擊“文章摘要>>”可以顯示或者將其隱藏。
⑶正文文字:點擊頂部或底部的“ ”或者“ ”標識可以放大或者縮小文章正文的文字,點擊“ ”標識則可以快速地將其恢復到系統的預設大小。
⑷本版文章:點擊頂部或底部的“上篇”或“下篇”可以快速切換到本版內與當前文章相鄰的上一篇或下一篇文章,“首篇”或“末篇”可以快速切換到本版的第一篇或最後一篇文章;點擊版面圖下面本版文章列表中的任意一個文章標題則可以閱讀本版內的任意一篇文章。
⑸主題文章:與當前文章擁有同一主題的文章。系統列出最新的若干篇與當前文章同主題的文章的標題,點擊即可瀏覽。
⑹相關文章:與當前文章有相關關係(由本系統特有的相關算法計算得出)的文章。系統列出最新的若干篇與當前文章相關的文章標題,點擊即可瀏覽。點擊“更多>>”則可以瀏覽更多的相關文章。
⑺文章評論:註冊用戶可以對瀏覽的文章發表評論,也可以查看其它用戶對當前文章的評論。擁有評論管理許可權的用戶還可以按用戶或者文章查詢用戶的評論信息,也可以選擇刪除指定的用戶評論信息。
⑻自定義類:每個註冊用戶都有自己的自定義類表,在瀏覽文章詳細內容時可以把當前文章添加到自定義分類中,以便以後分類瀏覽和導出等。註冊用戶可以隨意增加或者刪除自己的自定義類條目,也可以自由地增加或者刪除各個條目所包含的文章。
⑼特徵瀏覽:
①特徵文章:點擊“文章摘要”內特徵項目的值,系統將列出具有相同特徵條目值的最新的10篇文章,點擊其標題即可以瀏覽該文章。
②特徵條目:點擊頁面選單欄的“特徵瀏覽”項,系統就列出可以瀏覽的特徵項目。
選擇其中的一個,並點擊“確定”按鈕,即可以列出該特徵項目下各個條目所包含的文章。
⑽圖片瀏覽:考慮到版面的美觀和瀏覽的方便,文章內容中的插圖一般總是控制在頁面的寬度以內顯示。因此瀏覽文章內容時看到的插圖有可能是縮小以後的圖片。單擊該插圖,可以在新的視窗中打開原始大小的圖片。
⑾高清下載:考慮到網頁瀏覽時的速度和數據保護的需要,一般情況下用戶瀏覽的圖片和版式PDF檔案都是普通清晰度的。擁有高清下載許可權的用戶如果需要使用高清晰度的圖片和版式PDF(比如用於印刷等),系統可以提供高清晰度圖片和版式PDF的對應下載功能(單篇或者批量下載),當然這需要數據製作的支持。
⑿國際語言:本系統同時支持多種國際語言(指網頁框架,不包括文章內容的語言轉換。目前支持中文和英文),可以通過語言標籤隨意切換。
⒀其它功能:
①複製內容:將當前文章的內容複製到系統剪貼簿。
②傳送郵件:將當前文章的內容以電子郵件的形式傳送到用戶的註冊信箱。

數據檢索

一、簡單檢索:系統在版面文章目錄頁和文章內容頁提供簡單檢索條件編輯框,在該編輯框中輸入檢索條件,並點擊 按鈕,即可對文章正文和標題進行全文檢索。
二、高級檢索:點擊 按鈕右側的“高級檢索”,將進入系統的高級檢索條件編輯頁面。這裡可以指定日期區間,並分別對文章標題、作者和正文(全文)指定檢索條件,還可以為文章正文檢索指定聯想詞組(由系統提供)。各個特徵項目之間的檢索條件是“並且”(邏輯“與”)的關係,即所有條件必須同時成立。
三、邏輯檢索:在高級檢索頁面點擊“邏輯檢索”,可以進入邏輯檢索條件編輯頁面。邏輯檢索除了可以對更多的特徵項目設定檢索條件以外,還可以:
⑴報刊類型:如果系統資料庫中存在多種報刊,進行邏輯檢索時可以選擇其中的一種、幾種或者全部。
⑵邏輯關係:選擇各個特徵項目之間的邏輯關係。邏輯關係包括下列3種:
①並且:邏輯“與”,前後2個條件必須同時成立。
②或者:邏輯“或”,前後2個條件有一個成立即可。
③並且不:邏輯“否”,前一個條件成立,而且後一個條件不成立。
⑶多個條件:點擊條件編輯框右側的 號,可以同時為每個特徵項目設定多個檢索條件,並且可以選擇2個檢索條件之間的邏輯關係。點擊其後的 號可以刪除最後一個檢索條件。
⑷檢索範圍:系統可以記錄用戶每次檢索的檢索結果,並且可以給每次的檢索結果命名,下次檢索時可以選擇在其中任意一次檢索的結果範圍內進行二次檢索。
四、檢索結果:系統用目錄列表的形式列出檢索到的文章,並顯示出檢索條件、檢索所用的時間、檢索到的文章數和顯示頁數(在文章目錄的底部)。
⑴目錄翻頁:每頁只能顯示指定篇數(例如30篇)的文章信息,可以點擊“上一頁”和“下一頁”翻到相鄰的頁,也可以點擊之間的頁碼直接翻到指定的頁,還可以點擊“首頁”快速地翻回第1頁(出於檢索伺服器資源和效率的考慮,系統可能並不能列出所有檢索到的文章,例如只能最多翻到第10000篇)。
⑵瀏覽文章:點擊文章標題即可瀏覽對應文章的詳細內容。
第六部分後台管理
一、日誌管理:系統可以記錄所有用戶使用本系統的日誌信息,擁有日誌管理許可權的用戶可以查看並管理系統日誌。
⑴簡單日誌:用戶每登錄本系統一次即記錄一條日誌,忽略用戶的其它操作。
⑵詳細日誌:詳細記錄每個用戶的每一次操作。
日誌查詢:對於簡單日誌可以按指定用戶查詢其登錄信息,也可以指定時間範圍查詢所有用戶的登錄信息;對於詳細日誌,可以按指定用戶的指定操作查詢日誌信息。
⑷日誌統計:自動統計系統的歷史訪問人數和今日訪問人數。
⑸刪除日誌:可以有選擇地刪除系統的詳細日誌,簡單日誌不能刪除。
二、評論管理:擁有評論管理許可權的用戶可以瀏覽並刪除用戶對系統內數據的評論信息。
三、熱詞管理:系統熱詞表中一般列出目前比較熱點的辭彙,擁有熱詞管理許可權的用戶可以管理(添加或者刪除)系統熱詞表。
當文章內容中出現熱詞表中的辭彙時,系統將給出一個連線。點擊該連線,彈出視窗中顯示該詞可以連線到的標題,點擊標題即可連線到相應的網頁。
四、用戶管理:系統的註冊用戶由用戶在註冊時添加,擁有用戶管理許可權的用戶可以查看、刪除並修改註冊的信息。
⑴查詢:可以按用戶名和用戶角色(被分配為指定角色的用戶)查詢用戶名稱、性別、信箱及當前角色(擁有的許可權)等信息。
⑵刪除:可以選擇刪除指定的註冊用戶。
⑶角色:可以通過給用戶分配不同的角色而給用戶賦予不同的許可權。
五、角色管理:用戶角色用於給註冊用戶分配系統許可權,系統用戶管理員通過給註冊用戶分配不同的角色賦予註冊用戶不同的許可權。
擁有角色管理許可權的用戶可以添加或者刪除用戶角色,也可以修改角色所擁有的系統許可權。每個套用系統的許可權劃分可以不同,但需要在構建該系統之初確定,系統的任何用戶都不能增加或者修改。
六、聯想詞管理:聯想詞用於對文章正文和文字型特徵項目(比如文章標題和文章摘要等)的檢索。在用戶要求檢索聯想基詞的同時,系統也會把聯想詞加入檢索條件一同檢索。擁有聯想詞管理許可權的用戶可以添加或者系統級的聯想詞表,每個用戶還可以擁有自己的、不同於其它用戶的聯想詞表,由用戶自己管理。

相關詞條

熱門詞條

聯絡我們