CiteSeer(又名ResearchIndex),是NEC研究院在自動引文索引(Autonomous Citation Indexing, ACI)機制的基礎上建設的一個學術論文數字圖書館。這個引文索引系統提供了一種通過引文連結的檢索文獻的方式,目標是從多個方面促進學術文獻的傳播和反饋。
基本介紹
- 中文名:CiteSeer
- 又名:ResearchIndex
- 屬性:學術論文數字圖書館
概況,索引原理,
概況
CiteSeer檢索WEB上的PostScript和PDF兩種格式的學術論文。目前,在CiteSeer資料庫中可檢索超過500萬篇論文,這些論文涉及的內容主要是計算機領域。這個系統能夠在網上提供完全免費的服務(包括下載PostScript或PDF格式的論文的全文)。該系統的主要功能有:①檢索相關文獻,瀏覽並下載論文全文;②查看某一具體文獻的“引用”與“被引”情況;③查看某一篇論文的相關文獻;④圖表顯示某一主題文獻(或某一作者、機構所發表的文獻)的時間分布。
索引原理
(1) 裝裁文獻。CiteSeer使用WEB搜尋引擎(如AltaVista、HotBot和Excite)及啟發式方法爬行網路,搜尋信息,下載PostScript或PDF格式文檔,運用“紐西蘭數字圖書館工程(the New Zealand Digital Library Project)”中的PreScript,進行文本轉換。轉換後,檢查文檔的引文狀況,如引文的形式、出現的位置。最後按印刷頁逆序排列文檔。
(2) 處理和分析文獻。一旦CiteSeer發現有可用形式的文檔,它定會定位到參考文獻,或通過識別頭部來定位引文。引文位置及形式確定之後,CiteSeer開始抽取引文,並通過引文識別符、向量空間或縮進來描述引文。CiteSeer分析每一篇引文,使用“Heuristics”模組抽取欄位,如題名、作者、出版年、頁碼或引文識別符。CiteSeer使用4種方法來識別和組織論文中的引文:①串位距或編輯位距測量;②詞頻或詞出現測量;③使用子欄位或數據結構知識;④機率方法。
(3) 提問和瀏覽。CiteSeer使用關鍵字方式供用戶進行提問,搜尋文獻,搜尋後返回一個與提問相匹配的引文列表(被索引文獻的列表)。列表中,引證文獻和被引文獻之間建立了關聯連結,而且索引了引證文獻和被引證文獻的全文。檢索式是布爾檢索。用戶搜尋到文獻後,可使用引文連結進行瀏覽。
Citegeer與傳統引文索引比較分析
與傳統引文索引相比,Citeseer在費用、全文性、綜合性、效率和即時方面有著更大的優勢,同時也存在明顯的差距。
4.1 更新更快地揭示引文的網路信息影響。傳統引文索引的來源文獻都是正式出版物,從研究人員的構思出稿到文章發表到編入索引需要一段相當長的時間,雖然論文內容較成熟,但很多觀點可能已過時。網際網路的發展已深刻地改變著人們的閱讀習慣,研究人員已習慣在網路上查找文獻並利用文獻,網路文獻正逐漸地進入各種學術論文的參考文獻目錄,網路文獻成為引文已是不爭的事實。Citeseer是自動引文索引系統,文獻源自網路,一旦有學術性文獻的全文在網路上出現,CiteSeer就能自動找出文章的引文並標引進索引系統,即時把所有網上學術文獻類型(包括預印本、技術報告、會議錄等)的引證脈絡突顯出來,更新更快地反映引文的啟息影響。這樣對於一些前沿學科(如計算機學科)的研究人員來說,能迅速找到更新的引用文獻比按部就班地使用商用索引系統更有吸引力。
4.2 發揮了引文索引的原有功能。目前網上的全文資料庫難見到有不收費的,SCI更是Dialog資料庫中最昂貴的文檔之一,從資料庫中調出一條文獻題錄高達5—6美金。因此,國內用戶使用SCI絕大部分是為了某種功名而檢索,誰也不敢花如此高額的費用來檢索文獻(極少有實力引進了資料庫的單位用戶除外)。Citeseer在網上免費提供服務,會極大地發揮引文索引原本的文獻檢索功能。
4.3 提供友好的學術探討環境。CiteSeer除了有引文索引和全文下載功能外,還有一些附加的網路服務,提供寬鬆自由的學術探討環境。例如,文章或研究課題會連線到討論區,研究人員可貼出正式或非正式的評論、綜述、意見以及新的研究結果。每篇論文設有l i~-(Correct)連結,供看到文章的研究人員發現錯誤可線上改正某些項目,如題名、著者姓名、出版年、文摘等,以彌補機器操作的錯誤。這在封閉式的傳統商用資料庫中,很難獲取一些非正式的自由交流的信息。
4.4 收錄文獻學科範圍窄,學術評價功能尚不成熟。由於許多出版物發表的文獻不能線上獲得以及CiteSeer的非盈利性目的,目前Citeseer還不能象商用資料庫那樣提供綜合性學科內容的引文索引;自然,CiteSeer的學術評估價值還不可能取代SCI這樣歷史悠久的傳統引文索引系統。
4.5 機器識別技術有待完善。由於依靠機器完全自動操作,目前CiteSeer還存在不能準確地分辨子欄位;無法消除不同作者相同名字的歧義;引文在文獻中若無標識則不會被標引等情況。NEC研究所的三位研究人員Steve Lawrence,C.Lee Giles與Kurt Bollacker研製成功CiteSeer並在網際網路上提供服務,使廣大的科研人員和圖書情報工作者多了一種獲取文獻的渠道。雖然依賴網路學術文獻生存的CiteSeer仍存在許多不足和要改進完善的地方,但是,其非盈利性的目的足以令我們每一位使用者向這三位創建者致以崇高的敬意和真誠的感謝。我們有理由相信,科學技術發展的需要以及網路技術的廣泛套用,D.R.Cameron的學術夢想AUniversal Citation Database’在不久的將來一定能夠實現。