簡介
引文網路被認為是
社會網路的變型,該網路中的節點是文獻,邊代表了文獻間的引用關係。引文網路的發展區別於一般的社會網路,它由文獻的引用關係確定,不可隨意添加或刪除,其中的引用關係在時間上具有單向性,只能是後期的文獻引用前期的文獻。引文與被引文之間體現了文獻內容的相關性以及知識的傳遞。實際上,引文網路中隱含了由文獻作者組成的研究群體,該群體具有相似的研究內容,並代表著某個領域的研究現狀及未來發展趨勢,對促進科研的發展及加快學術成果的流動起著重要的作用。
引文網路是一個逐漸生長的科學網路,每一個節點都需要經過嚴格的篩選與審核,學術評價的對象既包括對學者個人的評價,也包括對群體,例如科技期刊、研究院甚至某國家、某學科的研究水平。當前對引文網路的研究主要是利用數學、統計學的理論以及比較、歸納和概括等邏輯方法,對引文的數量特徵以及內部規律進行分析,用以評價文獻在學術領域中的重要性。隨著數據挖掘技術的發展,越來越多的研究開始利用引文網路來分析學科發展的狀況。
引文網路研究的發展
引文網路的研究最初用於圖書情報學領域對科技文獻的評價,而隨著引文網路在科學研究的發展起著越來越重要的作用,引文網路的研究也得到了眾多學者的關注。
最初的引文網路研究是與文本內容無關的,它將科學文本作為研究時的客觀資料,考慮到科學語言具有規則性、邏輯性、清晰性等特徵,該研究方法主要通過對科學文本進行分析就可以獲取該領域的認知,而相關學者的研究及統計結果表明,單純地分析文本範式難於把握科研領域的發展脈絡,必須結合引文中的其它內容進行綜合性的分析才能更好地分析特定科研領域的研究成果。
而隨著資料庫技術的不斷發展,引文網路的研究也不再局限於使用單一的數據源,這很好地使引文網路的研究能夠方便地從多個數據源中獲取引文的數據信息進行綜合分析,使得整個引文網路的研究更為全面,而在計量工作方面,早期的引文網路研究主要通過傳統的統計分析方法來完成,這對於海量數據的處理能力有限,數據挖掘技術的引入在一定程度上緩解了這方面的問題,而社會網路分析技術的使用從另外一個層面上解決了難以解決文本結構分析的難題,此外,可視化技術也在引文網路研究中得到了一定的套用,使得學者們可以快捷地對引文網路的統計結果進行查詢及分析。而通過引文網路中同引、耦合和共著等相關概念的提出,引文網路中科研群體的研究逐漸被人們所關注。
引文網路結構
引文網路是引文分析的研究對象,顧名思義,是指被施引文獻與引用文獻之間因引用關係而形成的一種網路,基本上由引文和引用組成,引文包括被施引文獻與引用文獻,如圖書、論文等,引用指文獻間的參考、援引關係。
如果用結點代表引文,用有向箭頭代表引文之間的引用關係,描述在時間上就可以繪出引用網路圖,隨數字增大,表示年代越靠後,如圖1,圖中包括多個套用,其中存在大量的同引和
耦合。
引文網路的結構特點
引文網路的結構特點有:
①引文網路是靜態的,不可以在任何已有節點上增加新的代表引用的單向箭頭,也不可以隨意刪除已有的代表引用的單向箭頭,因為文獻一經出版之後,它的參考文獻就一成不變了;
②引文網路中的引用是單向的,即只能是後期的文獻引用前期的文獻,而前期的文獻不能反過來引用後期的文獻;
③引文網路中的引文不可以自引,引文不能自己引用自己,在引文分析中,自引主體只能是作者、期刊、學科、機構等;
④引文網路中的引用是有固定時間的,即文獻A引用文獻B是有固定時間的,這個固定時間正好是文獻A的發表時間,且文獻A的發表時間必然在文獻B之後,如圖1中8和8′同時發表,故不存在8引用8′或8′引用8;
⑤引文網路中引文間的引用呈現出主題集中,因為引文間引用的正式性和文獻出版的質量控制,引文基本來自同一科學領域或關係緊密的領域。
引文網路測度指標
常見的引文網路測度指標可以分為四類:
①引文數量特徵測度指標:引文數。引文數指文獻結尾處的參考文獻(不含腳註、間注、夾注等),表示一篇文獻引用其它文獻的數量。
②引文分布特徵測度指標:平均引用數、自引數與自引率、被引次數與引用數的比值。
③期刊(論文)影響力測度指標:被引用數、同引和耦合、期刊影響因子、即年指標。
在引文網路中存在大量的同引和耦合。同引(或稱同被引)是指兩篇或兩篇以上文獻共同被之後的一篇或多篇文獻引用,如圖1中5和6同時被之後的8和8′引用;引用它們的論文的多少,即同被引程度,稱為同被引強度。耦合則是指兩篇文獻共同引用了一篇或多篇文獻,如圖1中2和4共同引用了1;耦合的文獻之間總存在著這樣或那樣的聯繫,其聯繫的程度稱為耦合強度。
期刊影響因子是衡量期刊重要性和影響力的重要指標,其算法為:
其中論文總數、時間和被引次數是計算期刊影響因子的三個基本要素。
④文獻老化規律測度指標:衰減係數等。
引文網路的研究
研究內容
引文網路是一個包含了大量信息和知識的複雜網路,其重要性勿庸置疑。隨著新的科學研究手段的介入,引文網路的價值被逐漸挖掘出來。研究內容主要分為學術評價指標最佳化、引文網路中社會群體分析、引文網路知識流挖掘以及引文數據源分析抽取等。
研究存在的問題
(1)計算效率。引文網路的數據量非常大,在分析文獻的引用文獻時,需要抽取的信息量很多,因此構造包含有效信息的引文網路計算開銷很大。此外,不同的數據源記錄格式不一樣,如何對數據進行有效的預處理,是構造引文網路的前提。在電子文獻早期,許多數據源的格式並不規範,出現了信息缺失的情況,也可能影響引文網路的質量。
(2)文本分析精確度。引文網路中群體研究以及知識抽取需要依靠強有力的文本分析技術,精確的文本處理有助於引文網路抽取研究主題以及自動分析科研類別。文本分析需要實現的主要任務包括識別出現頻率較高的關鍵字、摒棄語助記號、甄別相同和相近含義的關鍵字等。有學者提出通過判斷涵義、詞性對引用進行深層次的分類。需要指出的是,由於人類語言的多樣性,給文本分析的研究帶來了許多困難。
(3)時效性參數設定。引文網路是一個具有時效性的網路,越早的數據源衰老速度越快。根據年代對引文網路節點的入度賦予相應權值的方法,使時間間隔越小的引用權值越大。但由於不同的引文網路需要選取不同的權值,因此該方法在操作性上還存在一些問題。
(4)引用類型的區分。引文成為標準的科學規範之一是否會被所有的科學家接受並在實踐中套用,將影響到引文分析可視化結果的正確性,引文動機的不同給研究帶來了挑戰。對不符合規範的引用情況,例如對一些“裝飾性”的引文進行過濾,並且鑑別出各種不同的引用類型,例如概念引用、方法引用、思想原理的引用等,將會提升引文分析的精確度。