基本簡介
由
清華大學中國學術期刊(光碟版)電子雜誌社和同方知網公司歷時2年攻關研製的基於全文的“學術不端文獻檢測系統”,經1000多家中國各地科技期刊使用表明,該系統的研製成功,開闢了採用技術手段防範學術不端行為的新方法。以抄襲、剽竊、偽造等為典型表現的學術不端行為 ,歷來是世界範圍內科研誠信建設中重點防治的對象。“學術不端文獻檢測系統”採用資源對比總庫,在組織結構上不僅突出知識的內在關聯,更形成了以文獻庫、概念知識元庫、學術趨勢庫、學者成果庫和專家評價庫為主題的特色資源庫,不僅針對不同的文檔類型和內容特徵,支持從詞、句子到段落的數字指紋定義,並可對圖、表等特殊檢測對象進行基於標題、上下文、圖表內容結合的相似性檢測處理,還可根據特定的概念、觀點、結論等內容進行智慧型信息分類處理,實現語義級別內容的檢測。可用於抄襲、偽造、一稿多投、篡改、不正當署名、一個成果多篇發表等多種學術不端行為的檢測。
該系統在高校學位論文審查方面的功能主要包括:已發表文獻檢測、論文實時線上檢測、問題庫查詢以及自建比對資料庫功能。該系統不僅可以為研究生培養機構提供論文審查技術支持、學位論文質量評估、還可以對已經發生學術不端行為的學位論文進行後期跟蹤處理。實現了高校學位論文學術不端行為的預防和治理兩重功效。在一定程度上針對學術不端行為可能帶來的嚴重後果和惡劣影響形成了天然的科技禁止作用。專家們期待這一系統在防治學術不端行為進程中發揮重要作用。
研製背景
國內外學術界存在的學術誠信危機現現象
近年來惡劣學術不端事件時有發生,給整個學術界的聲譽造成了極壞的影響。學術界長期形成的科學、誠實、追求真理的象牙之塔的形象受到社會大眾的質疑。有人認為學術界本來是社會道德的最後一道防線,可惜,現在這最後一道防線已經被攻破,學術界面臨前所未有的學術誠信危機。
清華大學***教授偽造個人學術成果、北京大學***教授著作涉嫌抄襲他人作品、中國政法大學***教授涉嫌論文抄襲以及漢芯偽造研究成果等媒體曝光事件,無不撕扯著學人們的脆弱的心。這些事件不但發生在學界,而且涉及中國最著名的學術研究機構,有的甚至涉及科學院、工程院院士,經媒體報導後,產生的殺傷力是可想而知的。同時,人們還一致認可這樣的觀點,即曝光的只是冰山的一角。
學術不端的問題不僅在中國,在世界範圍內,同樣是一個令學界頭痛不已的學界“腫瘤”。如2002年曝光的簡·亨德里克·舍恩造假事件[1], 簡·亨德里克·舍恩在世界著名的貝爾實驗室工作,他先後在《科學》和《自然》等世界第一流學術期刊上發表十幾篇論文,被認為是未來的諾貝爾獎得主。然而同行們卻無法重複他的實驗結果,因為他實質上是個造假天才。
還有大家都知道的“韓國黃禹錫造假事件”。韓國首爾大學教授黃禹錫及其合作者在“幹細胞”研究中存在假造論文,編造實驗結果等問題,結果名譽掃地,最終被撤銷教授職務並辭退。
學術誠信引起各國政府及管理部門的高度關注
為了能有一個良好的學術環境,學術界已經開始行動,同時也引起國際國內有關政府部門的高度關注。世界主要學術大國或大的學術機構大都成立了有關科研誠信的管理機構。如美國的NSF。中國科技部於2006年發布11號部長令,2007年在科技部成立“科研誠信管理辦公室”。科技部聯合教育部、中國科學院、中國工程院、國家自然科學基金委員會、中國科學技術協會等部門,成立科研誠信建設聯席會議及科研誠信諮詢委員會。
教育部發布了《關於加強高等學校學術道德建設的意見》、《關於樹立社會主義榮辱觀,進一步加強學術道德建設若干意見》等一系列檔案。科學院與工程院分別發布了院士科研道德自律行為準則。2005年3月,國家自然科學基金委監督委員會發布了《對科學基金資助工作中不端行為的處理辦法(試行)》。
學術不端行為涉及到學術活動的全過程,包括學術研究、學術出版、項目申報、成果鑑定、職稱評定、研究生培養等諸多環節。,在世界範圍來看,發現與規範學術不端現象,主要還是靠教育與個人舉報,缺乏有效的技術輔助手段,同時由於涉及到各種複雜的經濟利益,導致往往投入巨大,成果甚微,甚至於出現“愈演愈烈”的趨勢。無論是期刊出版界、大學、研究院所、還是出版主管部門、科研主管部門、教育主管部門都迫切需要一個高效的技術措施來幫助管理部門來檢查與懲治學術不端現象。
博士、碩士研究生教育是培養高層次科技人才的重要手段。研究生的教育質量是關係到科教興國戰略能否得到實施的關鍵。十年樹木,百年樹人。要想從根本上遏制學術不端行為,還要從學生時代樹立正確的科學觀與誠信觀。,研究生培養過程中存在的學術不端行為異常嚴重,卻未能得到有關方面的高度重視。在”愛護與保護”的帽子下,使得研究生培養中的誠信問題越演越烈。千里之堤,潰於蟻穴。建築科研誠信的萬里長城,必須從研究生乃至大學生教育開始。 研究生培養中涉及到學術不端行為的主要方面。如期刊論文發表、學術會議論文、參加科研項目,最後學位論文撰寫與答辯等過程。在這些環節中都涉及到各種誠信問題。
遏制學術不端行為的有效措施
學術文獻不端現象是重要的學術不端行為之一,文本複製(抄襲)是學術不端文獻的重要特徵。在上世紀70年代,就已經開始電腦程式複製的檢測研究工作。90年代後,隨著網際網路技術的發展,信息內容迅速增多,複製貼上變得越來越容易與普遍。隨著內容管理與著作權保護的需要,文本複製的檢測研究也得到進一步發展,陸續提出數字指紋、VSM等檢測方法[2]。國外已經有一些系統在提供使用。如論文作業抄襲檢查平台TurnItIn,由 iParadigms開發,已經套用於多所高校及科研機構,包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等。 由CrossRef與iParadigms共同開發的抄襲檢測平台CrossCheck,於2008年6月19日正式啟動。 Thomson和Elsvier宣布將套用CrossCheck進行投稿論文檢測。加拿大Sciworth公司開發的MyDropBox,提供學生作業抄襲檢測服務。MyDropBox使用Microsoft搜尋技術,可以檢測網際網路資源、可公共存取的部分資料庫資源(PubMed、FindArticles等)以及機構內部文檔[3]。
中國知網“學位論文學術不端行為檢測系統”
中國知網從2006年開始正式立項研發學術不端文獻檢測系統。在三年的工作中,歷經算法研究、原型系統開發、大規模數據測試、性能測試、系統集成測試等多個階段的艱苦工作,已經達到大規模實用化的成熟程度。
目標要求
研發目標
研究生培養階段是學術不端行為的第一次誘發期與躁動期。在這一時期,一方面要對其加強科研誠信教育,同時採取技術措施對非誠信行為進行監督,將不良的學術風氣扼殺在搖籃之中,不僅對於提高研究生培養質量,而且對於整過學術環境的淨化都會起到根本性的作用。如果不能從研究生培養環節遏制學術不端行為,大批帶有不端治學態度的研究生畢業後,不斷湧入各級研究機構,不端行為就將形成“長江之水,滔滔不絕”,就不能從根本上扭轉不端行為不斷惡化的事態。
TMLC系統要能夠達到實用化要求,還必須要滿足以下條件:
1、比對庫及資源範圍廣
TMLC系統的檢測範圍要能夠基本完整覆蓋中文科技學術文獻。TMLC系統比對庫的完整性是其能夠實用化的基本保障。完整性不僅表現在僅僅收錄學位論文的全面,並且還要儘可能涉及學術文獻其他領域,比如科技期刊、會議、報紙、、專利、標準等文獻資源,並且還要求有較長時間階段的回溯。否則,無法對檢測結果做出正確有效的判斷與決策。
2、檢測識別精準快捷
TMLC系統要有較高的不端文獻識別能力。對於各種不端文獻類型均有較好的分辨能力。檢測能力與水平是TMLC實用的關鍵。存在不端問題的文獻一定要能夠檢測出來,同時不能誤檢出大量沒有問題的文獻。即要有較高的檢測正確率與較低的誤檢率。
3、實現全文比對
TMLC必須能夠支持全文比對。幾乎所有國外有關檢測系統只進行題錄摘要層次的檢測,但科技成果最終的體現表現在文獻的文字闡述當中,如果實現全文比對,則能更加精準判斷學術不端現象,才能達到大規模實用的要求。
4、支持線上實時檢測
TMLC系統要能夠進行線上實時檢測。即系統要有較好的技術性能。鑒於檢測需要進行大量的運算,國際上已有檢測系統一般對實時檢測大都支持的不好,尤其在文章較長時更是如此。TMLC系統要能夠同時支持待檢超長文獻檢測與超長文獻進入比對資料庫。
文獻分類
學術不端行為的劃分是一個政策性極強的工作,同時也涉及許多法律問題。迄今位置,國內外還沒有一個被廣泛接受的標準。
中國學術不端行為的表現形式(此處列出中國科協科技工作者道德與權益工作委員會提出的中國學術不端行為的七種表現形式,以供參考)
抄襲剽竊他人成果。
偽造篡改實驗數據。
隨意侵占他人科研成果。
重複發表論文。
學術論文質量降低和育人的不負責任。
學術評審和項目申報中突出個人利益。
過分追求名利和助長浮躁之風。
學術文獻不端行為具體表現形式
實際上,學術不端行為存在於學術活動的全過程。學術文獻出版中的不端學術文獻由於其公開性,被廣泛傳播,以及發表後可能會引展出的一系列問題,使其與其他不端類型相比,更尤其嚴重。學術不端文獻的特徵分析是其計算機自動檢測的基礎。學術期刊論文發表中學術不端文獻可以大致分為以下五種:
抄襲
一稿多投
一個學術成果多篇發表
不當署名
偽造、篡改。
1、抄襲
《辭海》關於抄襲解釋:“竊取別人的文章以為己作”。關於剽竊的解釋為:“抄襲,竊取他人的文字以為己作”。可見,抄襲與剽竊為同義語。通常認為學術抄襲就是:使用他人作品的內容而“不註明來源”,即不承認該內容來源於他人的作品,而把他人作品的內容據為已有。可以看出,抄襲是一種複製行為,然而複製不都構成抄襲。如合法的轉載不能認為是抄襲。
是否註明來源就不構成抄襲呢?世界各國著作權法中都規定了合理引用的權利。如為評論而引用有著作權的作品視為合理引用。中國著作權法規定:“為介紹、評論某一作品或者說明某一問題,在作品中適當引用他人已經發表的作品”視為合理使用。王毅在《論抄襲的認定》[4]一文中指出“合理性”的三個重要特徵:“新作必須區別於原作”;“新作必須獨立於原作”;“原作的引用必須適宜於新作”。
有的文獻大段大段的複製別人的內容,雖註明了出處,是否不構成抄襲?然而未有關於引用數量的一致意見。據國外專家介紹,對於期刊論文,認為有超過10%的內容相同,即構成抄襲。還有專家要求更嚴,甚至不能有完全相同的句子。根據中國的實際情況以及中文的特點,我們認為以期刊論文為例,如有30%以上的文字複製可以認定為抄襲。
為便於識別抄襲,我們從抄襲的形式上可以將其進一步分類。如可以分為文字抄襲與非文字抄襲。文字抄襲,就是拷貝貼上別人作品的文字內容。非文字抄襲又可分為思想性抄襲與數據圖表抄襲。抄襲別人的論點、概念、原理、方案等都屬於思想性抄襲。根據抄襲來源可以分為只抄襲一篇文章的單源抄襲與從多篇文章中拼湊的多源抄襲。根據抄襲段落的特點可以分為抄襲同一段落的單段抄襲與抄襲多個段落的多段抄襲。
抄襲有一個很有趣的現象,就是被抄襲源有時也是抄來的,因此有時需要追根溯源,才能查到抄襲源頭。有時會發現正常引用的文獻卻是抄襲來的。 還有一種情況是自我抄襲。在學術文獻中,存在大量學者在自己的文章中大量複製自己其他文章中的內容。自我抄襲應引起足夠的重視。
2、一稿多投
同一作者將同一篇論文投給兩家或兩家以上學術刊物同時發表或先後發表稱為一稿多投。一稿多投浪費了有限的出版資源、編輯與審稿專家的寶貴時間,違反了學術傳統,侵害了期刊社的專有出著作權。同時也損害了期刊的聲譽與讀者的利益。
由於作者與編輯部之間的溝通問題,導致完全相同的文章,幾乎相同時間在不同的媒體上重複發表是一種客觀的一稿多投。客觀的一稿多投雖然其主觀惡意較少,但不容忽視。
作者由於追求發表量而故意一稿多投是一種主觀的一稿多投行為。其特點為:內容大部分相同,只有局部不同,如行文次序調整,或文章名稱略有不同,在不同媒體上重複發表。
判斷一稿多投的基礎是能夠確定作者是相同或是不同的。只有相同的作者才有一稿多投問題,否則就是抄襲。
3、一個學術成果多篇發表
一個學術成果多篇發表是指將一篇論文拆成幾篇發表、一次性成果多次反覆使用、同一成果被拆分成多篇文章發表、同一實驗被分成多種角度闡發。其主要特點是作者相同,多篇文章主題完全相同,內容大部分重複,只有少部分不同。 一個學術成果多篇發表是作者過度追求發文量的必然結果。其結果是既降低了學術質量,也損害了讀者的利益。
4、不當署名
在他人作品上署名。包括故意署名與被動署名兩種情況。前者是署名者未參加有關研究工作卻為了某種目的故意在別人作品上署名,或侵占他人成果,使應該署名者不能署名或署名靠後,或提高署名者的成果數量。後者是指原作者為了提高作品的評價或發表機會擅自在作品上署上知名作者的姓名。
不當署名情況相當嚴重,然而卻缺少很好的技術手段精確檢測。TMLC系統對前三種情況均可以較好的處理,但對於不當署名還只能提供一些線索供參考。
不當署名的存在有其複雜的社會因素。如導師在學生的成果上署名,領導在下屬的成果上署名,集體成果的署名等,有時就連專家也難以判定。
5、偽造、篡改
偽造就是不以實際觀察和試驗中取得的真實數據為依據,偽造虛假的觀察與實驗結果。包括偽造研究數據,研究結果。比如虛構發表作品、專利、成果。為了提高文章發表機會甚至有人偽造論文獲得國家重點基金資助。
篡改指科研人員在取得試驗數據後,按照期望值隨意篡改或取捨數據,以符合自己的研究結論,一般有主觀取捨數據和篡改原始數據等形式。
偽造與篡改還難以用計算機來自動檢測。
學位論文學術不端行為具體表現形式
學位論文本身主要的問題在抄襲、偽造與篡改,沒有一稿多投、一個學術成果多篇發表、不當署名等問題。但通常,作為學位論文工作的一部分,許多學生還被要求發表若干期刊文章,才能獲得學位。因此,一個全面的學位論文的檢測工作還必須包括有關的期刊文獻的檢測。
建設任務
TMLC系統建設是一個系統工程,涉及檢測方法設計、比對資料庫建設、規範資料庫建設、大規模數據測試、系統性能測試等多個環節。
檢測系統框架建設
系統主要包括比對資料庫、事實資料庫庫、複製檢測器、事實分析器四個部分。一篇待檢測文章提交到系統後,首先由複製檢測器分析,並將分析結果與比對資料庫中的已有文檔進行文字比對,對於文字複製比例大的可疑文章,再利用事實分析器進行作者、機構、基金、參考文獻等事實的核查分析。最後由專家對機器檢測的情況進行審核並給出最終檢測報告。
比對資料庫建設
比對資料庫是TMLC系統的基礎與核心。一個完善的比對資料庫有如下要求:
首先,元數據必須全面完整。文獻數據收錄的文獻要儘可能的全,著錄信息完整,如準確的作者、機構、出版時間等。
其次,比對資料庫必須是全文數據(文本數位化),否則無法做到全文抄襲比對檢測。
第三,更新必須及時。如果新文獻更新滯後時間過長,就無法保證檢測結果的正確性。
規範文檔事實資料庫建設
無論是抄襲、一稿多投,還是不當署名、一個成果多次發表都需要嚴格界定作者的身份,因此,學者規範事實資料庫就成為不端文獻檢測系統的不可或缺的重要資源。它用於確認作者唯一性,甄別自抄、抄襲等。
由於存在機構改名、更名、合併等多種複雜的機構變更情況,因此必須要有機構規範資料庫用於確認成果歸屬,確認作者。同樣,出版物規範資料庫可以很好的處理期刊更名、改名、合併等情況,確認引用關係。通過引文數據的規範,進而可以用於區分引用性複製與抄襲。
規範文檔事實資料庫可以廣泛套用於評獎、評價、鑑定、項目驗收、項目申報、論文發表等各個方面的相關審核工作。
中國知網的工作基礎
中國知網經過多年的努力工作,完成了中國學術文獻網路出版總庫建設。建成<中國學術期刊網路出版總庫>(從1915-今,7000種期刊),《中國優秀博碩士學位論文資料庫》,《中國重要會議論文資料庫》,《中國重要報紙資料庫》,《中國專利資料庫》,《中國標準資料庫》,《中國科技成果資料庫》,《中國工具書資料庫》等。超過5000萬數據。
同時,已初步建成事實規範資料庫。完成中國科研機構名稱規範資料庫(70萬),作者名稱規範資料庫(300多萬),期刊信息規範資料庫(9000)。
檢測指標
學位論文一般文獻篇幅較大,字數多,碩士論文一般為4~5萬字,博士論文則多達十幾萬字。為了便於快速準確的分析待檢文獻與比對文獻的複製關係。系統設計了多個檢測指標,這些指標從多個角度反映文字複製的特徵,供專家審核參考。
總檢測指標
總重合字數(CCA)
總文字複製比(TTR)
總文字數(TCA)
疑似章節數(QCA)
總章節數(TCA)
首部重合文字數(HCCA)
尾部重合文字數(ECCA)
子檢測指標
對於學位論文的每一章節,又制定了如下檢測指標來反映該章節的檢測情況,對於一篇學位論文來說,每一章的內容各異,重點也不一樣,其核心工作內容一般主要存在某幾章中,子檢測指標可以讓用戶迅速了解每一章節的檢測情況。子檢測指標包括:
文字複製比(TR)
重合字數(CNW)
最大段長(LPL)
平均段長(APL)
段落數(PN)
段文字比(PR)
首部複製比(HR)
尾部複製比(ER)
引用複製比(RR)
上述指標從多個角度反映了檢測文獻的檢測情況,便於用戶進行針對性審核。下面對各項指標分別進行說明。
系統檢測比對數據
系統支持在<中國學術網路出版總庫>與用戶自建資料庫檢測。《中國學術網路出版總庫》包括:
《中國學術期刊網路出版總庫》
《中國博士論文網路出版總庫》
《中國優秀碩士論文網路出版總庫》
《中國報紙全文資料庫》
《中國專利全文資料庫》(知網版)
《中國科技成果資料庫》(知網版)
《中國年鑑網路出版總庫》
《中國工具書資料庫》
《中國標準資料庫》(知網版)
學位論文不端行為檢測範圍
通常,研究生除去完成學位論文外,還要完成發表一定數量的期刊論文或會議論文,才能得到學位授予。一般研究生會獨立發表或與導師一起發表期刊論文,這些論文有些是學位論文工作的一部分。
因此,對一個學位論文工作進行檢測,可能涉及到幾個方面並且不端行為的檢測是一項政策性非常強的工作,必須採取技術檢測加專家審核的辦法。
學位論文的檢測
學位論文檢測是最核心的檢測工作。由於學位論文篇幅較長,通常在5-10萬字之間,為便於工作,我們將一篇學位論文按章節分開比對。給出每一章節的檢測結果,再給出總體指標。
由於學位論文體例的要求,論文含有大量的綜述性內容。這些內容的抄襲認定,必須慎重。尤其是要和參考文獻核對。一般認為,凡在文章註明出處的,在一定數量之內的文字可以視為合理引用。最後要以專家審核的結果為準。
由於學位論文中的部分工作通常會在期刊上發表,一定注意要排除其本人的期刊論文。
培養期間發表的期刊論文的檢測
許多學位培養單位要求研究生髮表一定數量的期刊文章,這些文章應視為學位工作的一部分。顯然,應對這些文章進行檢測。
學習開始前的論文工作的檢測
現在,部分研究生培養單位,在招生簡章中要求參加考試的研究生有一定的論文發表,或是報考博士的原來已經取得過碩士學位。因此,還應對之前發表的期刊論文、碩士論文進行一定的檢測。這部分工作可以對入學的研究生起到一個篩選的最用。
結語
TMLC系統經過大規模數據測試後,針對中文學位論文中的不端文獻已經具有較好的檢測能力,達到了大規模實用的成熟程度。鑒於中國學術不端文獻的實際情況,還需繼續開發能夠檢測英文學術不端文獻以及從英文翻譯為中文的不端文獻,同時比對資料庫應同時擴展到英文資料庫與網際網路文獻,事實資料庫也應同步擴展,並建立中英文對照的規範資料庫。因此,進一步的研發工作還很多,希望TMLC系統能夠在實際套用中不斷得到完善。