學術不端行為檢測系統

學位論文學術不端行為檢測系統(簡稱“TMLC”)以《中國學術文獻網路出版總庫》為全文比對資料庫,實現了對抄襲與剽竊、偽造、篡改等學術不端行為的快速檢測,可供用戶檢測學位論文,並支持用戶自建比對庫。其系統示意圖如圖1所示。

基本介紹

  • 中文名:學術不端行為檢測系統
  • 簡稱:TMLC
  • 依據:中國學術文獻網路出版總庫
  • 技術:自適應多階指紋
系統簡介,系統技術路線介紹,系統功能概述,系統目的,檢測結果,檢測原理及方法,支撐技術,支撐資源,檢測指標體系,

系統簡介

系統技術路線介紹

TMLC 採用CNKI 自主研發的自適應多階指紋(AMLFP)特徵檢測技術,具有檢測速度快,準確率,召回率較高,抗干擾性強等特徵。
支持篇章、段落、句子各層級檢測;
支持文獻改寫,多篇文獻組合等各種文獻變形檢測;
檢測系統示意圖檢測系統示意圖
支持研究生學位論文、圖書專著等超長文獻的學術不端檢測。
CNKI自適應多階指紋技術原理如圖2所示:
對任意一篇需要檢測的文獻,系統首先對其進行分層處理,按照篇章、段落、句子等層級分別創建指紋,而比對資源庫中的比對文獻,也採取同樣技術創建指紋索引。這樣的分層多階指紋結構,不僅可以滿足我們對超長文獻的快速檢測,而且,因為我們的最小指紋粒度為句子,因此,也滿足了系統對檢準率和檢全率的高要求。原則上,只要檢測文獻與比對文獻存在一個相同的句子,就能被論文檢測系統 發現。
CNKI自適應多階指紋技術原理圖CNKI自適應多階指紋技術原理圖

系統功能概述

系統主要功能包括:已發表文獻檢測、論文檢測、問題庫查詢、自建比對庫管理等。
◆已發表文獻檢測:指檢測系統能夠自動將屬於用戶的已正式發表的學位論文檢索出來,並對每一篇已發表文獻進行實時檢測,快速給出檢測結果。
◆論文檢測:主要實現論文實時線上檢測功能。
◆問題庫查詢:指用戶可以將檢測結果中確認有問題的文獻放入到問題庫,便於用戶集中管理。
◆自建比對庫:指管理人員可以選擇將檢測文獻放入個人比對庫或者批量上傳文獻作為個人比對庫,該個人比對庫即可作為以後學術不端文獻檢測的比對資料庫,該自建個人比對庫完全屬於用戶,其他用戶無權使用。

系統目的

TMLC的目的是輔助各研究生培養單位對學位論文質量進行評估,為審查論文提供技術服務。檢測系統在對論文進行檢測之後,生成檢測報告,為判斷論文性質提供相關依據。

檢測結果

在對用戶提交的檢測文獻檢測之後,系統生成的檢測結果包括:
1. 重合文字來源文獻信息。
系統詳細列出重合文字來源文獻信息,這些文獻都是真實存在,而且應是公開發表或得到發表確認的。
2. 比對信息。
檢測文獻和來源文獻的詳細比對信息,用戶可以快速選擇重合文字部分查閱。
3. 總檢測指標。
該指標體系從多個角度對檢測文獻中的文字複製情況進行了概括性描述。
4. 子檢測指標。
因為學位論文一般較長,因此,系統一般按章檢索,並且每一章給出子檢測指標,該檢測指標從多個角度對該章內容的檢測情況進行了詳細描述。
5. 診斷類型。
系統根據指標參數以及其他元數據相關信息,自動給出一個預判的診斷類型,供審查人員參考。
6. 檢測報告。
檢測系統自動生成一個檢測報告單,詳細列出檢測文獻的學術不端行為檢測情況,用戶可以對該報告單進行修改,生成終審報告。
注意:系統只對疑似存在學術不端行為的論文生成檢測報告。

檢測原理及方法

支撐技術

CNKI擁有強大的技術研發隊伍,目前已經擁有了具有國際或國內領先水準的全面的數字出版的相關技術,包括資源採集技術,文本資料庫加工技術,文本資料庫技術, 數字資源著作權保護技術, 知識挖掘技術, 自然語言處理技術、快速比對技術等。在海量的全文數據的基礎上實現快速準確的檢測,上述技術是基本的保證。

支撐資源

TMLC需要一個儘可能完備的全文數據比對資源庫,而CNKI的《中國學術文獻網路出版總庫》則正好滿足這一要求。到目前為止,CNKI擁有學術期刊7000餘種,期刊全文文獻2480萬篇,期刊期數和文獻收錄完整率都大於99.9%,文獻量居國際國內同類產品之首;出版503家碩士學位點的72萬篇優秀碩士學位論文,368家博士學位點的9.6萬篇博士學位論文;1286家重要會議論文106萬篇;515家重要報紙500多萬篇;1376種重要年鑑787萬篇;600多種工具書220多萬條;學術引文索引數據600多萬條;這些出版物做到平均日更新20000條記錄;國家標準、專利、SPRINGER資料庫也集成到CNKI網路出版平台中;另外,出版平台還集成整合出版了各類第三方資料庫資源1020種。
在收錄資源種類上,CNKI在國內具有明顯優勢,收錄了期刊、學位論文、會議論文、報紙、年鑑、工具書、專利、外文文獻、學術文獻引文等與科學研究、學習相關的主要資源。在資源收錄數量上,CNKI明顯優於同類產品,各個資源庫收錄年限長,期刊等主要資源庫回溯到創刊。在資源更新速度上,CNKI產品除了第三方合作的外文文獻以外,其他資源都做到了日更新,單日更新數量大,這是推行產業化、標準化運作的結果。

檢測指標體系

學術不端行為檢測系統採用的指標體系分為兩個部分:
3.1 總檢測指標
學位論文一般文獻篇幅較大,字數多,碩士論文一般為3~5萬字,博士論文則多達十多萬字。因此,為了讓用戶對整個學位論文有一個快速的概況了解,特制定了以下指標體系:
l 總重合字數(CCA)
l 總文字複製比(TTR)
l 總文字數(TCA)
l 疑似章節數(QCA)
l 總章節數(TCA)
l 首部重合文字數(HCCA)
l 尾部重合文字數(ECCA)
上述指標從整體情況描述了論文的檢測情況,便於用戶快速了解該論文總的檢測概況。下面對上述指標分別進行說明。
3.1.1總重合字數(CCA)
學位論文一般篇幅大,少則3~5萬字,多則十多萬字,若以文字複製比來衡量一篇論文的文字重合情況,則不太合適。因為對於一篇十幾萬字的博士論文來說,10%就已達到1萬字,文字複製情況已經非常嚴重。因此,對於博碩士論文檢測,檢測系統使用絕對字數即總重合字數作為檢測結果的核心指標。如圖6所示:
3.1.2總文字複製比(TTR)
總文字複製比則是指學位論文中總的重合字數在總的論文字數中所占的比例。通過該指標,我們可以直觀了解到重合字數在該檢測學位論文中所占的比例情況。
3.1.3總文字數(TCA)
總文字數是指該檢測論文所有包含的字數,文字複製比與總文字數的乘積即為重合字數。
3.1.4疑似章節數(QCA)、總章節數(TCA)
疑似章節數是則檢測論文疑似存在學術不端行為的章節的數量。總章節數則是指學位論文總的章節數(對於不按章節顯示,而是按照固定長度切分的論文,每一段落為一章節)。
3.1.5首部重合文字數(HCCA)、尾部重合文字數(ECCA)
首部重合文字數指學位論文前1萬字中重合的文字數量。尾部重合文字數是指除去前1萬字,剩下的部分中重合的文字數量。對於學位論文,一般開頭部分均是綜述性的報告介紹,其重要性遠低於論文尾部。
3.2 子檢測指標
對於學位論文的每一章節,又制定了如下檢測指標來反映該章節的檢測情況,對於一篇學位論文來說,每一章的內容各異,重點也不一樣,其核心工作內容一般主要存在某幾章中,子檢測指標可以讓用戶迅速了解每一章節的檢測情況。子檢測指標包括:
l 文字複製比(TR)
l 重合字數(CNW)
l 最大段長(LPL)
l 平均段長(APL)
l 段落數(PN)
l 段文字比(PR)
l 首部複製比(HR)
l 尾部複製比(ER)
l 引用複製比(RR)*
上述指標從多個角度反映了檢測文獻的檢測情況,便於用戶進行針對性審核。下面對各項指標分別進行說明。
3.2.1 文字複製比(TR)
因為學位論文一般文字量較多,為了便於用戶快速瀏覽檢測結果。系統會自動對學位論文進行切分處理。有如下兩種處理方式:
1.若用戶提交的論文是MS Word格式,且按照MS Word格式生成了文檔目錄,檢測系統會自動識別論文章節,按論文實際章節信息顯示論文內容。
2.若學位論文不存在明顯的章節信息,或者不是MS Word格式論文,則系統會自動按照每段1萬餘字元切分學位論文,按照切分後的結果顯示。
文字複製比即指論文切分後每一章節段落的文字複製情況。文字複製比即指學位論文的某一章節與比對文獻比較後,重合文字部分在該章節中所占的比例。比例越高,反映該章節越多的文字來自於其他已發表文獻。文字複製比反映了文章“抄襲”的文字數量比例,一般來說,文字複製比越高,存在學術不端行為的可能性越大。文字複製比情況如圖7所示。
3.2.2 重合字數(CNW)
重合字數指學位論文該章節與比對文獻比較後,重合部分的字數。一般來說,不管文字複製比如何,重合字數越多,存在學術不端行為的可能性越大。如圖8所示,在圖中,雖然文字複製比只有16%,比例不高,但圖中左文標紅部分實際上是抄襲了右文的標紅部分。
3.2.3 最大段長(LPL)、平均段長(APL)、段落數(PN)
在學位論文檢測中,當連續文字超過一定比例時,稱之為段。在本系統中,一般認為,連續200以上文字稱為段。
與比對文獻重合的最大段長度即為最大段長。最大段長反映成段抄襲特徵。連續的文字越長,抄襲的可能性越大。
在學位論文中,所有段的長度的平均值即為平均段長。
在學位論文中,所有段的數量為段落數。
平均段長和段落數反映了重合文字在學位論文中的分布情況,一般來說,指標參數越高,存在學術不端行為的可能性越大。如圖9所示,標紅部分的連續文字構成了段,而且它是算法設計的抄襲,審查人員比較容易判斷;而在圖10中,標紅文字不構成段,連續文字較少,對它的性質判斷則可能需要更多的信息。
3.2.4 段文字比(PR)
在學位論文的某一章節中,所有該章節文字重合段的字數之和占該章節文字數的比例為段文字比。段文字比反映了抄襲連續特徵。一般來說,連續文字出現的越多,比文字分散出現的情況更可能存在學術不端行為。
3.2.5 首部複製比(HR)
學位論文某一章節的前20%稱之為章節首部,首部的文字複製比為首部複製比。就中文文獻來說,一般每一章節正文開頭部分出現的是綜述性語言,重要性相對偏低。如圖11所示,左文和右文開頭大段相同,但文字內容基本都是綜述性的介紹。
3.2.6 尾部複製比(ER)
每一章節的後80%稱之為章節尾部,尾部的文字複製比為尾部複製比。
通常情況下,尾部文字內容就重要性來說,比前部文字內容要高。如圖12所示,我們仔細查閱比較圖11和圖12的內容發現,圖11中首部文獻是綜述他人工作,而圖12中尾部文獻則是闡述自己的研究工作的目的和意義,應該是作者個人工作的體現,在這部分直接抄襲他文,性質要嚴重得多。
3.2.7 引用複製比(RR)
引用複製比指與存在引證關係的文獻的文字重合部分的比例。對於學位論文來說,存在引證關係與不存在引證關係的複製部分應區別對待。複製了他文內容,而不註明引用,性質要更加嚴重。同時我們也認為,不是所有的註明了引用的,就不存在抄襲,引用也應有一個度和範圍的限制。

相關詞條

熱門詞條

聯絡我們