文檔相似性檢測工具

目前的工作基礎

國家自科基金資助，國內外已發表反剽竊論文6篇：　—— Empirical Analysis on Chinese Academic Plagiarism，Abstract Paper，JCDL 2009.6（數字圖書館領域頂級國際會議）　—— Research on Anti-plagiarism System and the Law of Plagiarism, International Symposium on Education and Computer Science (IEEE ECS 2009),EI/ISTP,2009.3　—— ROST反剽竊系統在期刊領域的套用與進展第二屆數字時代出版產業發展與人才培養國際學術研討會 2008.11　—— System of Twice-Gathering Information and Research of Information Fingerprint Hashtrie, EGTA 2008，EI，2008.9 　—— The Research of Anti-plagiarism Monitoring System Model,（Wisa2007）Wuhan University Journal of Natural Sciences Vol.12 NO.5,Sept.2007,937-940 Springer出版　—— 剽竊和反剽竊的對抗中國教育網路 2008.9　專利授權1項：　—— 基於計算機網路的防轉載或/和反剽竊監控方法（200610019074.5），2006.5.16　專利申請1項：　—— 能加快反剽竊或轉載文檔檢測速度的方法（200610166577.5），2006.12.31,授權

系統

基本原理：反剽竊軟體自動將文檔切割為多個50到200字（可自定義）的小文本，通過混合引擎將其與188億個網頁和490萬篇文獻進行模糊匹配，標示出每個文本塊與文獻庫中的某些文獻的最大相似度。由此軟體統計出相似度≥95%（基本原封不動抄襲）與相似度≥80%（略作修改後抄襲）的字數所占總字數比例。我們把這個比例作為剽竊(相似)程度衡量指標。　系統需要XP系統，word2003環境。

優點

—— 覆蓋面廣，通過混合引擎覆蓋約188億個網頁和490萬篇論文。系統採用自研的ROST WebSpider和ROST SEAT算法實現了對網際網路和部分期刊網的廣度覆蓋。　—— 模糊檢測，柔性匹配，為防止抄襲者替換部分字元，刪除部分標點符號，系統通過相似度來進行判定。系統採用自研的ROST Similar算法實現高速相似性檢測和度量。系統採用自研的QingQing算法提取信息指紋，在P3、512MBPC上，分詞速度為13MB/S，已在網際網路提供評測版供業內評測。本軟體檢測結果只能作為一個參考，可以使用表格右鍵導出詳細檢查結果傳送給被檢查本人，本軟體不對是否剽竊做結論，只是告訴你與現存文獻相似度高於80%的文字比例所占文章總數比例是多少。高於80%相似度的文字才是需要關注的。低於此值可以完全無視。　—— 規範引文及參考文獻去除，降低誤判可能性。　—— 自定義分塊檢測機制，將文章的每一文本塊與其他文檔的相似度都精確的表示出來了，每一文本塊約為50字至200字不等（可自定義），以紅色表示極度相似（相似度大於80%），一目了然，清晰醒目。當設為50個字一塊時，可以在較低信息粒度上查找出可能抄襲或相似的文獻。　—— 相似文檔模組跟蹤技術，可以通過簡單操作直接定位相似文檔中哪些內容被抄襲或者拷貝，直觀明了。　—— 結果分析功能，自動分析文檔相似結果，給出評價意見。　—— 多種檔案格式支持，包括PDF、DOC、PPT、XLS、TXT等文檔。　—— 專有數據檔案保存，不用反覆檢測，浪費時間。

文檔相似性檢測工具

基本介紹

目前的工作基礎

系統

優點

缺點

相關研究

相關軟體工具

面向社會的服務

相關詞條

熱門詞條