跨語言文本複製檢測研究

跨語言文本複製檢測研究

《跨語言文本複製檢測研究》是依託西安交通大學,由鮑軍鵬擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:跨語言文本複製檢測研究
  • 項目類別:青年科學基金項目
  • 項目負責人:鮑軍鵬
  • 依託單位:西安交通大學
中文摘要,結題摘要,

中文摘要

在網路環境下保護電子文本智慧財產權,打擊非法複製、剽竊論文等不端學術行為,是當前亟待解決的一個熱點問題。現有文本複製檢測方法不能有效檢測從英文翻譯到中文這種翻譯型的文本剽竊。項目將要研究在網路條件下多語言文本混雜、無結構文本和半結構文本混雜的情況下,如何高效、快速檢測各種類型雷同文本。包括:基於雙語本體的翻譯型無結構自然語言文本複製檢測方法,基於小波變換提取結構特徵的半結構文本複製檢測,面向網路服務的主動式文本複製檢測體系模型。研究方案的特色在於:(1)不需要對文本進行機器翻譯,而是根據雙語本體把中英文字詞轉變為概念,然後依據概念集序列檢測文本複製。(2)提出比較全面、主動、快速的文本複製檢測策略和體系模型。本項目的研究對於文本挖掘、文本相似性度量和自然語言處理具有很大理論意義,對於保護電子文本智慧財產權,打擊論文造假,端正學術風氣具有重要的套用價值和社會意義。

結題摘要

在網路環境下保護電子文本智慧財產權,打擊非法複製、剽竊論文等不端學術行為,是當前亟待解決的一個熱點問題。現有文本複製檢測方法不能有效檢測從英文翻譯到中文這種翻譯型的文本剽竊。項目研究了在網路條件下多語言文本混雜、無結構文本和半結構文本混雜的情況下,高效、快速檢測各種類型雷同文本的方法和體系模型。包括在翻譯型無結構自然語言文本複製檢測方法、半結構文本複製檢測方法、面向網路服務的文本複製檢測體系模型以及相似性檢測方法在其它序列數據上的套用等方面開展了研究,取得了成果。 項目提出了文本概念圖模型用來解決中英文雙語文本之間的語義相似性問題。該模型不需要對文本進行機器翻譯,而是根據雙語本體把中英文字詞轉變為概念,把文本詞語內在語義联系反映到詞語結點權值中,建立文本概念圖模型檢測文本複製,可以更好地反映文本語義信息。提出了基於小波變換的結構相似度模型可以較少的誤差來快速度量半結構化文本結構相似性。該模型用一個短向量來存儲半結構化文本的結構信息,並且算法時間複雜度小,能夠快速有效地度量半結構化文本的結構相似性,為半結構化文本檢索與查詢系統帶來很大的性能提升空間。提出了適應雲計算環境體現軟體即服務思想的新型軟體服務體系,可以提供文本複製檢測和XML文本相似度計算等多種公共服務,為將來把項目研究成果向社會進行大規模推廣奠定了堅實基礎。項目還將上述複製檢測核心算法思想推廣到時間序列、蛋白質序列、UML模型等多種序列數據上,體現出了項目研究成果的廣闊套用前景。 項目組累計獲得了2項國家發明專利授權,另外還有2項國家發明專利正在審批中;出版了1部專著;發表(含錄用)了8篇學術論文,其中EI檢索5篇,2篇論文被SCI源期刊錄用(待發表)。項目組已經培養畢業了3名碩士研究生,還有3名碩士研究生將於2013年春季畢業,3名碩士研究生將於2014年春季畢業。 項目成果對於文本挖掘、文本相似性度量和自然語言處理具有很大理論意義,對於保護電子文本智慧財產權,打擊論文造假,端正學術風氣具有重要的套用價值和社會意義,對於序列數據知識挖掘套用具有巨大的潛在經濟價值。

相關詞條

熱門詞條

聯絡我們