不良文本內容線上感知的多粒度語義模式研究

項目摘要

網際網路上的不良文本內容檢測具有明確的需求背景，但在語義模式表示、快速檢測等理論和技術方面具有一定的挑戰性。現有方法主要依賴於不良關鍵字列表或簡單語義模式，在面對具有比較複雜語義的不良內容感知時，其檢測能力受到明顯限制。本項目以提升不良模式的語義描述能力及建立高效感知的理論與技術基礎為研究目標，從研究內容及基礎方法兩方面進行創新研究。提出描述不良內容的多粒度語義模式，從不良模式的特徵粒度、語義相似及背景話題三方面探索增強不良模式的語義處理能力的方法，從模式分布及模式轉移兩方面揭示不良模式在各種類型背景話題下的統計特性，提出解決未知模式的有效檢測的新方法，闡明基於多粒度語義模式進行不良內容線上快速感知的啟發式機制。項目研究為尋找具有更強語義描述能力的不良模式及建立快速感知方法提供理論依據及技術手段，研究成果可為國家相關管理部門進行Web不良文本內容的細粒度管控提供新的技術、方法及理論保障。

結題摘要

網際網路上的不良文本內容檢測具有明確的需求背景，但在語義模式表示、快速檢測等理論和技術方面具有一定的挑戰性。本項目對不良文本內容檢測中的多粒度語義模式及關鍵技術進行研究，具體研究內容主要包括面向不良文本內容感知的語義模式形式化描述方法、不良語義模式的構造方法、不良語義模式的統計特性、基於不良語義模式的內容線上感知方法、不良文本內容線上感知的原型系統設計五個方面。項目研究按計畫順利進行並完成課題預定的目標，構造了用於不良文本檢測試驗的數據集，在不良模式表達方面，提出了不良模式的邏輯結構形式及構造算法、頻繁模式挖掘的不良模式表示、模式背景話題結構描述及其構造方法。在不良模式運用及不良信息內容檢測方面，提出了不良模式的相似性計算、不良模式語義推理方法、基於多粒度話題模型場景的檢測技術、基於頻繁模式的檢測算法以及對不良模式的自適應檢測方法，提出了強化不良模式關聯的自適應建模方法。在檢測平台技術及套用方面，在文本流處理和大規模文本測試中的關鍵問題進行了進一步研究，對研究中所提出的算法和模型在微軟LYNC即時訊息過濾和上市公司負面信息採集分析中進行了套用研究. 項目組圍繞設定的五個研究內容進行了深入的理論分析、算法設計、實驗驗證及套用研究。在重要國際期刊和學術會議上發表相關論文14篇，其中7篇被SCI檢索，9篇被EI檢索，超過預期目標。根據Google Scholar的引用統計，所發表的論文總的被引用次數是26次，引用的同行包括來自滑鐵盧大學電子和計算機工程系、美國Texas A&M University計算機科學工程系等知名大學的研究員。申請三項發明專利，其中，一項為授權專利。培養了博士生一名，碩士生4名，均已順利畢業。

不良文本內容線上感知的多粒度語義模式研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條