《社會媒體中的垃圾用戶集團識別方法研究》是依託武漢大學,由錢鐵雲擔任項目負責人的面上項目。
基本介紹
- 中文名:社會媒體中的垃圾用戶集團識別方法研究
- 項目類別:面上項目
- 項目負責人:錢鐵雲
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
社會媒體中的垃圾用戶集團從事的病毒行銷、惡意炒作等活動,嚴重破壞商業秩序、輿論環境和政府公信力。與傳統垃圾用戶相比,垃圾集團的操控能力和危害更強。然而,社會媒體的用戶數目巨大、用戶特徵多模、用戶間集體協作方式隱藏而複雜,很多垃圾用戶識別技術難以適用。本項目擬針對社會媒體環境下的垃圾用戶集團識別方法進行創新性研究,包括:(1)研究相似用戶名和異常子結構快速查找方法,以解決海量社會媒體數據中的疑似集團定位困難問題;(2)研究用戶多模態特徵的有效集成方法,利用特徵的相關互補性提升垃圾指標計算的精度;(3)研究融合用戶個體特徵和用戶之間協同特徵的無監督、半監督學習算法,在挖掘用戶協同工作模式的基礎上實現對垃圾用戶集團的準確識別。. 本項目有望揭示個體垃圾用戶和垃圾用戶集團之間的內在聯繫,並為社會媒體中垃圾用戶集團的自動區分這一重要問題提供可行的理論支持和技術基礎,具有重要的理論意義和實際套用價值。
結題摘要
本項目研究社會媒體中的垃圾用戶集團識別方法。申報書所列的五項研究內容:(1) 數據集構造方法;(2)支持海量數據的疑似垃圾集團快速定位方法;(3)社會媒體中用戶多模態特徵集成方法;(4)基於協同模式挖掘的垃圾集團高效區分算法;(5) 具有垃圾用戶集團辨識能力的原型系統,均已完全按照計畫執行完畢。此外,我們還研究了方面級情感分析、推薦系統等技術,有利於對多種不同類型垃圾用戶集團的深入挖掘。 本項目整體進展順利,已經形成了一套可行的理論與方法,包括:(1)針對垃圾用戶集團式運作、爆發式註冊特點,創造性提出利用屬性增強和領域適應的協同訓練、以及真實樣本和生成樣本的對抗訓練等技術,實現冷啟動環境下垃圾信息的有效檢測。(2)創新性地設計了一系列基於深度學習技術的多模態特徵融合方法,有效地改善用戶特徵空間表示,極大地提升了社會媒體中海量用戶區分算法的性能。(3)探索利用用戶的社交網路結構特徵擴展該類用戶的特徵,並提出將用戶簡介、用戶社交關係等多個要素進行集成學習,大幅提高了算法的分類效果;(4)提出了基於膠囊網路、深度記憶網路的方面級情感分類新方法,成功解決了評論數據中的方面短語和方面類別的表示問題,以及從文檔級別到句子級別的遷移學習問題。(5)提出了結合評論的商品推薦方法,設計了時空上下文感知的POI推薦,以及基於用戶長短期興趣的序列推薦新方法,有效提升了稀疏數據條件下的推薦系統性能。 本項目的研究成果具有很強的科學意義。在ACL、AAAI、TOIS、TKDD、COLING、CIKM、DASFAA等自然語言處理和數據挖掘領域的頂級和權威國際學術會議或期刊上發表了36篇論文(其中28篇為第一標註,且上述重要論文均由項目負責人擔任第一或通信作者)。研究成果引起如都柏林城市大學、中科院等研究者的關注和引用,引用來源包括TKDE、ICDM、IJCNN、ACL等自然語言處理和數據挖掘領域的一流刊物和會議。