《面向社交媒體的多粒度主題演化關鍵問題研究》是依託山西大學,由陳千擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向社交媒體的多粒度主題演化關鍵問題研究
- 項目類別:青年科學基金項目
- 項目負責人:陳千
- 依託單位:山西大學
項目摘要,結題摘要,
項目摘要
隨著web2.0技術的蓬勃發展,社交媒體以前所未有的生命力引發新的信息技術革命,滲透並改變人們的生活工作方式。從海量社交媒體信息中識別其蘊含的潛在主題結構,並高效準確地挖掘主題在時間上的演化模式對國民經濟的發展起著舉足輕重的作用。相比較於傳統媒體,社交媒體信息具有高度動態性、互動性、海量性、噪聲多等特徵,使得主題具有空間多粒度特徵和時間演化特徵,要求模型能處理多粒度和演化數據的同時,算法能處理海量、實時、異構數據,這些對數據挖掘領域提出了新的挑戰。本項目面向社交媒體開展主題演化模式挖掘研究,主要內容:1.多粒度主題結構建模;2.社交媒體中主題增量識別算法研究;3.多粒度主題周期演化模式挖掘研究;4.事件漂移演進模式挖掘研究。本項目對反腐倡廉、輿情監測、廣告投放、公共安全、用戶興趣預測等多個套用領域具有廣泛的套用價值,同時,對信息檢索和推薦、機器學習和社會網路等學科領域具有重要學術價值。
結題摘要
相比較於傳統媒體,社會媒體能提供關於任何主題或事件實時細粒度的信息,這些主題從個人和公眾的兩個角度反映了時間上輿情信息演化規律。社會媒體的主題演化分析對於公共安全、廣告投放、社區管理具有重大現實意義。從海量社交媒體信息中識別其蘊含的潛在主題結構,並高效準確地挖掘主題在時間上的演化模式是本項目的研究目標。本項目圍繞社會媒體特點,對主題識別和演化的模型及算法進行了系統研究,包括:(1)主題結構建模,提出一種多粒度語義層次本體樹主題結構模型,有效表達了主題空間時間結構語義;(2)主題識別研究,提出基於背景因子分析的主題檢測方法,保證了算法快速收斂;提出基於特徵本體的線上主題檢測及主題最佳化方法,保證了語義可解釋性;提出兩階段新主題發現框架,極大降低時間複雜度;針對主題語義解釋性不足,打破詞袋模型中獨立性假設;提出一種基於markov決策過程的主題檢測技術,較好地解決了語義缺失及檢測效率問題;(3)主題演化研究,提出增量的基於特徵本體的主題演化算法,套用於用戶興趣建模研究;提出一種結合iHMM的非參貝葉斯模型用於研究科技文獻中主題的屬性生命周期演化情況。