面向社會化媒體異構大數據的快速組合聚類研究

《面向社會化媒體異構大數據的快速組合聚類研究》是依託北京航空航天大學,由李紅擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向社會化媒體異構大數據的快速組合聚類研究
  • 依託單位:北京航空航天大學
  • 項目負責人:李紅
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

聚類分析是數據挖掘的關鍵技術。近年來,隨著社會化媒體的蓬勃發展,以用戶生成內容為核心的複雜異構大數據不斷湧現,其海量、高維、異質等特徵,對傳統聚類分析方法提出了嚴峻的挑戰。本項目嘗試採用組合聚類來解決這個問題。已有研究表明,組合聚類可以獲得比傳統聚類更好的分析結果,但現有研究仍缺乏系統性,算法效率低、魯棒性差,因此無法應對複雜異構大數據。有鑒於此,本項目將聚焦於社會化媒體異構大數據的組合聚類研究,具體包括:1、將二元矩陣法的高效性和多效用函式的適應性結合起來,在廣義K-均值理論基礎上,建立快速組合聚類的理論框架;2、緊密結合社會化媒體異構大數據特徵,研究樣本劃分方法和並行計算策略;3、提出基礎聚類分量權重學習方法,並解決存在樣本不一致和聚類指導信息時的算法設計問題;4、研發系統原型,並針對社會化媒體的用戶分群問題展開套用研究。本項目將為社會化媒體大數據時代的商務智慧型理論與實踐提供有益參考。

結題摘要

隨著社會化媒體的蓬勃發展,以用戶生成內容為核心的複雜異構大數據不斷湧現,其海量、高維、異質等特徵對傳統聚類分析方法提出了嚴峻的挑戰。本項目聚焦於組合聚類的基礎理論模型和有效算法研究,並著力推動其在媒體大數據用戶分群等分析任務中的實踐套用。課題組在歷時四年的研究中,秉持理論與實踐並重的原則,積極推動組合聚類理論框架和實現算法的深入研究和成果撰寫,並大力開展產學研建設以將理論成果轉化為社會輿情管理的重要助力。課題組取得的學術貢獻包括:(1)將二元矩陣法的高效性和多效用函式的適應性結合起來,在廣義 K-均值理論基礎上,建立了快速組合聚類的理論框架;(2)提出了多樣性組合聚類模型與算法,包括:基於列聯矩陣、協聯矩陣、模擬退火、投票法等不同基礎模型的組合聚類框架,並推導了部分模型與快速組合聚類模型的等價映射,從而顯著降低模型的計算開銷;(3)針對媒體大數據海量異構特徵,提出了同時適用於高維和低維數據的行列組合抽樣機制和結構化數據、文本數據、圖數據融合策略;(4)將組合聚類方法套用於多個網路輿情分析系統,服務於輿情主體的觀點刻畫和社群組織識別,社會經濟效益均顯著。在項目執行期內,課題組發表了標註課題資助的學術論文41篇,包括期刊論文13篇和國際會議論文28篇。其中,SCI/SSCI檢索論文8篇,CSSCI檢索論文1篇,EI論文28篇。論文成果包括TKDE(2篇)、TKDD(1篇)、TFS(1篇)、ISR(1篇)等頂級期刊論文和KDD(2篇)、AAAI(2篇)、ICDM(4篇)、SDM(1篇)等頂級會議論文。在實踐套用方面,依託本課題成果,完成了多個工信部信息安全項目和系統研發任務,獲得套用證明1項,申請國家發明專利2項,課題團隊逐漸成長為社會化媒體大數據挖掘和輿情分析的重要研究力量。

相關詞條

熱門詞條

聯絡我們