多粒度視角下大規模數據聚類算法研究

多粒度視角下大規模數據聚類算法研究

《多粒度視角下大規模數據聚類算法研究》是依託山西大學,由趙興旺擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:多粒度視角下大規模數據聚類算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:趙興旺
  • 依託單位:山西大學
項目摘要,結題摘要,

項目摘要

聚類分析作為大數據信息粒化及信息壓縮的一個基本工具,開展大數據聚類分析新理論與新方法具有重要的意義。本項目針對大數據規模的海量性特徵對聚類分析任務提出的可計算性、有效性、高效性等挑戰,將多粒度建模策略引入聚類分析中,從抽樣技術、增量學習和人機協同等角度深入系統地開展聚類理論與方法方面的研究。具體包括:(1)研究面向樣本海量和特徵高維的大規模數據抽樣策略,設計多視角集成聚類算法;(2)分析數據量與聚類結果質量需求之間的關係,設計多粒度視角下的批增量聚類算法;(3)研究信息粒重要性度量方法,提出多尺度主動半監督聚類算法;(4)以微博數據為載體,研製社會化推薦實驗系統,並套用於新浪微博推薦中。本項目瞄準大規模數據聚類分析中的關鍵問題,系統地發展聚類新理論與新方法,研究成果將對大數據環境下的分析挖掘具有重要的理論意義與套用價值。

結題摘要

大數據呈現出樣本規模的海量性、特徵規模的高維性、特徵表示的混合性、內在結構的複雜性等特點。無論從模型、算法還是套用層面,均給聚類分析提出了嚴峻挑戰。項目圍繞大規模複雜數據的聚類問題,重點在大規模數據聚類、集成聚類、複雜結構數據聚類以及社會化推薦等方面開展了研究。具體地:(1)在大規模數據聚類方面,提出了基於分層抽樣的聚類算法框架;(2)在集成聚類方面,提出了分類型數據、混合數據、多視圖數據的集成聚類算法;(3)在複雜結構數據聚類方面,提出了函式型數據、集值數據、蛋白質互作用網路數據的有效聚類算法;(4)在社會化推薦方面,針對冷啟動和可擴展性問題,通過融合社交關係信息,提出了有效的社會化推薦算法。本項目取得的研究成果不僅豐富了聚類分析的研究內容,而且可為社會網路和生物信息學等領域中的數據分析提供技術支持。

相關詞條

熱門詞條

聯絡我們