面向多源大數據的魯棒聚類模型與算法研究

面向多源大數據的魯棒聚類模型與算法研究

《面向多源大數據的魯棒聚類模型與算法研究》是依託山西大學,由杜亮擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向多源大數據的魯棒聚類模型與算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:杜亮
  • 依託單位:山西大學
項目摘要,結題摘要,

項目摘要

多源大數據的聚類分析是大數據研究面臨的重要問題之一。由於數據規模大來源廣,多源大數據聚類不得不面對數據中廣泛存在複雜噪聲。現有方法從不同角度進行多源聚類,如多視圖聚類、聚類集成、多核聚類和多關係聚類。這些方法不能有效的處理多源複雜噪聲。我們提出多源大數據魯棒聚類方法系統性的處理多源複雜噪聲帶來的挑戰,具體包括:(1)在一個統一的框架中聯合處理多源降噪和融合聚類兩個相互依賴的子問題;(2)利用融合聚類結果指導多源降噪,通過多源數據可靠性聯合建模和多源噪聲聯合抽取兩種策略刻畫這些複雜噪聲,並採用對應的噪聲檢測和噪聲矯正兩種魯棒學習機制系統性的減輕多源複雜噪聲的干擾;(3)利用降噪後的數據進行一致性最大化學習,進而實現多源融合聚類;(4)設計高效並易於在分散式計算平台部署的算法求解多源大數據魯棒聚類模型;(5)靈活調整該框架以處理不同類型的多源大數據。本項目的開展有助於提升對大數據內在價值的挖掘。

結題摘要

我們在多源大數據魯棒聚類若干關鍵科學問題方面取得了有益的進展,具體包括:(1)提出多核噪聲恢復算法,在數據層對多源數據進行魯棒集成;(2)提出多核魯棒 K-均值算法,在模型層實現多源數據的魯棒集成;(3)提出魯棒聚類集成方法處理決策層結構性噪聲;(4)提出了動態多視圖 SVM 算法和動態多視圖譜聚類算法;(5)提出了自適應的無監督特徵選擇算法。總地來說,課題組與本項目直接相關的論文 10 多篇。申請人論文近 5 年引用次數將近 400 余次(Google Scholar),課題組獲得了一定的國際影響力和產業界的關注。

相關詞條

熱門詞條

聯絡我們