基於約束的高維數據聚類

基於約束的高維數據聚類

《基於約束的高維數據聚類》是依託大連理工大學,由張憲超擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於約束的高維數據聚類
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:張憲超
項目摘要,結題摘要,

項目摘要

聚類是數據挖掘的基本內容,它幫助發現數據的自然結構,在很多領域起重要作用。近年來產生的大量高維數據給傳統聚類算法帶來被稱為維度災難的巨大挑戰,主要表現為:在高維數據中不同的簇對應於不同的子空間,發現子空間和發現簇這兩個任務是循環依賴的。為了打破這種循環依賴關係,現有算法通常對數據集做某種假設,而這些假設在多數情況下是不成立的。通過前期大量研究,我們認識到約束信息可以用來打破這種循環依賴關係。但基於約束的高維數據聚類研究剛剛起步,僅有的幾個算法都是對現有無監督算法的局部改進,沒有擺脫對數據集的假設,即沒有在真正意義上解決循環依賴這個根本問題。本項目在我們前期研究取得進展的基礎上,通過引進約束與子空間相關度的概念來解決高維數據聚類的循環依賴問題,並將約束用於聚類的各個環節,獲得基於約束的高維數據聚類高質量算法,解決高維數據聚類的維度災難,為初步建立基於約束的高維數據聚類算法和理論體系奠定基礎。

結題摘要

聚類是數據挖掘的基本內容,它幫助發現數據的自然結構,在很多領域起重要作用。近年來產生的大量高維數據給傳統聚類算法帶來被稱為維度災難的巨大挑戰,主要現為:在高維數據中不同的簇對應於不同的子空間,發現子空間和發現簇這兩個任務是循環依賴的。為了打破這種循環依賴關係,現有算法通常對數據集做某種假設,而這些假設在多數情況下是不成立的。通過前期大量研究,我們認識到約束信息可以用來打破這種循環依賴關係。但基於約束的高維數據聚類研究剛剛起步,僅有的幾個算法都是對現有無監督算法的局部改進,沒有擺脫對數據集的假設,即沒有在真正意義上解決循環依賴這個根本問題。本項目目標在我們前期工作基礎上,探索在不對數據集進行任何假設的條件下,用約束解決高維數據聚類中發現子空間和發現簇的循環依賴這個根本問題,並將約束用於高維數據聚類的各個環節,首先獲得基於約束的類似CLIQUE 和PROCLUS 的基礎性算法,再進一步發展若干基於約束的高質量高維數據聚類算法。最終本項目高維數據聚類、不確定數據聚類、多視角聚類和多任務聚類等方面取得了大量創新成果。主要創新成果包括: (1)提出基於約束的集成高維數據聚類算法;(2)基於約束的高維不確定數據子空間聚類算法;(3)提出新的基於密度的不確定數據聚類算法;(4)提出基於非負矩陣分解的約束聚類;(5)提出譜聚類Nystrom擴展抽樣的增量方法和新的分析方法;(6)提出聰明的多任務Bregman聚類和多任務核聚類算法;(7)提出自適應多任務聚類問題和算法;(8)提出多視角數據的局部線性重構算法;(9)提出基於多流行正則化非負矩陣分解的多視角聚類算法;(10)提出基於約束的不對應數據多視角聚類;(11)提出多任務多視角聚類問題和算法。在TKDE、TKDD等國際期刊和IJCAI、AAAI等國際會議上發表論文28篇,由科學出版社出版專著《數據聚類》1部,獲教育部自然科學二等獎。

相關詞條

熱門詞條

聯絡我們