將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程被稱為聚類。
基本介紹
- 中文名:投影聚類
- 外文名:投影聚類
- 類型:重要的聚類分析方法。
- 套用於:高維聚類分析上
特性
投影聚類(Projected Clustering)是一種重要的聚類分析方法。被廣泛套用於高維聚類分析上。投影聚類是將空間數據投影到某若干維上,在相關的維上再根據數據間的相似性(一般是基於距離)進行聚類。目前許多經典聚類算法如文獻中提到的K-Means 和K-medoid 方法, 大部分都是針對低維數據的, 然而現實中大部分數據都是高維的, 於是引入“特徵選擇”來降低數據的維度, 但這樣容易導致丟失數據的信息, 為了消除“降維”帶來的負面影響,A grawal 等人於1999年首次提出的PROCLUS算法就是最早的採用自頂而下搜尋策略的投影聚類算法。A grawal後來 對PROCLUS算法的改進ORCLUS算法也是投影聚類算法。目前投影聚類算法有:CL IQUE、PROCLUS、ORCLUS和EPCH 等。
隨著技術的進步使得數據收集變得越來越容易,導致資料庫規模越來越大、複雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受“維度效應”的影響,許多在低維數據空間表現良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維聚類已成為數據挖掘中的一個重要研究方向。因此投影聚類正成為一種重要的聚類分析方法。