輪廓係數

輪廓係數

輪廓係數(Silhouette Coefficient),是聚類效果好壞的一種評價方式。最早由 Peter J. Rousseeuw 在 1986 提出。它結合內聚度和分離度兩種因素。可以用來在相同原始數據的基礎上用來評價不同算法、或者算法不同運行方式對聚類結果所產生的影響。

基本介紹

  • 中文名:輪廓係數
  • 外文名:Silhouette Coefficient
  • 提出時間:1986年 
  • 提出者:Peter J. Rousseeuw 
計算過程,注意事項,

計算過程

假設我們已經通過一定算法,將待分類數據進行了聚類。常用的比如使用K-means ,將待分類數據分為了 k 個簇 。對於簇中的每個向量。分別計算它們的輪廓係數。
輪廓係數
輪廓係數
對於其中的一個點 i 來說:
計算 a(i) = average(i向量到所有它屬於的簇中其它點的距離)
計算 b(i) = min (i向量到某一不包含它的簇內的所有點的平均距離)
那么 i 向量輪廓係數就為:
可見輪廓係數的值是介於 [-1,1] ,越趨近於1代表內聚度和分離度都相對較優。
將所有點的輪廓係數求平均,就是該聚類結果總的輪廓係數
a(i) :i向量到同一簇內其他點不相似程度的平均值
b(i) :i向量到其他簇的平均不相似程度的最小值

注意事項

上部分中所說的“距離”,指的是不相似度(區別於相似度)。“距離“值越大,代表不相似度程度越高。
歐氏距離就滿足這個條件,而Tanimoto Measure 則用做相似度度量。
當簇內只有一點時,我們定義輪廓係數s(i)為0。

相關詞條

熱門詞條

聯絡我們