相異度矩陣

定義

相異度矩陣（Dissimilarity Matrix）

相異度矩陣存儲n個對象兩兩之間的相似性，表現形式是一個n×n維的矩陣。d（i,j）是對象i和j之間相異性的量化表示，通常為非負值，兩個對象越相似或“接近”，其值越接近0，越不同，其值越大，且d（i,j）= d（j,i），d（i,i）=0。

通常而言，相異度矩陣需要配合數據矩陣來理解。首先，先定義一個數據矩陣如下：

它表示，一個實例，有三個屬性，而一共有三個實例。然後我們根據這個數據矩陣來寫相異度矩陣：

如上圖所示，如果將所有d(j,i)寫完，就是左邊的矩陣。因為d(j,i)=d(i,j)故可以轉換成右邊的矩陣。

相異度矩陣是對象—對象結構的一種數據表達方式，多數聚類算法都是建立在相異度矩陣基礎上，如果數據是以數據矩陣形式給出的，就要將數據矩陣轉化為相異度矩陣。對象間的相似度或相異度是基於兩個對象間的距離來計算的。