相異度矩陣存儲n個對象兩兩之間的相似性,表現形式是一個n×n維的矩陣。d(i,j)是對象i和j之間相異性的量化表示,通常為非負值,兩個對象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。
定義,套用,
定義
相異度矩陣(Dissimilarity Matrix)
相異度矩陣存儲n個對象兩兩之間的相似性,表現形式是一個n×n維的矩陣。d(i,j)是對象i和j之間相異性的量化表示,通常為非負值,兩個對象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。
通常而言,相異度矩陣需要配合數據矩陣來理解。首先,先定義一個數據矩陣如下:
它表示,一個實例,有三個屬性,而一共有三個實例。然後我們根據這個數據矩陣來寫相異度矩陣:
如上圖所示,如果將所有d(j,i)寫完,就是左邊的矩陣。因為d(j,i)=d(i,j)故可以轉換成右邊的矩陣。
套用
相異度矩陣是對象—對象結構的一種數據表達方式,多數聚類算法都是建立在相異度矩陣基礎上,如果數據是以數據矩陣形式給出的,就要將數據矩陣轉化為相異度矩陣。對象間的相似度或相異度是基於兩個對象間的距離來計算的。