相似係數和距離

相似係數就是研究變數之間關係。

相似係數和距離是聚類分析中的兩個專業術語。
為了將樣品(或指標,一個樣品包含n個指標,比如一個“張三”是一個樣品,他的年齡、身高、學歷等等就是指標)進行分類,就需要研究樣品之間關係,目前用的最多的方法有兩個:一種方法是用相似係數,性質越接近的樣品,他們的相似係數的絕對值越接近1,而彼此無關的樣品,他們的相似係數的絕對值越接近於0。比較相似的樣品歸為一類,不怎么相似的樣品歸不同的類。另一種方法是將一個樣品看做p維空間的一個點,並在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。在實際問題中,我們常常用聚類對樣品分類,用相似係數對指標分類。相似係數和距離有各種各樣的定義,而這些定義與變數的類型關係極大,因此先介紹變數的類型。
由於實際問題中,遇到的指標有的是定量的(如長度、重量等),有的是定性的(如性別、職業等),因此將變數(指標)的類型按以下三種尺度劃分:
間隔尺度:變數是用連續的量來表示的,如長度、重量、壓力、速度等等,在間隔尺度中,如果存在絕對零點,又稱比例尺度。
有序尺度:變數度量時沒有明確的數量表示,而是劃分一些等級,等級之間有次序關係,如某產品分上、中、下三等,次三等有次序關係,但沒有數量表示。
名義尺度:變數度量時既沒有數量表示,也沒有次序關係,如某物體有紅、黃、白三種顏色,性別有男女之分,市場供求中有“產”和“銷”等。
不同類型的變數,在定義聚類和相似係數時,其方法是有很大差異的。研究和使用較多的是間隔尺度,現給出間隔尺度的距離和相似係數的定義。
其中(i=1,……,n;j=1,……,p)為第i個樣品的第j個指標的觀測數據。第i個樣品為矩陣X的第i行所描述,所以任何兩個樣品和之間的相似性,可以通過矩陣X中的第K行和第L行的相似程度來刻畫;任何兩個變數和之間的相似性,可以通過第K列和第L列的相似程度來刻畫。

相關詞條

熱門詞條

聯絡我們