基本介紹
- 中文名:最小距離分類
- 外文名:Minimum distance classification
- 學科:數學
- 屬性:圖像分類方法
- 常用:歐幾里得距離、曼哈頓距離
- 相關名詞:最小距離分類器
簡介,基本原理,分類器的距離,歐氏距離,曼哈頓距離,閔可夫斯基距離,最小距離分類的步驟,優點和缺點,
簡介
基本原理
在一個n維空間中,最小距離分類法首先計算每一個已知類別 (用向量表示是 )的各個維度的均值,形成一個均值 ,用向量表示 )(A為類別的名稱, 是類別A的樣本特徵集合, 是類別A的第1維特徵集合, 是第一維特徵集合的均值,n為總的特徵維數),同理,計算另一個類別 (用向量表示是 )的均值 ,用向量表示 ,那么對於一個待分類的樣本特徵向量x(用向量表示是 ),怎么判斷它是屬於類別 ,還是 呢?我們只需要分別計算到 和 的距離 和 ,以歐式距離為例,距離的計算公式如下:
然後找 和 中的最小值,如果前者最小,那么X屬於A類,如果後者小,那么X屬於B類。
分類器的距離
目前有多種不同的計算分類距離的方法,在上面的距離計算公式中,是我們最常見的計算距離的方法,歐氏距離。另外也有其它很多的距離公式,如歐氏距離,曼哈頓距離,閔可夫斯基距離,切比雪夫距離,標準化歐式距離等等,這裡不一一做介紹,只對下面的三個距離做重點介紹一下,以是我們能夠理解不同距離,對應不同的意義:
歐氏距離
歐氏距離(EuclideanDistance)是最易於理解的一種距離計算方法,源自歐氏空間中兩點間的距離公式。
(1)二維平面上兩點 與 間的歐氏距離:
(2)三維空間兩點 與 間的歐氏距離:
3)兩個n維向量 與 間的歐氏距離:
曼哈頓距離
從名字就可以猜出這種距離的計算方法了。想像你在曼哈頓要從一個十字路口開車到另外一個十字路口,駕駛距離是兩點間的直線距離嗎?顯然不是,除非你能穿越大樓。實際駕駛距離就是這個“曼哈頓距離”。而這也是曼哈頓距離名稱的來源, 曼哈頓距離也稱為城市街區距離(City Blockdistance)。
(1)二維平面兩點 與 間的曼哈頓距離:
(2)兩個n維向量 與 間的曼哈頓距離:
閔可夫斯基距離
閔氏距離(MinkowskiDistance)不是一種距離,而是一組距離的定義。
(1)閔氏距離的定義
兩個n維變數與間的閔可夫斯基距離定義為:
其中p是一個變參數。
當p=1時,就是曼哈頓距離
當p=2時,就是歐氏距離
當p→∞時,就是切比雪夫距離
p取不同的值,公式也不一樣,所以隨著參數p的不同,閔氏距離可以表示一類的距離。
最小距離分類的步驟
最小距離分類器的步驟,其實是我們做監督分類基本的幾個步驟。
(1)確定類別m,並提取每一類所對應的已知的樣本。
(2)從樣本中提取出一些可以作為區分不同類別的特性,也就是我們通常所說的特徵提取,如果提取出了n個不同的特性,那么我們就叫它n維空間,特徵提取對分類的精度有重大的影響。
(3)分別計算每一個類別的樣本所對應的特徵,每一類的每一維都有特徵集合,通過集合,可以計算出一個均值,也就是特徵中心。
(4)通常為了消除不同特徵因為量綱不同的影響,我們對每一維的特徵,需要做一個歸一化,或者是放縮到(-1,1)等區間,使其去量綱化。
(5)利用選取的距離準則,對待分類的本進行判定。
優點和缺點
最小距離分類法原理簡單,容易理解,計算速度快,但是因為其只考慮每一類樣本的均值,而不用管類別內部的方差(每一類樣本的分布),也不用考慮類別之間的協方差(類別和類別之間的相關關係),所以分類精度不高,因此,一般不用它作為我們分類對精度有高要求的分類,但它可以在快速瀏覽分類概況中使用。