巴氏距離

巴氏距離

在統計學中,巴氏距離(巴塔恰里雅距離 / Bhattacharyya distance)用於測量兩離散機率分布。它常在分類中測量類之間的可分離性。在同一定義域X中,機率分布p和q的巴氏距離定義如下:

(1)離散機率分布

(2)連續機率分布

基本介紹

  • 中文名:巴氏距離
  • 外文名:Bhattacharyya distance
  • 別稱:巴塔恰里雅距離
  • 套用學科:統計學
  • 適用領域範圍:測量兩離散機率分布
主要簡介,巴氏距離,巴氏係數,

主要簡介

對於巴氏距離,它在統計學中用於測量兩種離散機率分布的可分離性。在直方圖相似度計算時,巴氏距離獲得的效果最好,但計算是最為複雜的。

巴氏距離

在統計學中,巴氏距離(巴塔恰里雅距離 / Bhattacharyya distance)用於測量兩離散機率分布。它常在分類中測量類之間的可分離性。在同一定義域X中,機率分布p和q的巴氏距離定義如下:
(1)離散機率分布
對於在X數域上的兩個離散機率分布p和q,巴氏距離定義為
DB(p,q) = -ln(BC(p,q))
其中
BC(p,q) = ∑√p(x)q(x)
BC被稱作Bhattacharyya係數(巴氏係數)
0≤BC≤1q且0≤DB≤∞
在連續情形中,Bhattacharyya係數如下定義:
BC(p,q) = ∫√p(x)q(x)dx
0≤BC≤1q且0≤DB≤∞
兩種情形中,巴氏距離DB均不滿足三角不等式

巴氏係數

Bhattacharyya係數(Bhattacharyya Coefficient, 巴氏係數)是對兩個統計樣本的重疊量的近似計算。巴氏係數可用來對兩組樣本的相關性進行測量。
計算巴氏係數涉及到對該兩個樣本的重疊部分進行基本形式的積分。兩個樣本值的積分被分成指定數目的部分。而每一個樣本的每一個部分的成員數被用於下式中:
Bhattacharyya = ∑{i=1|n}√(∑ai·∑bi)
其中,a,b為兩個樣本,n是分塊數,ai, bi分別是在a, b中第i部分的成員數。
這樣一來,這個式子就會隨著因某塊中有兩個樣本的公共成員而變大,也會隨著某塊中有一大片重疊的樣本成員而變大。分塊數的選定依賴於樣本中的成員數量;如果分塊太少會因過估了重疊區域而失去精確性,如果分塊太多會因為造成空塊而失去精確性。
如果兩個樣本完全沒有重疊,巴氏係數將會等於0,因為每一個分塊都將被0乘。這意味著完全分離的樣本不能被巴氏係數單獨測定出來。

相關詞條

熱門詞條

聯絡我們