基本介紹
- 中文名:傑卡德距離
- 外文名:Jaccard Distance
- 提出者:Paul Jaccard
- 適用領域:集合相似性度量,字元串相似性度量
- 套用學科:統計學,機器學習,數據挖掘,信息信息檢索
定義,性質,套用,
定義
Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以並集的元素個數。
性質
(1) 若A、B兩個集合都為空,則 ;
(2) ;
套用
給定兩個n維二元向量A、B,A、B的每一維都只能是0或者1,利用Jaccard相似係數來計算二者的相似性:
(1) 代表向量A與向量B都是0的維度個數;
(2) 代表向量A是0而向量B是1的維度個數;
(3) 代表向量A是1而向量B是0的維度個數;
(4) 代表向量A和向量B都是1的維度個數。
n維向量的每一維都會落入這4類中的某一類,因此:
則Jaccard相似係數為
Jaccard距離為