戴斯相似性係數(Dice similarity coefficient,縮寫DSC)是科技術語。
基本介紹
- 中文名:戴斯相似性係數
- 外文名:Dice similarity coefficient
- 縮寫:DSC
- 定義:Dice距離用於度量兩個集合的相似性,因為可以把字元串理解為一種集合,因此Dice距離也會用於度量字元串的相似性。
係數介紹
戴斯相似性係數=2(A∩B)/ (A+B)
Dice距離用於度量兩個集合的相似性,因為可以把字元串理解為一種集合,因此Dice距離也會用於度量字元串的相似性。此外,Dice係數的一個非常著名的使用即實驗性能評測的F1值。Dice係數定義如下:
其中分子是A與B的交集數量的兩倍,分母為X和Y的長度之和,所以他的範圍也在0到1之間。從公式看,Dice係數和Jaccard非常的類似。Jaccard是在分子和分母上都減去了|A∩B|。
與Jaccard不同的是,相應的差異函式
不是一個合適的距離度量措施,因為它沒有三角形不等性的性質。例如給定 {a}, {b}, 和 {a,b}, 前兩個集合的距離為1, 而第三個集合和其他任意兩個集合的距離為三分之一。
與Jaccard類似, 集合操作可以用兩個向量A和B的操作來表示:
Python實現:
1 2 3 4 5 6 | def dice_coefficient(a, b): """dice coefficient 2nt/na + nb.""" a_bigrams = set(a) b_bigrams = set(b) overlap = len(a_bigrams & b_bigrams) return overlap * 2.0/(len(a_bigrams) + len(b_bigrams)) |