戴斯相似性係數

戴斯相似性係數(Dice similarity coefficient,縮寫DSC)是科技術語。

基本介紹

  • 中文名:戴斯相似性係數
  • 外文名:Dice similarity coefficient
  • 縮寫:DSC
  • 定義:Dice距離用於度量兩個集合的相似性,因為可以把字元串理解為一種集合,因此Dice距離也會用於度量字元串的相似性。
係數介紹
戴斯相似性係數=2(A∩B)/ (A+B)
Dice距離用於度量兩個集合的相似性,因為可以把字元串理解為一種集合,因此Dice距離也會用於度量字元串的相似性。此外,Dice係數的一個非常著名的使用即實驗性能評測的F1值。Dice係數定義如下:
其中分子是A與B的交集數量的兩倍,分母為X和Y的長度之和,所以他的範圍也在0到1之間。從公式看,Dice係數和Jaccard非常的類似。Jaccard是在分子和分母上都減去了|A∩B|。
與Jaccard不同的是,相應的差異函式
不是一個合適的距離度量措施,因為它沒有三角形不等性的性質。例如給定 {a}, {b}, 和 {a,b}, 前兩個集合的距離為1, 而第三個集合和其他任意兩個集合的距離為三分之一。
與Jaccard類似, 集合操作可以用兩個向量A和B的操作來表示:
Python實現:
1
2
3
4
5
6
def dice_coefficient(a, b):
"""dice coefficient 2nt/na + nb."""
a_bigrams = set(a)
b_bigrams = set(b)
overlap = len(a_bigrams & b_bigrams)
return overlap * 2.0/(len(a_bigrams) + len(b_bigrams))

相關詞條

熱門詞條

聯絡我們