濟夫律

濟夫律

濟夫律是一種使用數學統計數據的經驗法則,它指的是在物理和社會科學研究中,許多類型的數據都可以用Zipfian分布來近似,這是一種相關的離散冪定律的機率分布。

基本介紹

  • 中文名:濟夫律
  • 外文名:Zipf's law
  • 別稱:齊夫定律
  • 提出者:G.K.齊夫
  • 套用:統計學、心理學等
定義,性質,

定義

濟夫律是一種使用數學統計數據的經驗法則,它指的是在物理和社會科學研究中,許多類型的數據都可以用Zipfian分布來近似,這是一種相關的離散冪定律的機率分布。

性質

濟夫律是哈佛大學的語言學家GeorgeKingsley Zipf 於1949年發表的。濟夫律規定,給定一些自然語言的語言,任何一個詞的頻率都與它在頻率表中的排名成反比。因此,最頻繁的單詞出現的頻率大約是第二頻繁的單詞的兩倍,是第三次頻繁的單詞的三倍等等,頻率分布是一種逆關係。比如,在 Brown 語料庫中,“the”是最常見的單詞,它在這個語料庫中出現了大約7%(100萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數為第二位的單詞“of”占了整個語料庫中的3.5%(36411次),之後的是“and”(28852次)。僅僅135個字彙就占了Brown語料庫的一半。
如果將一篇較長的文章(約5000字以上)中每個詞按其出現頻次遞減排列起來(高頻詞在前,低頻詞在後),並用自然數給這些詞編上等級序號,出現頻次最高的為1級,其次為2級……這樣一直到D級,如果用f表示詞在文章中出現的頻次,用r表示詞的等級序號,則有:
fr=C(C為常數)
如果等級r與頻次f都取對數,與之等價的數學表達式為:ln(r)+ln(f)=ln(C)
如果說fr=C是齊夫定律的一般形式,那么kfr=C這便是齊夫定律的修正形式。

相關詞條

熱門詞條

聯絡我們