齊普夫定律

齊普夫定律是美國學者G.K.齊普夫於20世紀40年代提出的詞頻分布定律。它可以表述為:如果把一篇較長文章中每個詞出現的頻次統計起來,按照高頻詞在前、低頻詞在後的遞減順序排列,並用自然數給這些詞編上等級序號,即頻次最高的詞等級為1,頻次次之的等級為2,……,頻次最小的詞等級為D。若用f表示頻次,r表示等級序號,則有fr=C(C為常數)。人們稱該式為齊普夫定律。

基本介紹

  • 中文名:齊普夫定律
  • 人物:齊普夫
  • 地區:美國學者
  • 別名:省力法則,Zipf定律
起源,假說,套用,意義,

起源

關於單詞在文獻中出現頻次的齊普夫定律(Zipf's Law)。亦稱省力法則。1948年由美國哈佛大學語言學教授G.K.齊普夫(George K. Zipf )對英語文獻中單詞出現的頻次進行大量統計以檢驗前人的定量化公式而提出的。該定律指出文章中單詞的頻次(f)與其排列的序號(r)之間存在著下述定量的關係,齊普夫認為:如果有一個包含n 個詞的文章,將這些詞按其出現的頻次遞減地排序,那么序號r和其出現頻次f之積fr,將近似地為一個常數,即fr=b,(式中r=1,2,3.…),即詞頻分布定律最普通而又最典型的表達。 此後, 許多工具書大 都採用類似觀點和說法 。如英國著名的語言學著作《語言與語言詞典》 中的釋義是:“(詞頻分布定律) 是指談話者或寫作者使用的詞的分布和頻次的總描述。F×R=C,方程式中F=頻次,R=序號,即頻率表上的位置;C=常數。方程式表示詞使用的總次數和詞頻表上的位置之間有一個固定比率。”但是齊普夫的表達僅適宜於中頻詞的情況,高頻與低頻詞與該表述偏差較大。於是對詞頻分布規律又有許多補充和深化的研究。
· ·George Kingsley Zipf observed that the frequency of usage of any word in a corpus is approximately inversely proportional to its frequency rank:
·
齊普夫定律
-i.e., the power law fr ~ 1 / rk, where r is rank and k≈ 1.

假說

詞頻分布原因的假說
詞頻分布規律是有較為豐富內涵的,學術界認為常態分配是描述自然科學的典型分布,而齊普夫分布將成為揭示社會科學規律的典型分布,所以社會科學界一直很重視這個定律。討論詞頻分布何以呈現那種特殊的形狀,對其成因提出假說,建立適當的理論模型描繪其分布過程是當前研究工作的熱點,目前較重要的假說有2個:①“省力法則”假說。提出這一假說的是齊普夫。他認為,在語言交流過程中,“省力法則”同時體現在說話人和聽話人身上。說話人希望組成語言的詞少,而且一詞多義,以節省其精力。聽話人認為最好是一詞一義,使聽到的詞與其確切涵義容易匹配,減少他理解的功夫。這2種節省精力的傾向最後平衡的結果,便是詞頻的那種雙曲線型分布。②“成功產生成功”假說。這方面以H.A.西蒙的研究最為著名。西蒙構造了一個機率模型,他所作的一個重要假說是:在文獻中,一詞使用的次數越多,則再次使用的可能性越大。該模型最後導出的分布與齊普夫分布相當接近, 普賴斯後來建立了一個相類似的模型,又明確地提出了“成功產生成功”的假說。

套用

巴塞隆納自治大學數學研究中心的研究者最近使用數學和統計學的專業知識,對齊普夫定律(Zipf's law)進行了嚴格的研究。他們使用了古登堡計畫(the Project Gutenberg)的資料庫——古登堡計畫是一項將著作權過期的英語書籍電子化的網際網路計畫,包含3萬多篇英語文本,可以免費獲取。這么大規模的研究在該領域前所未有,此前的研究大多只採用幾十篇文本的數據集。分析結果表明,如果除去少數隻出現了一兩次的詞語,有55%的文本完全地符合齊普夫定律,而如果考慮所有的詞語,仍然有40%的文本完全符合齊夫定律。該研究的負責人科拉爾(Á.Corral)稱,如果進一步忽略只出現3至5次的詞語,符合齊普夫定律的文本數還會更多。
2016年,江南大學的研究者以諾貝爾文學獎得主莫言的《紅高粱》《蛙》和《透明的紅蘿蔔》為主要研究對象,採用字頻統計軟體和漢語詞頻統計軟體,統計莫言作品中字頻、詞頻,發現都能滿足齊普夫定律。所得結果與包括英語、西班牙語、法語等在內的多種語言研究結果一致。這項研究從統計學角度提供了莫言可以成為中國大陸首位諾貝爾文學獎得主的可能原因之一。
齊普夫定律已經在語言學、情報學、地理學、經濟學、信息科學等領域有了廣泛的套用,而且取得了不少可喜成果。中國數學家和語言學家周海中曾經指出:齊普夫定律是描述詞頻分布規律的強大數學工具,作為經驗定律,它仍有不足之處,有待進一步完善。

意義

研究詞頻分布對編制詞表,制定標引規則,進行辭彙分析與控制,分析作者著述特徵具有一定意義。經驗表明,中頻詞往往是包含大量有檢索意義的關鍵字。而一篇文獻全文輸入計算機後,計算機是很容易檢出中頻詞的。因此,詞頻分布也是文獻自動分類自動標引的研究對象。

相關詞條

熱門詞條

聯絡我們