基本介紹
- 中文名:語言成分熵
- 外文名:entropy of language elements
也就是從語言的傳送者通過通信媒介傳輸到語言的接收者的過程.在語言的接收者接收到語言訊息之前,他對該訊息的不定度是很大的,這種不定度的大小稱為語言成分的熵.在接收到語言成分之前,熵因語言成分符號的數目和出現機率的不同而不同,在接收到語言符號之後,不定度被消除,熵等於零.
在考慮語言成分出現機率差異的情況下,語言成分的熵可以用下面的公式來計算:
其中,H1是熵,p,是語言成分的出現機率,n是該語言中語言成分數目.因此,英語按字母計算的熵約為4. 03bit,法語按字母計算的熵約為3. 98bit,德語按字母計算的熵約為4. 037bit,俄語按字母計算的熵約為4. 35bit.
漢字數目約8萬個,因而漢字熵的計算極為困難.中國學者提出了“漢字容量極限定律”,從理論上證明了:在考慮漢字出現機率差異的情況下,當漢字容量小於12366時,漢字的熵隨著漢字容量的增加而增加,當漢字的容量大於12366時,漢字的熵就不再增加而穩定於9. 65bit.當考慮漢字彼此之間的影響時,還可以計算語言成分的極限熵.中國學者根據英漢雙語語料庫的文本容量對比,計算出漢字的極限熵介於3. 0212bit與5. 0713bit之間,其平均值為4. 0462bit,這個極限熵的值就是人們讀到一個漢字時獲得的實際信息量.