無損數據壓縮

定義與特點

無損壓縮用於要求重構的信號與原始信號完全一致的場合。也就是說數據經過壓縮後信息不受損失，還能完全恢復到壓縮前的原樣。它和有損數據壓縮相對。這種壓縮通常壓縮比小於有損數據壓縮的壓縮比。

一個很常見的例子是磁碟檔案的壓縮。根據目前的技術水平，無損壓縮算法一般可以把普通檔案的數據壓縮到原來的1/2～1/4。一些常用的無損壓縮算法有霍夫曼（Huffman）算法和LZW(Lenpel-Ziv & Welch）壓縮算法。

編碼技術

香農-范諾編碼

最早闡述和實現這種編碼的是Shannon（1948年）和Fano（1949年），因此被稱為香農-范諾（Shannon-Fano）算法。

這種方法採用從上到下的方法進行編碼。首先按照符號出現的頻度或機率排序，例如，A、B、C、D和E，如表1所示。然後使用遞歸方法分成兩個部分，每一部分具有近似相同的次數。按照這種方法進行編碼得到的總位數為91。壓縮比約為1.3 : 1。

表1 Shannon-Fano算法舉例表

符號	出現的次數（Pi)	log2（1/P)	分配的代碼	需要的位數
A	15 (0.375）	1.4150	00	30
B	7 (0.175）	2.5145	01	14
C	7 (0.175）	2.5145	10	14
D	6 (0.150）	2.7369	110	18
E	5 (0.125）	3.0000	111	15

霍夫曼編碼

霍夫曼（Huffman)在1952年提出了另一種編碼方法，即從下到上的編碼方法。現仍以一個具體的例子說明它的編碼步驟：

初始化，根據符號機率的大小按由大到小順序對符號進行排序。
把機率最小的兩個符號組成一個節點，如D和E組成節點P1。
重複步驟2，得到節點P2、P3和P4，形成一棵“樹”，其中的P4稱為根節點。
從根節點P4開始到相應於每個符號的“樹葉”，從上到下標上“0”（上枝）或者“1”（下枝），至於哪個為“1”哪個為“0”則無關緊要，最後的結果僅僅是分配的代碼不同，而代碼的平均長度是相同的。
從根節點P4開始順著樹枝到每個葉子分別寫出每個符號的代碼，如表2所示。
表2 霍夫曼編碼舉例

符號	出現的次數	log2（1/pi)	分配的代碼	需要的位數
A	15(0.3846）	1.38	0	15
B	7(0.1795）	2.48	100	21
C	6(0.1538）	2.70	101	18
D	6(0.1538）	2.70	110	18
E	5(0.1282）	2.96	111	15

霍夫曼碼的碼長雖然是可變的，但卻不需要另外附加同步代碼。例如，碼串中的第1位為0，那肯定是符號A，因為表示其他符號的代碼沒有一個是以0開始的，因此下一位就表示下一個符號代碼的第1位。同樣，如果出現“110”，那么它就代表符號D。如果事先編寫出一本解釋各種代碼意義的“詞典”，即碼簿，那么就可以根據碼簿逐個碼進行解碼。

算術編碼

算術編碼在圖像數據壓縮標準（如JPEG、JBIG）中扮演了重要的角色。在算術編碼中，訊息用0到1之間的實數進行編碼，算術編碼用到兩個基本的參數：符號的機率和它的編碼間隔。信源符號的機率決定壓縮編碼的效率，也決定編碼過程中信源符號的間隔，而這些間隔包含在0到1之間。編碼過程中的間隔決定了符號壓縮後的輸出。

無損數據壓縮

基本介紹

定義與特點

編碼技術

香農-范諾編碼

霍夫曼編碼

算術編碼

RLE編碼

詞典編碼

常見格式

相關詞條

熱門詞條