無聲間隔壓縮

無聲間隔壓縮

在計算機科學中,無聲間隔是音頻處理技術領域中的一個術語,它與有聲間隔是不同的概念。有聲間隔指的是聲音的相隔時間,一般有一定時間範圍。無聲間隔大於有時間隔時間上限。無聲間隔壓縮簡單來說是對無聲間隔的時間進行壓縮。

基本介紹

  • 中文名:無聲間隔壓縮
  • 外文名:Silent interval compression
  • 學科:計算機科學
  • 領域:音頻處理技術
  • 目的:提高通信/存儲效率
  • 定義:壓縮無聲間隔的時間
簡介,多媒體中音頻信息,語音壓縮,音頻的編碼基礎,

簡介

在計算機科學中,無聲間隔是音頻處理技術領域中的一個術語,它與有聲間隔是不同的概念。有聲間隔指的是聲音的相隔時間,一般有一定時間範圍。無聲間隔大於有時間隔時間上限。無聲間隔壓縮簡單來說是對無聲間隔的時間進行壓縮,也就是壓縮音頻中冗餘信息。無聲間隔壓縮是語音壓縮編碼技術的一部分,不是獨立存在的。無聲間隔壓縮主要目的是提高通信/存儲效率,和很多壓縮技術是一樣的。還有一個作用使音頻速度增加。

多媒體中音頻信息

音頻處理技術的套用領域:隨著多媒體信息處理技術的發展和計算機數據處理能力的增強,音頻處理技術倍受重視,並得到了廣泛的套用。如:視頻圖像的配音、配樂;靜態圖像的解說、背景音樂;可視電話、電視會議中的話音;遊戲中的音響效果;虛擬現實中的聲音模擬;用聲音控制Web,電子讀物的有聲輸出。除了上述眾所熟知的音頻技術套用外,還可以套用的領域有:
Internet 電話 (IP phone);
聲音欺騙系統;
現代"芝麻開門"系統;
用光碟聽書;
Internet上的實時音頻等
計算機內的音頻必須是數字形式的,因此必須把模擬音頻信號轉換成用有限個數字表示的離散序列,即實現音頻數位化。在這一處理技術中,涉及到音頻的採樣、量化和編碼。時間上的離散叫採樣,幅度上的離散稱為量化。
音頻信號處理的特點如下:
(1)音頻信號是時間依賴的連續媒體。因此音頻處理的時序性要求很高。如果在時間上有25ms 的延遲,人就會感到斷續。
(2)由於人接收聲音有兩個通道(左耳、右耳),因此為使計算機模擬自然聲音,也應有兩個聲道,即理想的合成聲音應是立體聲。
(3)由於語音信號不僅僅是聲音的載體,同時還攜帶了情感的意向,故對語音信號的處理,不僅是信號處理問題,還要抽取語意等其它信息。因此可能會涉及到語言學、社會學、聲學……等。

語音壓縮

語音壓縮為了提高通信網中的信息傳輸效率及實現語音的高效存儲,還需要對編碼後的數字語音進行壓縮,即語音壓縮。例如:在移動通信中,最重要的業務就是語音業務,寶貴的無線頻譜資源要求每個用戶占用的頻段越窄越好,而占用頻段的大小直接於通話語音的壓縮率有關;在多媒體通信中,為了使語音和圖像數據在有限頻寬的線路上傳輸,需要對語音和圖像數據進行壓縮;在對數字語音數據進行存儲時,為了節省存儲媒體也需要對語音信號進行壓縮。可見,語音壓縮編碼的目的在於在保證語音質量的前提下,儘可能地降低語音信號的編碼比特率,以滿足窄帶信道低碼率傳輸的要求及實現語音的高效存儲。
經過幾十年的發展,特別是近20年隨著計算機和微電子技術的發展,多種高質量的語音壓縮編碼技術已經相當成熟,並大規模走向實用化。語音壓縮編碼技術在移動通信中的廣泛套用大大節省了寶貴的無限頻譜資源,歐洲、北美和日本都先後公布了他們在第二代數字蜂窩移動通信系統中使用的語音壓縮編碼標準(分別是13Kb/s的RPE-LTP、8Kb/s的VSELP及6.7Kb/s的VSELP),有些語音壓縮技術將套用到第三代移動通信(3G)中。語音壓縮也套用在保密通信中,如美國國防部的採用CELP編碼的4.8Kb/s的FS-1016和採用LPC編碼的2.4Kb/s的FS-1015壓縮編碼標準。語音壓縮編碼技術與IP技術相融合,形成了新興的VOIP(VoiceOverInternetProtocol)技術,即通常所說的IP電話。VOIP中的一項關鍵技術就是語音壓縮編碼,因為低速率的語音編碼對IP網路中語音信息的實時性有更好的保證。此外,語音壓縮和語音識別和合成等技術也密切相關。隨著語音壓縮編碼技術的不斷完善和發展,必將有更廣泛的套用前景。

音頻的編碼基礎

音頻編碼的目的在於壓縮數據。在多媒體音頻數據的存儲和傳輸中,數據壓縮是必須的。通常數據壓縮造成音頻質量的下降、計算量的增加。因此,人們在實施數據壓縮時,要在音頻質量、數據量、計算複雜度三方面進行綜合考慮。從信息保持的角度講,只有當信源本身有冗餘時,才能對其進行壓縮。
音頻編碼的分類:
(1)基於音頻數據的統計特性進行編碼,其典型技術是波形編碼
波形編碼的基本思想是,不利用生成語音信號的任何知識而是產生一種重構信號,它的波形與原始話音波形儘可能地一致。一般來說,這種編碼方法的複雜程度比較低,數據率在16Kb/s以上,質量相當高。低於這個數據率時,音質急劇下降。
(2)基於音頻的聲學參數,進行參數編碼,可進一步降低數據率。
參數編碼的基本思想是從話音波形信號中提取生成話音的參數,使用這些參數通過話音生成模型重構出話音。在話音生成模型中,聲道被等效成一個隨時間變化的濾波器,它由白噪聲--無聲話音段激勵,或者由脈衝串--有聲話音激勵。因此需要傳送給解碼器的信息就是濾波器的規格、發聲或不發聲的標誌和有聲話音的音節周期,並且每隔10-20ms更新一次。
混合編碼的基本思想是希望填補波形編碼和參數編碼之間的隔閡。波形編碼雖然可以提供高話音的質量,但在數據率低於16Kb/s的情況下,在技術上還沒有解決音質的問題;而參數編碼的數據率雖然可以降到2.4Kb/s甚至更低,但它的音質根本不可能與自然話音相提並論。為了得到音質高而數據率又低的編碼器,就出現了混合編碼的方法。這種方法希望尋找一種激勵信號,使用這種激勵信號產生的波形儘可能接近於原始話音的波形。
波形編碼和參數編碼是依據波形本身的相關性和模擬人的發音器官的特性進行編碼的方法,
(3)基於人的聽覺特性進行編碼。
當處理10Hz-20000 Hz範圍的聲音時,數據壓縮主要依據是人耳的聽覺特性,使用"心理學模型(psycho acoustic model)"來達到壓縮聲音數據的目的。
心理學模型中一個基本的概念就是聽覺系統中存在一個聽覺閾值電平,低於這個電平的聲音信號就聽不到,因此就可以把這部分信號去掉。聽覺閾值的大小隨聲音頻率的改變而改變,每個人的聽覺閾值也不相同。大多數人的聽覺系統對2KHz-5KHz之間的聲音最敏感。一個人是否聽到聲音取決於聲音的頻率,以及聲音的幅度是否高於這種頻率下的聽覺閾值。
心理聲學模型中另一個概念是聽覺掩飾特性,即聽覺閾值電平是自適應的,也就是聽覺閾值電平會隨聽到的不同頻率的聲音而發生變化。例如,同時有兩種頻率的聲音存在,它們的強度不同,分貝低的聲音就聽不到。比如在一個安靜的房間可以聽到我們普通的談話聲音,但在播放音樂的環境下同樣的普通談話就聽不清楚了。所以,聲音壓縮算法可以確立這種感知加權特性的模型來消除更多的冗餘數據。
幾種基本的編碼算法:
脈衝編碼調製(Pulse Code Modulation,簡稱PCM)
瞬時壓擴(非均勻量化器 對數瞬時壓擴)
自適應差值脈衝編碼(APCM)
自適應量化PCM (adaptive pulse code modulation , APCM)是一種根據輸入信號幅度大小來改變數化階距大小的一種波形編碼技術。這種自適應可以是瞬時自適應,即量化階距的大小每隔幾個樣本就改變,也可以是音節自適應,即量化階距的大小在較長時間周期里發生變化。
差值量化編碼DPCM是利用樣本與樣本之間存在信息冗餘度來進行編碼的一種數據壓縮技術。
自適應差值量化編碼(ADPCM)綜合了APCM的自適應性和DPCM系統的差分特性,是一種性能比較好的波形編碼。

相關詞條

熱門詞條

聯絡我們