PESQ(Perceptual evaluation of speech quality) 即:主觀語音質量評估。 ITU-T P.862建議書提供的客觀MOS值評價方法。
基本介紹
- 中文名:主觀語音質量評估
- 外文名:PESQ
- 屬於:客觀MOS值評價方法
- 通過:電平調整,
原理,計算得分,範圍和套用,
原理
如圖PESQ的結構。開始時兩個信號都通過電平調整,再用輸入濾波器模擬標準電話聽筒進行濾波(FFT)。這兩個信號要在時間上對準,並通過聽覺變換。這個變換包括對系統中線性濾波和增益變化的補償和均衡。提取出兩個失真參數,在頻率和時間上總和起來,映射到對主觀平均意見分的預測。
計算得分
為了訓練PESQ,要在三個平均階段通過使用很多的p值計算很大數量的不同的對稱和非對稱的參數。先使用參數的線性組合來預測主觀MOS分,進一步對每次主觀測試進行回歸分析說明、解決不同的題目的前後關係和選擇的偏好,如第3部分中所討論的;這一步還用到了線性映射。對所有的候選參數集都進行了選擇。這樣找到了最優的組合,能給出最好的平均相關係數。這樣可以在幾百個候選參數中找到最好的。
舉例來說,PESQ中用到部分補償,在增益調製的均衡中,就要避免使用大量的參數來預測質量。只用到兩個參數的組合— 一個對稱干擾(dSYM)和一個非對稱干擾(dASYM),在預測精度和概括能力上有很好的平衡。然而,由於低維數的模型依靠早先的階段組合出複雜的感知作用,要求有幾個疊代設計。聽覺變換中的係數和干擾處理經過最佳化,找到了最優的參數,然後重複處理過程。下面給出PESQ中映射的分:
PESQMOS=4.5-0.1 dSYM-0.0309 dASYM
對於正規的主觀測試,得分在1.0和4.5之間。在失真情況嚴重時,得分可能會低於1.0,但這種情況很少見。
範圍和套用
ITU-T(國際電信聯盟電信標準化部)相關的資料已證明PESQ是能夠給出精確的預測值的,包括以下編解碼和誤碼失真,波形編碼(如G.711,G.726),CELP/高於4kbit/s的混合編解碼(如G.728),移動編解碼/系統(包括GSM FR、EFR、HR、AMR、CDMA EVRC、TDMA ACELP、VSELP和TETRA);各種編解碼的代碼轉換,隨機的、突發的、包丟失誤差。PESQ能夠用於編解碼或系統評估、選擇和最佳化。
這樣PESQ可以廣泛的用於現場和模擬網路中端到端測量。背景(環境)噪聲和噪聲處理,可以通過用PESQ比較乾淨的、未處理的信號和編碼的、經噪聲干擾失真的信號評估得到。
用靜默來取代語音,也是一種失真,給所有的感知模型在預測MOS分時帶來困難。一般前端和後端的50ms的削波(話音激活檢測)不會給主觀印象帶來很大的影響。然而,在話音期間削波,比如包丟失後用靜默代替,將嚴重影響主觀感受---每50ms的丟失,MOS分下降一分。PESQ的情況在這兩種之間,每50ms的削波通常引起0.5分左右的下降,而不管處於什麼位置。對於前端暫時的削波,特別是未察覺的丟失了單詞時,PESQ是很敏感的。相反的,PESQ對經常的、短時的削波不很敏感(短時間內語音被靜默取代)。在這兩種情況下,PESQ與主觀MOS分之間的相關性會減弱。
作為一個有固定假設聽覺級的只聽模型,PESQ一般不套用來評估收聽級、側音/說話人回音,或對話延遲的影響,而且,它也不是供非入侵性測度使用的。其他一些套用的特性還沒有得到證明,或者需要部分改變模型。包括:音樂音質;寬頻話音;所謂“媒體音頻質量”;接受端回聲;低於4kbit/s的低比特率編解碼器;聲學的和電話機參考當量測試。