語音算法

簡介

在語音模型中，按照激勵源的不同，可把語音分為三類濁音，位於聲門處的準周期脈衝序列清音，位於聲道的某個收縮區的空氣湍流類似於噪聲爆破音，位於聲道某個閉合點處建立起來的氣壓及其突然釋放。根據發聲器官和語音的產生過程，在實際套用中為了簡化語音信號產生的數字模型，激勵源分為濁音和清音兩類，濁音由周期性脈衝序列激勵產生，清音由隨機白噪聲激勵產生，為了使濁音的激勵信號具有聲門氣流脈衝的實際波形，還需要將脈衝序列通過一個聲門脈衝模型濾波器。語音算法簡單來說通過人們的發音來識別和檢索詞語的算法，如Soundex是一種語音算法，利用英文字的讀音計算近似值，值由四個字元構成，第一個字元為英文字母，後三個為數字。在拼音文字中有時會有會念但不能拼出正確字的情形，可用Soundex做類似模糊匹配的效果。例如Knuth和Kant二個字元串，它們的Soundex值都是“K530”。

Metaphone是一個語音算法，主要是用在英語單字或是辭彙發音的標引。Metaphone是由飛利浦、羅倫斯利用Soundex的缺陷來改善的算法。此算法是利用較大的英語發音規則，所以比Soundex更為精準。Metaphone也可作為內建式的工具，在PHP就有相關工具。後來原作者製作新版本的算法“Double metaphone”，比原本的算法還更加精準。該算法會轉換相似的發音。

聲學模型

聲學模型是語音識別系統中最底層的模型並且也是識別系統最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特徵矢量系列與每個發音模板的距離，因為發音在每個時刻都受到其前後發音的影響，為了模仿自然連續語音中的協同發音的作用和鑑別這些協同發音，通常要使用複雜的聲學模型，聲學模型單元的大小(字發音模型、半發音模型或音素模型)對語音訓練數據量大小、系統識別率、以及靈活性有較大的影響。對大辭彙量語音識別系統來講，通常識別單元小，則計算量也小，所需的模型存儲量也小，但帶來的問題是對應語音段的定位和分割較困難，識別模型規則也變得更複雜。通常大的識別單元在模型中應包括協同發音(指的是一個音受前後相鄰音的影響而發生變化，從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變，從而使得後一個音的頻譜與其他條件下的頻譜產生差異)，這有利於提高系統的識別率，但要求的訓練數據相對增加。近幾十年比較成功的識別方法有:動態時間規整(DTw)技術、隱式馬爾可夫模型(HMM)、人工神經網路(ANN)。

動態時間規整(DT喲技術，由於在訓練或識別過程中，即使同一個人發同一個音時，不僅其持續時間長度會隨機地改變，而且各音素的相對時長也是隨機變化的。因此在匹配時如果只對特徵向量系列進行線形時間規整，其中的音素就有可能對不準。60年代日本學者板倉(tIakura)提出了動態時間歸整算法。算法的思想就是把未知量均勻地伸長或縮短，直到它與參考模式的長度一致時為止。在時間規整過程中，未知單詞的時間軸要不均勻地扭曲或彎折，以便使其特徵與模型特徵對正，DTW的具體實現方法是採用動態歸劃技術(D)P，方法簡單有效，對小詞表孤立詞識別系統非常有效。

語音算法

基本介紹

簡介

聲學模型

特徵參數

相關詞條

熱門詞條