dtw

算法原理

無論在訓練和建立模板階段還是在識別階段，都先採用端點算法確定語音的起點和終點。以存入模板庫的各個詞條稱為參考模板，一個參考模板可表示為R={R（1），R（2），……，R（m），……，R（M）}，m為訓練語音幀的時序標號，m=1為起點語音幀，m=M為終點語音幀，因此M為該模板所包含的語音幀總數，R（m）為第m幀的語音特徵矢量。所要識別的一個輸入詞條語音稱為測試模板，可表示為T={T（1），T（2），……，T（n），……，T（N）}，n為測試語音幀的時序標號，n=1為起點語音幀，n=N為終點語音幀，因此N為該模板所包含的語音幀總數，T（n）為第n幀的語音特徵矢量。參考模板與測試模板一般採用相同類型的特徵矢量（如MFCC，LPC係數）、相同的幀長、相同的窗函式和相同的幀移。

假設測試和參考模板分別用T和R表示，為了比較它們之間的相似度，可以計算它們之間的距離 D[T，R]，距離越小則相似度越高。為了計算這一失真距離，應從T和R中各個對應幀之間的距離算起。設n和m分別是T和R中任意選擇的幀號，d[T（n），R（m）]表示這兩幀特徵矢量之間的距離。距離函式取決於實際採用的距離度量，在DTW算法中通常採用歐氏距離。

若N=M則可以直接計算，否則要考慮將T（n）和R（m）對齊。對齊可以採用線性擴張的方法，如果N<M可以將T線性映射為一個M幀的序列，再計算它與{R（1），R（2），……，R（M）}之間的距離。但是這樣的計算沒有考慮到語音中各個段在不同情況下的持續時間會產生或長或短的變化，因此識別效果不可能最佳。因此更多的是採用動態規劃（DP）的方法。

若把測試模板的各個幀號n=1~N在一個二維直角坐標系中的橫軸上標出，把參考模板的各幀號m=1~M在縱軸上標出，通過這些表示幀號的整數坐標畫出一些縱橫線即可形成一個網路，網路中的每一個交叉點（n，m）表示測試模式中某一幀的交匯點。DP算法可以歸結為尋找一條通過此網路中若干格點的路徑，路徑通過的格點即為測試和參考模板中進行計算的幀號。路徑不是隨意選擇的，首先任何一種語音的發音快慢都有可能變化，但是其各部分的先後次序不可能改變，因此所選的路徑必定是從左下角出發，在右上角結束

為了描述這條路徑，假設路徑通過的所有格點依次為（n₁ ，m₁ ），……，（n_i ，m_j ），……，（n_N ，m_M ），其中（n₁ ，m₁ ）=（1，1），（n_N ，m_M ）=（N，M）。路徑可以用函式m = Oslash;（n ）描述，其中n =i，i=1，2，……，N，Ø（1）=1，Ø（N）=M。為了使路徑不至於過傾斜，可以約束斜率在0.5~2的範圍內，如果路徑已經通過了格點（n ，m ），那么下一個通過的格點（n ，m ）只可能是下列三種情況之一：

dtw

基本介紹

算法原理

算法比較

程式實現

使用原因

三字碼

相關詞條

熱門詞條