用於非對稱語料的語音轉換函式訓練算法研究

項目摘要

語音轉換是要改變一個說話人語音中的個性特徵信息，使之具有另外一個人的個性信息，轉換後的語音聽起來就像是目標說話人的聲音一樣，而語音中的其它信息保持不變。本項目以非對稱語料情況下的語音轉換函式訓練算法為研究內容，具體來說，主要內容有：第一、利用高斯混合模型分別對源、目標語音的特徵參數進行音素分類；第二、在音素分類的基礎上，利用KL距離對源、目標語音相同或相近的音素類進行匹配；第三、在源、目標語音相對應的音素類內，根據聲學距離最近原則將兩者的特徵參數序列進行對齊，並由此訓練出語音轉換函式；第四、根據人耳的聽覺特性，研究語音信號韻律特性的轉換。探索高質量、有效的語音轉換算法和實現具有較強實用價值的轉換系統是本項目的研究目標。由於語音轉換是語音處理領域一項新興的技術，它涉及的理論廣，運用價值大，因此，本項目的研究具有重要的理論意義和實用價值。

結題摘要

語音轉換的目的就是要改變語音信號中說話人的身份信息，使之具有另外一個人的個性特徵，轉換後語音聽起來就像是目標說話人的聲音一樣，而語義保持不變。語音轉換在多個方面具有潛在的套用價值，比如個性化的語音合成技術、電影原聲配音、發聲器官病變患者的語音修復等。源、目標語音的個性特徵參數之間的轉換函式是轉換系統的關鍵，為了準確訓練轉換函式，一般都採用對稱語料庫，但很多套用場合，往往沒有對稱語料。本項目提出了一種用於非對稱語料的語音轉換函式訓練方法ILNCA，先利用高斯混合模型（GMM）分別對源、目標語音特徵參數空間進行分類，GMM的各分量與各音素會存在相關性。然後根據KL距離最小原則對源、目標GMM模型的子空間進行匹配，最後利用最近鄰準則在相對應的子空間中進行源、目標語音特徵參數矢量的對齊。實驗表明由於本算法採用了更加精確的矢量對齊方法，能取得與傳統的轉換算法相當的性能。為了進一步提升轉換系統性能，項目採用壓縮感知提取語音幀間動態信息。根據連續多幀語音的線譜對參數所構成的矢量在離散餘弦變換域具有稀疏性，利用壓縮感知技術對該矢量壓縮成短矢量，並將該壓縮後的短矢量作為特徵參數訓練語音轉換函式。實驗測試結果表明，選擇合適的語音幀數時，該算法的性能要比傳統的採用加權頻率卷繞的轉換算法提高3.21%。這說明，充分有效地利用語音幀間的相關信息會使轉換語音保持更穩定的幀間聲學特性，有利於提高語音轉換系統的性能。當GMM模型結構複雜，參數較多，而訓練數據又較少時，會存在參數估計過擬合問題，導致轉換函式不夠準確。為此，我們採用高斯過程（GP）模型來實現語音轉換函式的建模。GP模型的非參數化特性可以很好地解決過擬合問題，同時，GP模型採用複雜的核函式還可以實現源、目標語音特徵參數的非線性映射，提高轉換的準確性。為了進一步提高GP轉換算法性能，我們將頻譜特徵參數和韻律特徵構成聯合矢量一同進行轉換，以便充分利用激勵信號和聲道特性的相關信息。另外，我們採用不對稱的訓練策略來準確計算GP模型中核函式的參數，即輸入矢量的維數可以適當地大於輸出矢量的維數，並且這樣的處理並不會增加額外的運算量。客觀評測和主觀聽覺實驗表明，基於GP模型的轉換算法比傳統的GMM算法有更好的性能表現。

用於非對稱語料的語音轉換函式訓練算法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條