Uni-TTSv3 是非自回歸語音合成模型,基於 FastSpeech 2(快速高質量語音合成模型) 構建,通過直接使用真實語音進行訓練,並引入更多有關語速、語調、重音模式等語音變化信息,提高合成語音質量。
發展歷史,社會價值,
發展歷史
2021年11月,微軟發布最新 Azure 神經網路語音合成技術 Uni-TTSv3 多語言語音合成模型。與上一代語音合成模型相比,Uni-TTSv3 語音合成保真度更高、速度更快、訓練時間更短,更降本增效。藉助 Uni-TTSv3,微軟升級美語合成女聲 Jenny。全新升級的 Jenny Multilingual Neural,擁有跨語言能力,支持 14 個國家和地區的語言。
社會價值
新一代神經網路語音合成技術 Uni-TTSv3 的提出,旨在解決上述訴求並完善如下功能:
保真度高
經行業公認的、專業評估語音自然度的 MOS(Mean Opinion Score 平均意見評分)評測結果顯示,智慧型合成女聲 Jenny Multilingual Neural 的各語種語音平均評分達到 4.2 分以上(總分 5 分),語音保真度高。
多語言通用
Uni-TTSv3 是強大的多語言語音模型,在多語言和多說話人數據集上訓練。Uni-TTSv3 通過訓練來自 50 多個不同地域和口音的發音人在不同場景下錄製的超過 3,000 個小時的語音數據,構建多語言通用基礎語音模型,確保 AI 語音在語速、語調和重音模式等不變的情況下演繹多國語言。
訓練時間更短
Uni-TTSv3 授權 Azure 語音合成平台和自定義神經語音支持多語種語音。藉助 Uni-TTSv3 升級自定義神經語音訓練管道,支持客戶用更短的訓練時間創建高質量的語音模型。與上一代語音合成模型相比,Uni-TTSv3 調優過程簡單,尤其在聲學訓練部分,訓練時間顯著減少 50% 左右,更加降本增效。