Deep Voice

Deep Voice

Deep Voice是百度AI研發的一個完全由深度神經網路構建的高質量語音轉文本系統。

基本介紹

中文名：Deep Voice
研發：百度AI
構建：深度神經網路
實質：高質量語音轉文本系統

產品功能,技術原理,市場前景,

產品功能

Deep Voice說起話來，簡直跟真人沒啥兩樣，而且還幾乎能實時說話。可是，這個系統一次只能學習一種聲音，而且需要好幾小時甚至是以上的音頻去學習。

技術原理

現代 TTS 系統主要基於複雜的、多階段處理流程（pipeline），每個都依賴人工調配的特徵參數以及啟發式規則。由於這種複雜性，開發新的 TTS 系統需要大量的人力，也非常的困難。

Deep Vioce 受啟發於傳統的文本轉語音處理流程採用了同樣的架構，但使用神經網路取代了所有組件且使用了更簡單的特徵。這使得我們的系統更適用於新數據集、語音和沒有任何手動數據注釋或其他特徵調配的領域。

Deep Voice

Deep Voice

Deep Voice 為真正的端到端語音合成奠定了基礎，這種端到端系統沒有複雜的處理流程，也不依賴於人工調配（hand-engineered）的特徵作為輸入或進行預訓練（pre-training）。

市場前景

百度並不是唯一一家在這個領域探索的巨頭，2016年9月，谷歌的DeepMind團隊也發布了一款聲音合成器 WaveNet，這個軟體在聲音的質量比傳統的語音合成系統有了很大的提升。

這個賽道也有大量的創業公司。2017年4月，加拿大的創業公司 Lyrebird 就發布了一個新系統，它可以通過一分鐘的語音數據，就能模仿很多大人物說話的。

相關詞條

熱門詞條

聯絡我們