Deep Voice是百度AI研發的一個完全由深度神經網路構建的高質量語音轉文本系統。
基本介紹
- 中文名:Deep Voice
- 研發:百度AI
- 構建:深度神經網路
- 實質:高質量語音轉文本系統
產品功能,技術原理,市場前景,
產品功能
Deep Voice說起話來,簡直跟真人沒啥兩樣,而且還幾乎能實時說話。可是,這個系統一次只能學習一種聲音,而且需要好幾小時甚至是以上的音頻去學習。
技術原理
現代 TTS 系統主要基於複雜的、多階段處理流程(pipeline),每個都依賴人工調配的特徵參數以及啟發式規則。由於這種複雜性,開發新的 TTS 系統需要大量的人力,也非常的困難。
Deep Vioce 受啟發於傳統的文本轉語音處理流程採用了同樣的架構,但使用神經網路取代了所有組件且使用了更簡單的特徵。這使得我們的系統更適用於新數據集、語音和沒有任何手動數據注釋或其他特徵調配的領域。
Deep Voice 為真正的端到端語音合成奠定了基礎,這種端到端系統沒有複雜的處理流程,也不依賴於人工調配(hand-engineered)的特徵作為輸入或進行預訓練(pre-training)。
市場前景
百度並不是唯一一家在這個領域探索的巨頭,2016年9月,谷歌的DeepMind團隊也發布了一款聲音合成器 WaveNet,這個軟體在聲音的質量比傳統的語音合成系統有了很大的提升。
這個賽道也有大量的創業公司。2017年4月,加拿大的創業公司 Lyrebird 就發布了一個新系統,它可以通過一分鐘的語音數據,就能模仿很多大人物說話的。