Deep Speech,百度研發的語音識別系統。
百度在美國康奈爾大學圖書館的網站上發表論文稱,Deep Speech準確率超過了蘋果、谷歌的產品。
研發歷程,語音收集,產品公布,產品特點,
研發歷程
語音收集
百度團隊收集了9600人的7000個小時的語音,但多數是在安靜環境下。為了提升噪音環境下的語音識別能力,百度向語音樣本中添加了大約15種類型的噪音,比如酒店、汽車和捷運內的環境噪音,從而將語音樣本中的數據擴充到10萬個小時。然後,百度讓系統在噪音環境下學習識別語音。
產品公布
百度近日在美國康奈爾大學圖書館的網站上發表論文稱,已開發出了一種新的語音識別系統Deep Speech,準確率超過了蘋果、谷歌的產品。
百度近日在美國康奈爾大學圖書館的arXiv.org網站上發表論文稱,已開發出了一種新的語音識別系統Deep Speech,準確率超過了蘋果、谷歌的產品。
產品特點
百度首席科學家吳恩達以及由Awni Hannun領導的10人研究團隊在美國康奈爾大學圖書館網站上稱,他們已經開發出了一種新的,更為準確的語音識別系統Deep Speech,該系統使用了端對端的深度學習技術。語音識別是一項越來越重要的技術,已經被用於蘋果語音助手Siri、語音輸入功能Dictation以及谷歌語音搜尋中。
吳恩達稱,按照衡量語音識別系統出錯率的標準基準,Deep Speech的準確性已經超越了蘋果、谷歌的語音識別系統。特別是在汽車或人群等噪音環境下,Deep Speech的表現更為出色。
吳恩達稱,測試顯示,在噪音環境下,Deep Speech語音識別出錯率比谷歌語音識別引擎(Google Speech API)、語音識別公司wit.ai、微軟必應語音搜尋、蘋果Dictation的語音系統低10%以上。