基本介紹
- 軟體名稱:SwiftScribe
- 開發商:百度
- 軟體版本:內測版
- 更新時間:2017年3月
發展歷程,主要功能,
發展歷程
2014年,百度的首席科學家吳恩達帶著一個10人的團隊開發 Deep Speech——一套語音識別系統。當時的研究重點在怎么提高嘈雜環境下的英語語音識別準確率。百度收集了9600個人7000小時的語音樣本,添加了15種噪聲,把樣本擴充到10萬小時。吳恩達表示這套系統的錯誤率比同期的微軟 Bing Speech、Google Speech API 等競爭對手低 10%。
2015年,百度矽谷實驗室又發表論文公布了 Deep Speech 2 ,這個系統開始學習漢語,也提高了對不同英語口音識別的能力。
2016年,百度利用 Deep Speech 技術推出基於 Android 的語音輸入套用 TalkType,強調輸入法對“語音優先”。同一年,Deep Speech 2 還入選了《MIT 評論》評出的“2016年十大突破技術”,入選的理由是“語音識別技術讓智慧型手機變得更易操作”。
主要功能
SwiftScribe的基本功能是把音頻資料轉錄成文字,以解決消耗大量時間逐字聽寫轉錄的問題。SwiftScribe支持上傳時長1個小時以內的wav或mp3檔案,暫時只支持受英文,SwiftScribe在1分鐘的錄音需要不到30秒、1小時的錄音需要20分鐘左右。
接下來你會在網頁上看到轉錄好的文字,但這並不意味著轉錄結束。文本不會區分大小寫、沒有標點符號,更沒有分段,你需要在文本框中手動編輯,然後再做導出。這個過程也會被百度記錄,就像所有的人工智慧學習過程一樣,它用來幫助算法糾正錯誤,提高準確率。
SwiftScribe在文本框底部有一排工具列,播放按鈕開啟,一個高亮的標識會跟隨語音標出閱讀的進度,方便你停下來查看這個單詞對應的語音。這個工具列還有變速、標記的功能。
這個過程就相當於用機器算法取代了速記員、聽寫員的工作。SwiftScribe 會在廣泛的領域內帶來積極影響,提高生產力,包括醫療機構、法律、商業和媒體。專業領域的人工聽寫效率低,1小時的錄音往往需要花費4-6 個小時,每分鐘語音的成本在1美元,SwiftScribe 能把完成工作的時間平均縮短40%。
SwiftScribe 基於百度矽谷實驗室的最新研究成果 Deep Speech 2,以後還會增加對視頻檔案的語音識別支持,也會添加自動插入標點符號等功能。
SwiftScribe目前還處在內測階段,並未開放。