SwiftScribe

發展歷程

2014年，百度的首席科學家吳恩達帶著一個10人的團隊開發 Deep Speech——一套語音識別系統。當時的研究重點在怎么提高嘈雜環境下的英語語音識別準確率。百度收集了9600個人7000小時的語音樣本，添加了15種噪聲，把樣本擴充到10萬小時。吳恩達表示這套系統的錯誤率比同期的微軟 Bing Speech、Google Speech API 等競爭對手低 10%。

2015年，百度矽谷實驗室又發表論文公布了 Deep Speech 2 ，這個系統開始學習漢語，也提高了對不同英語口音識別的能力。

2016年，百度利用 Deep Speech 技術推出基於 Android 的語音輸入套用 TalkType，強調輸入法對“語音優先”。同一年，Deep Speech 2 還入選了《MIT 評論》評出的“2016年十大突破技術”，入選的理由是“語音識別技術讓智慧型手機變得更易操作”。

主要功能

SwiftScribe的基本功能是把音頻資料轉錄成文字，以解決消耗大量時間逐字聽寫轉錄的問題。SwiftScribe支持上傳時長1個小時以內的wav或mp3檔案，暫時只支持受英文，SwiftScribe在1分鐘的錄音需要不到30秒、1小時的錄音需要20分鐘左右。

接下來你會在網頁上看到轉錄好的文字，但這並不意味著轉錄結束。文本不會區分大小寫、沒有標點符號，更沒有分段，你需要在文本框中手動編輯，然後再做導出。這個過程也會被百度記錄，就像所有的人工智慧學習過程一樣，它用來幫助算法糾正錯誤，提高準確率。

SwiftScribe在文本框底部有一排工具列，播放按鈕開啟，一個高亮的標識會跟隨語音標出閱讀的進度，方便你停下來查看這個單詞對應的語音。這個工具列還有變速、標記的功能。

這個過程就相當於用機器算法取代了速記員、聽寫員的工作。SwiftScribe 會在廣泛的領域內帶來積極影響，提高生產力，包括醫療機構、法律、商業和媒體。專業領域的人工聽寫效率低，1小時的錄音往往需要花費4-6 個小時，每分鐘語音的成本在1美元，SwiftScribe 能把完成工作的時間平均縮短40%。

SwiftScribe 基於百度矽谷實驗室的最新研究成果 Deep Speech 2，以後還會增加對視頻檔案的語音識別支持，也會添加自動插入標點符號等功能。

SwiftScribe目前還處在內測階段，並未開放。

SwiftScribe

基本介紹

發展歷程

主要功能

相關詞條

熱門詞條