“將聲音轉化成文字,讓你的套用長上耳朵”,百度語音識別技術通過百度語音開放平台為廣大開發者提供精準、免費、安全、穩定的服務。百度的語音識別技術採用了比目前主流語音識別系統更為簡單有效的方法,他們採用了類似神經網路的深度學習算法來取代了以往的識別模組,從而大幅提升了識別效率。
基本介紹
- 中文名:百度語音識別技術
- 公司:百度
優勢能力
業界首創完全永久免費新形式,為開發者提供基於百度大腦的業界頂級聲學模型和語音模型。完全免費,永久使用,徹底擺脫有效期限制。
行業率先推出語音識別全平台REST API,再也不用糾結沒有SDK、SDK包太大,採用http方式請求,可適用於任何平台的語音識別,給你最大自由度!
SDK可以根據當前網路狀況及指令的類型,自動判斷使用本地引擎還是雲端引擎進行語音識別,極速識別、流量節省兩不誤!
支持多達35個垂類領域的語義理解定製,以及自定義指令集和問答對設定。讓你的套用理解用戶的意圖!
開發者可根據使用場景,自定義設定識別垂類模型。有音樂、視頻、地圖、遊戲、電商共17個垂類可供選擇。一步設定,精準到位!
開發者可以自行上傳詞庫,訓練專屬識別模型。提交的語料越多、越全,語音識別的效果提升也會越明顯。
接入指南
1、點擊套用卡片上的按鈕,選擇“語音識別”服務進行開通。
註:請確保填寫提交的信息準確,否則會無法通過離線授權驗證導致離線識別不可用。
常見問題
A:支持的壓縮格式有:pcm(不壓縮)、wav、opus、speex、amr、x-flac。原始 PCM 的錄音參數必須符合 8k/16k 採樣率、16bit 位深、單聲道。
A: 最長支持60s的錄音檔案。對檔案大小沒有限制,只對時長有限制。
A:
Android SDK:支持Android 2.2及以上系統,支持ARM\X86架構。安裝包最小增加200k,支持8k/16k採樣率,支持pcm格式。
A:語音識別全平台REST API,採用http方式請求,可適用於任何平台的語音識別。使用REST API,錄音、壓縮及上傳模組需要自行開發。且REST API語音識別暫時不支持語義解析。
A:不單獨提供獨立錄音的功能,目前識別SDK包含語音輸入和識別功能。語音通訊功能需開發者自行搭建。
A: REST API:開發者上傳錄音——百度語音進行識別——識別結果返回開發者
SDK:百度語音提供從錄音到識別結果返回的整體解決方案
A:
Android SDK:當VoiceClientStatusChangeListener.onClientStatusChange(int status, Object obj) 的status是VoiceRecognitionClient.CLIENT_STATUS_AUDIO_DATA時,obj為byte[]音頻數據;
數據格式均為pcm,採樣率可通過VoiceRecognitionConfig.getSampleRate()/[[BDVoiceRecognitionClient sharedInstance] getCurrentSampleRate]獲取,獲取的音頻格式是位深16bit,單聲道。
A: 自定義語音識別設定:打開百度開放雲平台,在目前創建的套用下進行自定義語音識別設定。上傳識別關鍵字文本,保存並生效。
設定對應的語音識別垂類:在代碼中填寫識別的垂類領域,識別結果將優先指向已設定的垂類,可以使得識別結果更準確
A: 與其他百度SDK衝突一般是由於使用了相同的基礎庫galaxy.jar,請檢查是否重複導入了該jar包;與其他第三方SDK衝突一般是由於so庫的架構不統一,請保證工程libs目錄下armeabi/armeabi-v7a/x86/mips目錄的so庫均一致,如果不能保證一致,則一般只能所有SDK僅使用armeabi架構的so庫
A: 首次延遲時間較長一般是由於許可權驗證造成,可以通過預先調用接口:
(int)verifyApiKey:(NSString)apiKey withSecretKey:(NSString)secretKey;
來進行驗證。首次開啟語音時就不需要再傳送驗證請求,從而降低語音識別啟動的延遲。
A:
Api:cp伺服器自己備存用戶錄音信息
Sdk:可以通過CLIENT_STATUS_AUDIO_DATA回調,將回調對象強轉成byte[]順序寫入到檔案中即可得到原始的音頻檔案。
A: 語音識別垂類就是特指某個領域的意思,開發者可以根據用戶使用場景設定特定領域使得識別結果更準確。比如垂直領域設定為”音樂“,則在語音識別時會優先識別為音樂相關的歌曲名歌手名或者歌詞。
A: SDK自帶demo用的特殊的方式驗證的,故可以不使用AK和SK。開發者自行開發的套用AK和SK是必須填寫的,否則無法調用語音識別。