喜馬拉雅語音識別算法

喜馬拉雅語音識別算法是上海喜馬拉雅科技有限公司旗下的語音識別算法,主要套用於語音識別場景,根據用戶輸入的音頻,生成對應的文字。

2024年6月,國家網際網路信息辦公室發布第六批境內深度合成服務算法備案清單,其中包括“喜馬拉雅語音識別算法”。

基本介紹

  • 中文名:喜馬拉雅語音識別算法
  • 角色:服務提供者
  • 備案號:網信算備310112238181601240017號
  • 開發主體:上海喜馬拉雅科技有限公司
算法原理,運行機制,套用場景,算法目的,

算法原理

語音識別技術涉及語言學知識以及深度學習算法。首先通過信號處理算法提取語音特徵,再通過深度神經網路得到音頻的音素或文字後驗機率,最後通過解碼算法,將整段語音序列轉化為文本信息。

運行機制

首先對輸入語音進行解碼,得到標準格式的語音流。再將語音流送入深度神經網路,得到每一幀對應的字典中的字或詞的後驗機率,最後使用解碼算法,得到整段語音得到的文本序列。

套用場景

用於離線識別、即時通訊、音頻審核場景,將音頻內容識別為文本信息;1、 離線識別:將用戶授權的上傳音頻檔案識別為文字內容對用戶展示。該功能可以幫助聽障人士理解音頻內容。2、 即時通訊:支持邊輸入音頻邊輸出文字功能。3、 音頻審核:利用用戶音頻+識別文本雙重審核,檢測音頻合規性,提升審核效率,增加安全性。

算法目的

提供音頻的文本信息,幫助用戶理解音頻內容,滿足用戶在不方便收聽音頻時查看音頻內容的需求,也滿足聽障人士對音頻內容獲取的需求。

相關詞條

熱門詞條

聯絡我們