連續語音識別

連續語音識別,是指針對連續音頻流(即來自說話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。

基本介紹

  • 中文名:連續語音識別
  • 外文名:Continuous speech recognition
  • 類型:計算機科學
  • 學科:跨學科
  • 性質:識別
  • 套用:人機互動
介紹,方法,套用,

介紹

語音識別是人機互動的一項關鍵技術,在過去的幾十年里取得了飛速的進展。傳統的聲學建模方式基於隱馬爾科夫框架,採用混合高斯模型( Gaussian mixturemodel,GMM) 來描述語音聲學特徵的機率分布.由於隱馬爾科夫模型屬於典型的淺層學習結構,僅含單個將原始輸入信號轉換到特定問題空間特徵的簡單結構,在海量數據下其性能受到限制。
連續語音識別,是指針對連續音頻流(即來自說話人直接錄入的語音,或者電話或其他音視頻領域的音頻信號)進行識別,將音頻信息自動轉化成文字。在輸入的聲音中,檢測出可靠的語音,排除靜音、背景噪聲、音樂等,判斷男女,實時送入語音識別解碼器進行識別。

方法

1、隱式馬爾科夫模型
隱馬爾科夫模型是一種統計模型,它用來描述 1 個含有隱含未知參數的馬爾科夫過程,廣泛運用於語音識別中。1系統首先由大量的文字生成語音模型,然後提取聲學特徵,經過 Viterbi解碼得到識別結果。
2、基於卷積神經網路的方法
卷積神經網路通過卷積器對局部特徵進行分析,通過聚合層加強抽取出來的特徵魯棒性,最後通過全網路層建立模型得到最後的分類結果。卷積神經網路通過卷積層對局部特徵進行觀察,再經過全網路層的信息整合最終得到輸出機率,相比深層神經網路具有更好的物理意義。

套用

1、在安全領域,相關部門結合相關業務提出了相應的需求;在教育領域,大人群的國語水平測試與口語評估迫切需要客觀的、自動的評估技術;
2、在電信領域,國內外語音識別技術和部門進入了中國市場;
3、在手機、汽車導航等嵌入式市場,對語音識別技術需求也日益增長;
4、在人機互動領域,語音伴侶、移動終端的語音搜尋等得到廣泛的套用。
因此,語音識別技術作為非常重要的人機互動的技術,有著非常廣闊的前景。

相關詞條

熱門詞條

聯絡我們