基於深度神經網路的噪聲魯棒性語音識別方法研究

基於深度神經網路的噪聲魯棒性語音識別方法研究

《基於深度神經網路的噪聲魯棒性語音識別方法研究》是依託中國科學技術大學,由杜俊擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於深度神經網路的噪聲魯棒性語音識別方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:杜俊
  • 依託單位:中國科學技術大學
中文摘要,結題摘要,

中文摘要

提高語音識別系統在實際環境下的噪聲魯棒性是語音識別實用化的關鍵難點和研究熱點之一。但由於語音和噪聲信號的統計特性都極其複雜,而傳統噪聲魯棒性方法為了方便理論推導又作了諸多假設,從而很大程度上限制了識別性能的提高,並且不同方法之間的互補優勢也無法很好結合。隨著深度神經網路(DNN)在大辭彙量連續語音識別聲學建模中的成功套用,DNN結合噪聲魯棒性問題的研究,將有望彌補傳統噪聲魯棒性方法的缺陷,並帶來突破性進展。本項目旨在充分利用DNN強大的非線性建模能力,一方面將DNN用於前端特徵提取,比如學習帶噪語音和乾淨語音之間的映射關係;另一方面將DNN用於後端聲學建模,比如使用Hierarchical DNN將不同前端算法加以融合;此外前後端兩個DNN還可以聯合最佳化,以期最大程度的提高噪聲環境下語音識別的性能。同時,本項目部分研究成果對語音增強等信號處理領域的基礎問題也具有重要意義。

結題摘要

語音識別是實現智慧型人機互動的關鍵技術之一,但在實際複雜場景下,由於各種干擾帶來識別率的大幅降低,用戶體驗並不好。語音識別的噪聲魯棒性研究始於上世紀 80 年代,但由於實際中的語音和噪聲都是統計特性極其複雜的信號,使得這個問題始終沒有得到很好的解決。本項目基於近年來深度神經網路(DNN)在語音識別領域的成功套用,從如下方面展開了基於DNN的噪聲魯棒性方法研究。首先,採用基於DNN的預處理方法對輸入語音降噪,這種方法的優勢是識別系統的特徵提取和聲學建模不需要做任何修改。其次,採用基於DNN的特徵映射方法將帶噪語音的聲學特徵映射到乾淨語音的聲學特徵,並且可以和後端聲學建模的DNN進行聯合訓練,從而可以達到更好的識別效果,在Aurora4和SSC等標準資料庫上取得了論文發表時的最佳結果。此外,我們還探討了將同樣的框架套用到特定人分離識別問題中,在實際數據上取得了很好的效果。此項目的成果可以不僅可以套用在噪聲魯棒性語音識別中,還可以擴展到很多語音相關的領域,比如語音檢測,頻帶擴展等,有著非常廣闊的套用前景。

相關詞條

熱門詞條

聯絡我們