語音識別中的稀疏性深度學習

《語音識別中的稀疏性深度學習》是依託清華大學,由王東擔任項目負責人的面上項目。

基本介紹

  • 中文名:語音識別中的稀疏性深度學習
  • 依託單位:清華大學
  • 項目負責人:王東
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

基於深度學習(Deep Learning)的深層貝葉斯網路技術(Deep Bayesian Network, DBN)為語音識別帶來極為顯著的性能提高,被認為是語音領域的又一次革命。然而,當前的DBN方法只有在大數據集上才能發揮其效能,並容易受到噪聲和信道變化的干擾。DBN的這些困難很大程度上可以歸因於其全結點連線結構帶來的弱先驗約束。本項目提出稀疏性深度學習方法,利用稀疏編碼(Sparse Coding)理論,通過在DBN的特徵或結構中加入稀疏性約束,使學習得到的網路更簡潔,更具有對語音信號模式的代表性,因而降低對大規模訓練數據的依賴,並增加對噪聲和信道變化的魯棒性。同時,DBN的深層結構可以使我們得以系統研究稀疏性層次化語音模式。

結題摘要

歸功於深度學習(Deep Learning)對原始信號的分層學習能力,深度神經網路(DNN)在語音識別領域獲得巨大成功。然而,DNN網路包含極大息信冗餘,不僅浪費計算資源,也容易產生過擬合現象,降低了可擴展性。為提高DNN模型在語音識別任務中的可擴展性,本課題進行了深入研究,在三個方面取得了一系列進展。(一)研究了將稀疏編碼與深度學習相結合的方法,發現最有效的稀疏約束方法是對網路連線進行剪裁。實驗發現即全名去掉90%的連線權重也不會顯著降低語音識別模型的性能;(二)研究了各種特徵魯棒性和模型魯棒性方法,包括基於加噪自編碼器(DAE)的前端特徵去噪方法、基於隨機採樣的模型加噪訓練方法、遷移學習方法等。這些方法極大提高了模型的可擴展性,對構造資源稀缺語言(如少數民族語言)的識別系統具有特別重要的意義;(三)認識到DNN的可擴展性本質上來源於語音信息中多種因子的互相混雜。課題組提出了多任務協同建模方法來解決這一問題,將單任務中的噪聲因子轉化為協同學習中的信息因子,從而極大解決了DNN 模型的可擴展性問題。受此啟發,我們進步一提出了語音信號深度分解方法,基於DNN將語號信號分解成任務相關的信息因子。這一深度分解方法為語音信號信息處理提供了新思路。

相關詞條

熱門詞條

聯絡我們