低數據資源下語音識別系統中聲學建模方法研究

低數據資源下語音識別系統中聲學建模方法研究

《低數據資源下語音識別系統中聲學建模方法研究》是依託華南理工大學,由張偉彬擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:低數據資源下語音識別系統中聲學建模方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:張偉彬
  • 依託單位:華南理工大學
項目摘要,結題摘要,

項目摘要

現代語音識別系統嚴重依賴於用來訓練模型的訓練數據的多少,當訓練數據不足時,識別率將大大降低。收集大量精確標註的訓練數據費時費力,是部署任何一個語音識別系統的主要開支。低數據資源語音識別已經成為近年來本領域的一個研究熱點,本項目重點研究低數據資源情況下語音識別系統中的聲學建模方法,我們建議通過綜合利用下面我們提出的方法來提升聲學模型在低數據資源下的性能:在串聯或者聯合系統中,採用基於稀疏精度矩陣的高斯混合-隱馬爾科夫模型(GMM-HMM),一方面對輸入特徵之間的複雜關係精確建模,另一方面有效防止模型過擬合;採用多任務學習的方式,充分利用已有訓練數據的信息,並與多語言聯合建模方法一起使用;在深度神經網路(DNN)的訓練過程中,採用基於輸出節點融合的多語言聯合建模方式,借用其他語言的訓練數據;在DNN的訓練過程中,通過增加噪聲的多樣性來提升模型的性能。

結題摘要

現代語音識別系統嚴重依賴於用來訓練模型的訓練數據的多少,當訓練數據不足時,識別 率將大大降低。收集大量精確標註的訓練數據費時費力,是部署任何一個語音識別系統的主要 開支。低數據資源語音識別已經成為近年來本領域的一個研究熱點,本項目重點研究低數據資 源情況下語音識別系統中的聲學建模方法,我們建議通過綜合利用下面我們提出的方法來提升聲學模型在低數據資源下的性能:採用多任務學習的方式,充分利用已有訓練數據的信息,特別是使用K-L散度來定義一個新的目標函式,與原來的目標函式(如交叉熵或者判別式訓練)聯合訓練和最佳化;在DNN的訓練過程中,通過增加噪聲的多樣性來提升模 型的性能;通過改進神經網路的結構,進一步提升模型在有限數據情況下的性能。

相關詞條

熱門詞條

聯絡我們