《異質噪聲場景語音識別中的結構化深度學習研究》是依託上海交通大學,由錢彥旻擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:異質噪聲場景語音識別中的結構化深度學習研究
- 項目類別:青年科學基金項目
- 項目負責人:錢彥旻
- 依託單位:上海交通大學
項目摘要,結題摘要,
項目摘要
複雜噪聲場景下的魯棒語音識別是語音識別領域尚未解決的關鍵技術之一。本課題著眼於真實噪聲數據“異質性”所引起的“訓練與測試失配”現象,從噪聲模型的建模和聲學模型的建模入手,均採用結構化的深雄婆度學習方法,並結合人類感知過程和人耳聽覺機理,合理利用異質環境噪聲數據,探索抗頁捉慨噪語音識別建模新方法和新理論,相比前人方法,這是一條新的研究思路。主要研究內容包括:(1)異質數據下噪聲模型的結構化深度學習,通過對環境和噪聲本身的研究來探尋噪聲之間的區分性和相關性,包括對噪聲的表達,分類及參數估計。(2)異質數據下聲學模型的結構化深度學習,通過結構化的深度模型來應對異質數據下面臨的“訓練與測試失戒漏槳配”問題:包括結構化的語音譜除噪凶巴榜擊和抗噪特徵表示,結構化的環境感知聲學建模與學習算法,噪聲自適應及結合預測反饋機制的聯合最佳化方法。希望通過本研究可以較大說戀海地提升系統識別精度和魯棒性。該研究具有重大理論意義和實際套用價值。
結題摘要
複雜噪聲場景下的魯棒語音識別是語音識別領域尚未解決的關鍵技術之一。本課題著眼於真實噪聲數據“異質性”所引起的“訓練與測試失配”現象,從噪聲模型的建模和聲學模型的建模入手,均採用結構化的深度學習方法,並結合人類感知過程和人耳聽覺機理,合理利用異質環境噪聲數據,探索抗噪語音識別建模新方法和新理論,相比前人方法,這是一條新的研究思路。本課題主要研究內容包括:(1)異質數據下噪聲模型的結構化深度說辯燥兵學習,通過對環境和噪聲本身的研究來探尋噪聲之間的區分性和相關性,包括對霉謎潤噪聲的表達,分類及參數估計。(2)異質數據下聲學模型的結構化深度學習,通過結構化的深度模型來應對異質數據下面臨的“訓練與測試失配”問題:包括結構化的語音譜除噪和抗噪特徵表示,結構化的環境感知聲學建模與學習算法,噪聲自適應及結合預測反饋機制的聯合最佳化方法。 在項目執行過程中,我們提出了若干種結構化的創新方法,均有效地改善了語音識別系統在噪聲場景下的識別性能。具體包括如下創新方法:(1)極深卷積神經網路及自適應方法;(2)基於神經網路建模的環境因子分析與表示;(3)基於多因子環境感知的抗噪魯棒語音識別;(4)基於未來因子的語言模型建模與預測能力提升;(5)複雜異質數據下的魯棒端點檢測算法;(6)基於排列不變性訓練的多人說話混疊語音分離與識別;(7)基於深度生成對抗網路的數據擴充和抗噪建模;(8)基於端到端模型的多人說話混疊語音分離與識別。利用以上這些方法,在抗噪語音識別基準測試集合Aurora4上,我們取得了目前報導的最優性能。基於本課題研究,發表了一系列高水平文章,相關算法也在真實系統中套用上線。 本項目的研究思路和研究成果,對指導深度學習更好地建模,有強有力的指導和借鑑意義。相關方法和思路可以擴展到智慧型語音的其他相關任務中去,研究具有重大理論意義和實際套用價值。