《混合口音語音識別中自適應分層發音變異模型研究》是依託清華大學,由劉軼擔任項目負責人的面上項目。
基本介紹
- 中文名:混合口音語音識別中自適應分層發音變異模型研究
- 依託單位:清華大學
- 項目負責人:劉軼
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
本課題提出並研究自適應分層發音變異模型在混合口音語音識別上的套用。根據混合口音發音變異的單方向性和非對稱性特點,建立二維發音變異平面,採用置信度準則和非對稱距離在多狀態多高斯分布的模型上度量方法對變異程度的高低進行描述,構造四類發音變異模型子空間,實現發音變異模型的分層描述方法。同時,採用數據驅動和規則相結合及語音學和語言學知識相結合的方法,對基本發音單元構造自適應輔助決策樹,實現發音變異模型對具有不同發音變異複雜度的自適應描述。由於發音變異不僅僅存在於口音中,也存在於各種自髮式語音中,包括對話語音,講座語音,訪談語音等。因此本課題的研究既針對語音識別技術的套用需求,也為口音及其他自髮式語音識別研究提供新思路和新方法。
結題摘要
說話人口音的多樣性,多態性和地方性是普遍存在的現象,這造成一般說話人的發音和標準發音存在較大的差異,形成聲學層和語音層的發音變異,從而導致帶口音語音識別性能的大幅度下降。本課題針對混合口音發音變異的靈活性和多樣性,以中文語音為研究語言,建立了自適應分層發音變異模型,研究了發音變異聲學層和語音層相互間的關聯和區分關係以及他們與語音識別系統不同模組的結合方法,以及具有自適應能力的通用完備發音變異模型。該模型對不同類型的發音變異同時具有良好的覆蓋能力和精細的區分能力,並通過實驗論證自適應分層發音模型適用性和實用性。根據混合口音發音變異的單方向性和非對稱性特點,建立二維發音變異平面,採用置信度準則和非對稱距離在多狀態多高斯分布的模型上度量方法對變異程度的高低進行描述,構造四類發音變異模型子空間,實現發音變異模型的分層描述方法。同時,採用數據驅動和規則相結合及語音學和語言學知識相結合的方法,對基本發音單元構造自適應輔助決策樹,實現發音變異模型對具有不同發音變異複雜度的自適應描述。本課題完備了通用自適應分層發音模型對混合口音中的靈活多變的發音變異進行度量和描述方法,並建立與語音識別系統不同模組的結合方法,提高系統的識別率和魯棒性。在基金的資助下,研究團隊累計發表同行公認的高質量論文12篇,包括IEEE Transaction文章1篇和清華大學學報文章1篇,本領域最高水平的國際會議ICASSP和ASRU2篇等,並獲得優秀學生論文2篇。通過本項目的研究,我們完成了重要的中文混合口音語音數據資源庫,數據總量達到百小時,可以提供給訓練測試等使用。申請並獲得了國家專利1項,軟體著作權1項,開發的部分支撐軟體成果在實際的語音識別系統中得到了套用並取得了較好的效果,並初步套用到複雜環境下移動設備的魯棒性語音識別系統中。在基金的資助下,2名碩士生獲得了清華大學優秀畢業生稱號,獲得Google和語音聯合會獎學金。在基金的資助下,本項研究全部達到了預期的研究目標,項目的研究思路和方法也可為口音及其他具有關聯性的自髮式語音識別研究提供寶貴的借鑑。