《結合發音動作參數的統計建模語音合成方法研究》是依託中國科學技術大學,由凌震華擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:結合發音動作參數的統計建模語音合成方法研究
- 項目類別:青年科學基金項目
- 項目負責人:凌震華
- 依託單位:中國科學技術大學
中文摘要,結題摘要,
中文摘要
對語音合成系統音色特徵的靈活控制是語音合成技術發展的一個重要方向。傳統的大語料庫拼接合成方法和基於聲學統計模型的參數語音合成方法已經能夠較好的解決語音合成的自然度與可懂度問題;但在語音合成的靈活性上,這兩種方法會受到對訓練數據的依賴性強、難以融合語音學知識等問題的制約。發音動作參數作為聲學參數之外的一種語音表征方式,描述的是說話人發音過程中舌、唇等發音器官的位置與運動情況,它相比聲學參數具有更加明確的生理意義,可以通過語音學發音規則直接控制,這為實現靈活可控的語音合成提供了一條新的思路。本項目旨在將發音動作參數引入基於隱馬爾科夫模型的參數語音合成方面進行探索性的研究,希望通過對聲學參數與發音動作參數的聯合建模,將語音生成機理融入合成系統中,實現由語音學知識驅動的可控制語音合成方法,這在豐富語音信號的建模方法、促進語音學研究與言語工程的結合方面也具有重要意義。
結題摘要
本項目圍繞結合發音動作參數的統計參數語音合成方法開展研究工作,旨在通過語音學知識驅動的方式提高語音合成系統的靈活可控性。經過為期三年的研究工作,項目課題組順利完成了計畫的研究內容與目標,具體包括:在聲學-發音動作參數資料庫建設方面,利用電磁發音儀(electromagnetic articulography,EMA)進行發音動作參數的採集,完成了國際上首箇中文連續語流多發音人的聲學-EMA 同步語料庫;在聲學-發音動作參數聯合建模方法研究方面,提出了基於雙流隱馬爾科夫模型的聲學-發音動作參數聯合建模方法以及特徵域的轉換矩陣綁定方法,為基於發音動作參數的可控聲學參數預測奠定了基礎;在靈活可控的高質量聲學參數生成方法研究方面,設計實現了基於聲學-發音動作參數聯合模型的層次化參數生成方法,提出了結合對數能量譜全局方差模型的參數生成方法以及基於最小Kullback-Leibler 距離的參數生成方法,一方面實現了對生成聲學參數特徵的靈活控制,另一方面提高了合成語音的音質與自然度。此外,我們還開展了基於隱馬爾科夫模型的發音動作參數預測和基於共振峰參數的可控語音合成方面的研究,並完成了項目相關數據處理、模型訓練以及合成演示軟體的開發。項目研究成果共完成論文發表13篇,計算機軟體著作權申請1項;培養博士研究生2人和碩士研究生2人。在結合發音動作參數的語音合成方面的論文發表,獲得2010 年IEEE 信號處理學會最佳青年作者論文獎;項目負責人參與並集成本項目研究成果的“智慧型語音互動關鍵技術及套用開發平台”項目獲得2011 年國家科技進步獎二等獎。項目課題組依託本項目,與英國愛丁堡大學語音技術研究中心合作申請2011 年度國家自然科學基金委員會-英國愛丁堡皇家學會合作交流項目並獲批准(項目名稱“用於靈活可控語音合成的發音動作參數-聲學參數聯合建模方法研究”,批准號61111130120);共完成了4 人次的交流出訪與和5 人次的外國專家來訪,並完成了多篇合作論文的發表。為了在已取得研究成果基礎上對本項目的研究內容進行進一步的延伸與拓展,項目負責人申請的2012年度國家自然科學基金青年-面上連續資助項目也已得到批准(項目名稱“融合語音產生機理與統計聲學建模的層次化語音合成方法研究”,批准號61273032)並開始項目實施。