基於音節模型的音頻點播關鍵技術研究

基於音節模型的音頻點播關鍵技術研究

《基於音節模型的音頻點播關鍵技術研究》是依託河海大學,由呂勇擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於音節模型的音頻點播關鍵技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:呂勇
  • 依託單位:河海大學
項目摘要,結題摘要,

項目摘要

針對漢語同音字多,音節較少, 多個漢字對應一個音節的特點,為每個漢語音節建立音頻索引庫,將用戶發出的口語識別為音節序列。在匹配解碼階段,首先根據輸入語音的音節序列信息,從音頻索引庫的相應音節條目中選取候選音頻,再將輸入語音的音節序列與候選音頻的音節序列進行匹配解碼。用音節序列匹配取代傳統的文本匹配,提高了解碼精度,降低了系統複雜度。在前端語音識別中,用非線性環境補償技術對加性噪聲、信道失真和室內混響進行補償,提高語音識別的魯棒性;並採用N-best算法選取前N個最有可能的語音單元作為輸出結果,得到待識別語音的多個可能的音節序列,從而減小前端語音識別錯誤對後端音節序列匹配解碼的影響。

結題摘要

針對漢語同音字多,音節較少,多個漢字對應一個音節的特點,為每個漢語音節建立音頻索引庫,將用戶發出的口語識別為音節序列,用音節匹配代替傳統的文本匹配,提高音頻點播的精度,減小系統的複雜性。 在實際套用中,背景噪聲和信道失真往往是不可避免的,它們會導致特徵向量與預先訓練的聲學模型嚴重失配,甚至有可能使識別器完全失效。因此,研究語音識別的環境補償技術,減小環境失配對音頻點播系統語音識別模組的影響,具有非常重要的意義。課題組針對傳統特徵補償算法難以實時跟蹤非平穩噪聲的缺點,提出了基於快速噪聲估計的環境補償算法,分別用一個含有較少單元的高斯混合模型和一個含有較多高斯單元的高斯混合模型進行噪聲參數估計和純淨語音估計。在模型自適應領域,提出了用於通用模型自適應的中心子帶回歸算法和用於抗噪聲模型自適應的子帶VTS算法,並通過多重自適應進一步提高模型自適應的精度。在混響語音識別研究中,將矢量泰勒級數方法用於室內加性噪聲和短時混響的聯合特徵補償,提高混響環境下的補償性能。 在音節識別中,採用N-best 算法選取前N個最有可能的語音單元作為輸出結果,得到待識別語音的多個可能的音節序列,從而減小前端語音識別錯誤對後端音節序列匹配解碼的影響。在匹配解碼階段,首先根據輸入語音的音節序列信息,從音頻索引庫的相應音節條目中選取候選音頻,再將輸入語音的音節序列與候選音頻的音節序列進行匹配解碼。用音節序列匹配取代傳統的文本匹配,提高了解碼精度,降低了系統複雜度。

相關詞條

熱門詞條

聯絡我們