《非特定人自然語音情感識別的建模方法研究》是依託清華大學,由徐明星擔任項目負責人的面上項目。
基本介紹
- 中文名:非特定人自然語音情感識別的建模方法研究
- 依託單位:清華大學
- 項目負責人:徐明星
- 項目類別:面上項目
項目摘要,結題摘要,
項目摘要
語音情感識別研究如何通過語音信號辨識說話人的情感狀態。本項目研究非特.定人自然語音情感的感知建模與識別,對於揭示人類情感活動的機理和探索人類智慧型行為的.本質,具有重大的意義。研究重點在於如何將特定人、離散情感的語音情感識別發展為非特.定人、連續情感的語音情感識別。明確區分心理情感狀態空間、情感計算空間、情感文字描.述空間,研究它們的內在性質和相互關係。把基本情感論和情感維度論結合起來,研究支撐.情感計算空間的構建方法,確定情感計算空間與情感文字描述空間的映射關係,以及不同人情感計運算元空間之間的映射關係。研究非特定人情感共性表達的聲學特徵提取算法。建立一個非特定人自然語音情感識別的原型系統。
結題摘要
語音是人類最方便的交流工具,傳遞著多種信息,如語義內容、話者身份、情感狀態等,在和諧人機互動中扮演著重要的角色。非特定人自然語音情感的感知建模與識別有助於揭示人類情感活動的機理具有重大的意義,受到了越來越多的研究者關注。 針對非特定人自然語音情感識別,本項目研究了表達情感信息的聲學特徵提取與變換方法,以提高聲學特徵對非特定人情感共性的代表性,以及聲學特徵對環境變化、發音變化的魯棒性;基於情感範疇觀和情感維度觀,分別研究了情感類別的動態變化檢測和連續維度情感的回歸分析,提出了相應的聲學建模方法;研究了面向自然連續語音情感識別的情感關鍵字檢出算法和疑問語氣檢測算法,將語義信息和超音段信息集成到聲學特徵中;通過從網路訪談視頻節目收集情感音頻片段,構建了一個非特定人自然連續語音真實情感資料庫,並搭建了一個非特定人自然語音情感識別的原型系統。 針對隨時間連續變化的維度情感的動態預測,本項目提出了一種基於深層雙向LSTM多尺度融合的回歸分析算法,以及一種基於雙層SVR的多尺度回歸分析算法。在MediaEval 2015組織的音樂情感識別評測任務中,這兩種方法的預測效果都優於組織者提供的基線系統。 針對基於離散情感類別的變化檢測,提出了一種基於滑動窗的多尺度融合檢測算法,情感變化檢測的F值最高可以達到93.69%,表明多尺度融合算法的有效性。 針對發音方式變化對聲學特徵空間的影響,提出了兩種魯棒聲學特徵提取算法,即基於聯合因子分析的方法和基於稀疏表示的方法。在一個含有12種發音方式的說話人識別語音資料庫上的說話人確認等錯誤率EER比GMM-UBM基線系統下降了39.85%。 提出了一種基於聲音頻譜指紋和音頻信息結構的環境魯棒的聲學特徵提取算法,在TRECVID2009音頻拷貝檢測數據上達到了98.29%的平均召回率,表明該聲學特徵提取方法能克服環境變化帶來的影響。