基於張量分解的電聲門圖語音雙模情感識別研究

《基於張量分解的電聲門圖語音雙模情感識別研究》是依託北京航空航天大學,由陳立江擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於張量分解的電聲門圖語音雙模情感識別研究
  • 依託單位:北京航空航天大學
  • 項目負責人:陳立江
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

語音情感識別是情感計算領域的關鍵技術之一。語音信號中多種信息(身份、內容以及情感)相互干擾以及環境噪聲的影響是現有語音情感識別技術亟待解決的兩個難題。本課題擬建立張量模型,結合高階奇異值分解,綜合考慮語音信號中包含的各種信息,減少或去除不同類型信息之間的相互干擾;擬將語音與電聲門圖相結合,減少或避免語音在空氣中傳播時受到的噪聲影響;最後試製電聲門圖語音雙模情感識別系統。本課題的最終目標是實現說話人身份無關且說話內容無關的魯棒的語音情感識別。本課題的研究成果同時適用於聲紋識別及語音識別,具有重大的研究意義和實際套用潛力。

結題摘要

本研究利用EGG信號,並基於張量分解對語音進行整體分析,旨在減少語音情感識別中身份、內容信息以及噪聲的干擾,提高語音情感識別率。根據計畫書,本項目在EGG語音雙模資料庫建設、語音情感特徵、情感識別方法以及情感識別系統建設方面展開研究。在資料庫建設方面,(1)EGG和語音雙模情感資料庫的自動標註,完成了EGG和語音雙模情感資料庫的重音自動標註研究;(2)結合EGG信息的語音分離研究,完成了兩人說話的語音分離。在語音情感特徵方面,(3)融合重音特徵與聲學特徵的語音情感識別研究,我們在基於傳統聲學特徵和新提出的重音特徵上構建一個語音情感識別框架;(4)基於張量分解的語音情感和語義特徵分析,提出了一種基於co-cluster的特徵選擇算法,在特徵有效性和時間複雜度上都有較大優勢。在情感識別方法方面,(5)語音離散類別到維度情感值的自動標註方法,在這項工作中,與未最佳化的預測標籤相比,本研究將一致性相關係數(CCC)值提高了平均0.104(激活度)和0.051(效價度);(6)基於一維二維深度網路的語音情感識別,構造了兩個卷積神經網路和長短期記憶(CNN LSTM)網路,一個1D CNN LSTM網路和一個2D CNNLSTM網路,以分別從語音和對數梅爾聲譜圖中學習與局部和全局情感相關的特徵;(7)多輸入深度網路的語音情感識別,設計了一個合併的卷積神經網路(CNN),以從原始音頻片段和對數梅爾聲譜圖中學習高級功能。在情感識別系統方面,(8)噪聲環境下基於圖全變差的連續語音情感預測,提出了一種新穎的個性化情緒預測模型,該模型在不同的嘈雜環境中得到了驗證;(9)電聲門圖採集裝置研究,通過軟硬體的複雜結合以及人工智慧算法,可以在複雜的環境中,有效解決背景噪聲、混響、回聲等的影響;(10)聲紋識別研究,基於 Android 作業系統,提取聲紋特徵,達到識別說話人的效果。項目計畫書中的研究內容已全部完成。本項目的研究成果在資料庫建設、語音特徵提取、情感計算具有重要意義。

相關詞條

熱門詞條

聯絡我們