基於知識與數據混合驅動機率圖模型的多模態情感識別

《基於知識與數據混合驅動機率圖模型的多模態情感識別》是依託哈爾濱工業大學,由李永強擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於知識與數據混合驅動機率圖模型的多模態情感識別
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:李永強
項目摘要,結題摘要,
人機互動核心問題是賦予計算機感知、理解以及表達情感的能力,其基礎是情感識別。情感是一種內在的主觀體驗,但總是伴隨著某些外部表現,如面部表情的變化,言語的聲調、節奏和速度的變化等。本課題以機率圖模型(PGM)為研究對象,模擬人腦神經元多層深度傳遞機理,有效地融合多模態信息,並挖掘、表示人面部動作先驗分布,運用已有的先驗知識來加強推理和判斷,實現魯棒地識別人面部肌肉動作單元(AU),繼而識別、理解人情感狀態。其中擬解決的關鍵問題包括:建立有效的多模態信息融合機制,解釋音頻信息與視頻信息本質相關性;建模人面部動作先驗分布及動態特性,使信息流雙向流動,處理觀測值不確定性問題;探求推廣性強的知識抽象策略和表示方法,使其可以適用於不同類型不同形式的先驗知識;發展知識與數據共同驅動模型訓練算法,提高模型的魯棒性和泛化性能。本研究的成功實施將豐富模式識別與機器學習理論,並為多模態情感識別提供新的解決途徑。
本項目按照研究計畫研究了基於多模態信息融合的情感識別方法、人面部動作先驗分布及動態特性建模方法、以及先驗知識嵌入模型訓練過程方法。針對基於多模態信息融合的情感識別,本課題研究了基於語音和圖像的情感識別,針對語音信號,提取了包含短時能量、基音頻率、語音持續時間、前三共振峰、MFCC係數等相關統計學參數,共92維語音特徵,對於圖像信息,本課題分別提取語音段峰值圖像的 LBP 特徵以及序列圖像臉部特徵點的均值和標準差,在此基礎上,考察了多種特徵融合方法並在SAVEE資料庫上測試,結果表明融合語音和圖像的情感識別方法優於單一模態情感識別方法,相關成果發表PCM會議論文1篇。針對人面部動作先驗分布及動態特性建模方法,本課題研究了基於動態貝葉斯網路(DBN)的AU強度識別方法,通過DBN建模AU之間的共生關係及互斥關係,以及AU強度單調變化等動態關係,顯著提高了AU強度觀測值準確率,相關成果發表Pattern Recognition期刊論文1篇。針對嵌入先驗知識的模型訓練方法,本課題研究了結構化輸出標籤中標籤相關性嵌入模型訓練過程的方法,提出了基於多標籤學習的AU識別模型,將AU相關性嵌入模型訓練過程,進一步提高了系統性能,相關成果發表Pattern Recognition期刊論文1篇。項目執行過程中,培養碩士研究生2名,均已畢業,博士研究生3名,目前在讀。項目投入經費25萬元,支出20.063萬元,各項支出基本與調整後預算相符。剩餘經費4.937萬元,剩餘經費計畫用於本項目研究後續支出。

相關詞條

熱門詞條

聯絡我們