多模態中文歌曲情感識別技術研究

項目摘要

音樂情感識別技術是網際網路音樂檢索系統的重要支撐技術之一。目前的音樂情感識別方法多是單模態的，而且識別效果還遠不能滿足實用要求。多模態音樂情感識別方法利用音樂固有的多模態性，具有多數據源特徵互補、可篩選特徵多、對情感模型適應性強等特點，有望顯著提高識別率。本項目在研究基於音頻數據、MIDI數據和歌詞文本數據的單模態情感識別方法的同時，探索解決多數據源集成的多模態中文歌曲情感識別問題。本項目爭取在學術上有所突破，同時，研究成果將套用於構建網際網路音樂檢索系統。

結題摘要

本項目的研究目的是構建計算模型，根據歌曲的音頻、歌詞和MIDI多模態數據等，自動識別歌曲的情感。 1、基準數據集收集整理了2002首樣本中文歌曲（來自1462個專輯、871位歌手），包括音頻、歌詞和MIDI數據。人工標註了歌曲的PAD情感值，並校對了藝術家名、歌曲名和詞曲作者名。 2、研究成果 (1) 探索了基於播放列表文字標籤的歌曲情感識別。該方法對激活度分類效果比歌詞要好，愉悅度分類效果比歌詞稍差。對愉悅度分類，融合標籤和歌詞有顯著的互補作用。 (2) 提出了基於CQ（Constant-Q）聲譜符號化表示的音樂情感識別方法。情感回歸和分類實驗表明，該方法在回歸和分類效果上優於直接提取音頻特徵的方法。 (3) 提出一種基於CCRF的動態音樂情感識別方法，融合基於多時長局部信號的預測結果，並對多時刻情感關係建模。在MediaEval2014國際評測中取得較好結果。 (4) 提出了反映音樂進行的音頻特徵提取方法。實驗表明，音樂進行特徵對短時特徵的簡單統計特徵有明顯的互補作用。在MediaEval2015國際評測中也取得較好結果。 (5) 提出了MIDI歌曲情感分類和回歸方法。實驗表明，對愉悅度回歸，MIDI效果優於音頻，轉換MIDI效果優於編輯MIDI，且旋律比伴奏效果好。但對激活度回歸來說，伴奏比旋律效果好。另外，用編輯MIDI對愉悅度回歸，僅用副歌部分，效果與用全曲相當。 (6) 比較研究單模態和多模態特徵融合情感回歸。涉及音頻、歌詞和MIDI，採用Adaboost多模態融合。實驗表明，歌詞對P值回歸效果明顯優於音頻和MIDI，而音頻和MIDI對A值和D值回歸貢獻大。多模態特徵融合情感回歸效果明顯優於單模態，說明多模態特徵有互補性。 (7) 提出了融合歌詞和音頻的歌曲愉悅度回歸方法。我們研究發現歌詞對愉悅度識別效果好，故用歌詞訓練愉悅度正負分類器，再用歌詞和音頻特徵融合來分別訓練正和負愉悅度回歸器，得到一個愉悅度回歸的兩層模型。實驗表明，與基於歌詞和音頻特徵融合的單層回歸器相比，此兩層回歸模型能有效克服愉悅度極性錯誤，回歸效果顯著提升。 (8) 研究歌曲的不同部分對情感識別的作用。基於歌詞自動劃分歌曲的結構單元。用不同結構單元的歌詞和音頻特徵進行情感分類器學習。實驗結果表明，主歌部分對愉悅度回歸效果好，而副歌對激活度回歸效果好。 (9) 開發了一個音樂情感識別原型系統。

多模態中文歌曲情感識別技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條