《多模態中文歌曲情感識別技術研究》是依託北京大學,由陳曉鷗擔任負責人的面上項目。
基本介紹
- 中文名:多模態中文歌曲情感識別技術研究
- 項目負責人:陳曉鷗
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
音樂情感識別技術是網際網路音樂檢索系統的重要支撐技術之一。目前的音樂情感識別方法多是單模態的,而且識別效果還遠不能滿足實用要求。多模態音樂情感識別方法利用音樂固有的多模態性,具有多數據源特徵互補、可篩選特徵多、對情感模型適應性強等特點,有望顯著提高識別率。本項目在研究基於音頻數據、MIDI數據和歌詞文本數據的單模態情感識別方法的同時,探索解決多數據源集成的多模態中文歌曲情感識別問題。本項目爭取在學術上有所突破,同時,研究成果將套用於構建網際網路音樂檢索系統。
結題摘要
本項目的研究目的是構建計算模型,根據歌曲的音頻、歌詞和MIDI多模態數據等,自動識別歌曲的情感。 1、 基準數據集 收集整理了2002首樣本中文歌曲(來自1462個專輯、871位歌手),包括音頻、歌詞和MIDI數據。人工標註了歌曲的PAD情感值,並校對了藝術家名、歌曲名和詞曲作者名。 2、 研究成果 (1) 探索了基於播放列表文字標籤的歌曲情感識別。該方法對激活度分類效果比歌詞要好,愉悅度分類效果比歌詞稍差。對愉悅度分類,融合標籤和歌詞有顯著的互補作用。 (2) 提出了基於CQ(Constant-Q)聲譜符號化表示的音樂情感識別方法。情感回歸和分類實驗表明,該方法在回歸和分類效果上優於直接提取音頻特徵的方法。 (3) 提出一種基於CCRF的動態音樂情感識別方法,融合基於多時長局部信號的預測結果,並對多時刻情感關係建模。在MediaEval2014國際評測中取得較好結果。 (4) 提出了反映音樂進行的音頻特徵提取方法。實驗表明,音樂進行特徵對短時特徵的簡單統計特徵有明顯的互補作用。在MediaEval2015國際評測中也取得較好結果。 (5) 提出了MIDI歌曲情感分類和回歸方法。實驗表明,對愉悅度回歸,MIDI效果優於音頻,轉換MIDI效果優於編輯MIDI,且旋律比伴奏效果好。但對激活度回歸來說,伴奏比旋律效果好。另外,用編輯MIDI對愉悅度回歸,僅用副歌部分,效果與用全曲相當。 (6) 比較研究單模態和多模態特徵融合情感回歸。涉及音頻、歌詞和MIDI,採用Adaboost多模態融合。實驗表明,歌詞對P值回歸效果明顯優於音頻和MIDI,而音頻和MIDI對A值和D值回歸貢獻大。多模態特徵融合情感回歸效果明顯優於單模態,說明多模態特徵有互補性。 (7) 提出了融合歌詞和音頻的歌曲愉悅度回歸方法。我們研究發現歌詞對愉悅度識別效果好,故用歌詞訓練愉悅度正負分類器,再用歌詞和音頻特徵融合來分別訓練正和負愉悅度回歸器,得到一個愉悅度回歸的兩層模型。實驗表明,與基於歌詞和音頻特徵融合的單層回歸器相比,此兩層回歸模型能有效克服愉悅度極性錯誤,回歸效果顯著提升。 (8) 研究歌曲的不同部分對情感識別的作用。基於歌詞自動劃分歌曲的結構單元。用不同結構單元的歌詞和音頻特徵進行情感分類器學習。實驗結果表明,主歌部分對愉悅度回歸效果好,而副歌對激活度回歸效果好。 (9) 開發了一個音樂情感識別原型系統。