基於認知語境的文本情感計算及其套用

基於認知語境的文本情感計算及其套用

《基於認知語境的文本情感計算及其套用》是依託大連理工大學,由林鴻飛擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於認知語境的文本情感計算及其套用
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:林鴻飛
  • 批准號:60973068 
項目摘要,結題摘要,

項目摘要

情感計算旨在賦予計算機觀察、理解和生成各種情感的能力,情感表達方式主要是文字、語音以及多模態數據。目前文本情感計算局限於褒貶二義的傾向性分析,方法以統計學習為主,缺乏情感語義資源的支撐和認知語言學的指導。本課題的研究目的旨在以多情感的語義資源為基礎,以認知語言學為指導,進行文本的情感識別和情感遷移的研究。研究內容是以情感辭彙本體、情感語料庫以及情感常識庫為基礎,以情感主體為主線,建立不同粒度的情感識別模型。在辭彙層,從情感分類、強度和極性三個維度描述辭彙的情感信息;在語句層,著重完成情感辭彙的語義消歧、情感搭配的識別以及情感主體的識別,確定語句情感類別,構建相應的情感鏈;在篇章層,結合認知-評價理論,建立基於情感圖式的篇章情感分析模型,構造一個可視化的文本情感計算平台,並將其套用在意見挖掘、產品評論和輿情監控等方面。

結題摘要

基於文本的情感計算旨在採集、抽取和理解文本所蘊含的豐富的情感,得到了學術界和企業界的極大地關注。本課題研究目的在於在情感語義資源基礎上進行中文文本情感分析。 主要研究路線:(1)資源層:以認知語言學為基礎,定義了7大類情感(樂、好、怒、哀、懼、惡、驚),包含21種小類情感,詞條內容包括辭彙名稱、情感類別、情感強度、情感極性等,構建了《情感辭彙本體》。大規模情感語料庫對於建立完善的訓練模型是十分必要的。我們採用了Text Encoding Initiative標註集,針對情感分析的特殊性,設計了標註工具,制定了標註規範,建立了質量監控機制。語料來源有教材、部落格、微博等;還有劇本、期刊以及一些翻譯作品。 (2)平台層:在辭彙層,有些辭彙本身的情感傾向不是很明顯,但是和某些辭彙搭配後產生明顯的情感傾向。為此,我們提出了基於關聯規則的語境歧義詞識別方法,識別搭配在不同上下文環境下的情感屬性。在句子層,提出了基於多句聯合評估的句子情感分析方法,充分考慮到句子之間的情感遷移機率,採取平滑方式,修正句子之間的情感類別和強度。在篇章層,提出了基於情感圖示的篇章情感分析模型。圖式來自認知語言學,是常識性的知識表示框架,即“認知語境”。對於每種情感建立了對應的情感圖示,刻畫情感誘因和應對的策略。 (3)套用層:利用情感語義資源,我們開展了多種多樣的情感計算套用,包括微博情感分析、基於觀點挖掘的銷量預測、個性化音樂推薦、產品評價、社會化標註、中西方思維模式對於情感影響等。 主要研究成果: (1)構建了多情感的情感辭彙本體,規模為27934詞條,已經免費分發,自2012年12月1日線上免費發放,下載量達到640次。 (2)構建了中文情感語料庫,規模為52959篇,4786740字,採取眾包的方式加以完善,2013年1月將上線,供研究者免費使用。 (3)研發了中文文本情感分析平台,為基於情感分析的套用提供基礎服務。 (4)發表論文34篇,錄用4篇,包括SIGIR2011,CIKM2011,JASIST等國際著名學術會議和期刊等。 (5)參加了2011年美國TREC和2010-2012年的國內COAE評測取得了較好的成績。 (6)培養了2名博士,8名碩士畢業生。取得了申請書所提出的預期成果。

相關詞條

熱門詞條

聯絡我們