《基於三支決策的微博中文反語識別研究》是依託南京理工大學,由賈修一擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於三支決策的微博中文反語識別研究
- 項目類別:青年科學基金項目
- 項目負責人:賈修一
- 依託單位:南京理工大學
項目摘要,結題摘要,
項目摘要
網路環境下短文本中反語的使用會導致傳統情感分析方法分類時精度降低,而由於中英文在辭彙和語義表述上的不同,使得現有英文反語識別技術無法直接套用於中文數據,針對此問題,本課題研究面向微博的中文反語識別技術。擬採用三支決策粗糙集與半監督學習和集成學習相結合的方法,研究以下內容:(1)面向微博數據的反語識別多模態層次化特徵體系;(2)基於三支決策的微博反語識別層次化分類模型;(3)三支決策代價敏感學習方法研究。本課題創新性的從計算學角度系統的對微博中文反語識別展開研究,並利用三支決策粗糙集在多粒度特徵選擇、降低分類誤分率和能夠直接處理不平衡數據這三方面的優勢進行有針對性的研究。研究的目的在於提高面向微博的情感分析分類精度,為科學的社會預警提供有力決策支持,對推動自然語言理解中語境分析的可計算化研究有著重要的科學意義,對國家安全和社會穩定具有著重要的現實意義。
結題摘要
鑒於微博具有實時性和快速傳播等特性,面向微博的情感分析和預警技術正成為當前的研究熱點,並且對國家和社會的安全具有著重要的價值和現實意義。本項目基於微博數據,著眼於反語識別這一類特殊情感分析任務展開研究。主要研究內容包括:(1)建立面向微博數據的反語識別多模態、層次化特徵體系;(2)針對具有不平衡特性的微博數據設計相應的反語識別層次化分類模型;(3)三支決策代價敏感學習研究。本項目的主要研究結果包括:(1)對於反語識別特徵體系,提出了建立包括基本辭彙情感、標點符號、諧音詞、微博長度、動詞被動化和文本情感模糊度等在內的多種特徵,並在考慮特徵分布情況下,構建兩階段分層分類特徵體系;(2)針對特徵選擇問題,結合三支決策理論和貝葉斯網路方法的優勢,提出了一種三支決策貝葉斯網路模型,並設計了一種該模型下基於代價最小化的屬性約簡方法;(3)針對微博數據反語識別不平衡問題,提出了一種基於多異態分類器的兩階段集成分類反語識別方法。實驗結果表明所提兩階段分層特徵體系和兩階段集成分類反語識別方法能夠有效提高反語識別正確率。