觀點挖掘(Opinion Mining),又稱文本意見挖掘或情感分析,是對文本信息的主題、意見持有者、主客觀性、情緒態度等情感信息的挖掘和分析,進而識別出主觀性文本的情感趨向。
基本介紹
- 中文名:觀點挖掘
- 外文名:Opinion Mining
定義,情感要素抽取,情感分類任務,觀點檢索,
定義
觀點挖掘,又稱文本意見挖掘或情感分析,是對文本信息的主題、意見持有者、主客觀性、情緒態度等情感信息的挖掘和分析,進而識別出主觀性文本的情感趨向。 其研究對象主要是Web 上的文本,尤其是用戶發布的評論性文本。 按照處理文本的不同粒度,觀點挖掘主要可以分為詞語、句子和篇章三個級別的研究;按照處理文本的不同類別,主要可以分為基於產品評論和基於新聞評論的觀點挖掘;按照處理文本的不同任務,主要可以分為 3 項逐層遞進的任務,即情感要素抽取、情感分類和觀點檢索。
情感要素抽取
情感信息抽取作為觀點挖掘的基礎性任務, 是一種細粒度分析技術,旨在抽取文本中有價值的情感信息,以便之後更進一步的觀點挖掘研究。 Kim 和 Hovy用四個元素來描述一個觀點,即主題、觀點持有者、陳述和情感。 Liu 等則在前人的基礎上,考慮了修飾副詞(一般程度副詞、超量級修辭副詞、否定詞)和標點符號(陳述、感嘆、疑問)這兩個方面的特徵,以此達到區分觀點情感強度的目的, 具體是把對目標對象或其某個特徵的觀點ti定義成一個六元組(f,o,omc,gms,nmc,p),其中f表示目標對象的特徵,o 表示評價詞語,omc表示超量級修辭副詞代表數量,gms表示一般程度副詞的平均得分,nmc表示否定詞的數量,p表示觀點語句的標點符號。 綜合而言,情感信息抽取的研究主要集中在評價對象的抽取、 觀點持有者的抽取和情感詞的抽取這三個方面。 此外,不少研究者發現僅僅對某項語義單元的抽取仍然滿足不了高精度觀點挖掘的要求, 於是一些研究者致力於抽取語義搭配組合的研究。
情感分類任務
情感分類包括主觀性文本識別和主觀性文本的情感分類。一般文本有用來描述客觀事實的, 也有表達主觀性觀點的。 因此,文本情感分類任務一般是先進行主觀性文本識別,也即主客觀文本分類,再進行主觀性文本的情感分類。
觀點檢索
觀點檢索,又叫意見檢索,旨在根據查詢主題詞查找包含用戶觀點、看法或見解的文本。觀點檢索有別於面向客觀事實性文本的傳統信息檢索技術,通過觀點檢索,用戶輸入主題關鍵字就可以檢索到人們關於這個主題的觀點看法。
一般來說,觀點信息檢索要求檢索回的文檔需要同時滿足兩項基本準則:一是主題相關性,即檢索回的文檔要與主題(查詢詞)高度相關;二是觀點相關性,即檢索回的文檔明確體現出用戶的觀點傾向性。