《基於文本觀點挖掘的多對象評級理論與方法研究》是依託山西大學,由王素格擔任項目負責人的面上項目。
基本介紹
- 中文名:基於文本觀點挖掘的多對象評級理論與方法研究
- 項目類別:面上項目
- 項目負責人:王素格
- 依託單位:山西大學
項目摘要,結題摘要,
項目摘要
本項目面向觀點挖掘領域多對象/方面評級的現實迫切需求,在建立大規模真實產品評論文本語料庫與本體知識庫的基礎上,藉助於計算語言學、統計數據建模、機器學習等理論與方法,系統地開展多對象/方面評級的建模、分析與計算的新理論與關鍵技術研究。具體內容包括:(1)基於多層次語言粒度的觀點句抽取;(2)基於上下文語義特徵的觀點句-對象/方面共指關係挖掘;(3)基於漢語框架網的比較句語義角色標註及其情感傾向分析;(4)基於潛在分析技術的多對象/方面評級;(5)基於評論文本時序性的對象/方面評級演化趨勢分析。並研製一個基於Web的面向汽車產品評論的多品牌評級系統。本項研究不僅在解決基於觀點挖掘的多對象評級領域中的基礎理論、關鍵技術問題方面有著重要的科學意義,同時也在企業產品信譽分析、大眾消費行為指導等方面具有潛在套用價值。
結題摘要
本項目面向觀點挖掘領域多對象/方面評級的現實需求,在建立大規模真實產品評論語料庫與本體知識庫的基礎上,藉助於計算語言學、統計數據建模、機器學習等理論與方法,系統地開展多對象/方面評級的建模、分析與計算的新理論與關鍵技術研究。主要研究內容與創新點包括:在不同語言粒度上的觀點句抽取;基於上下文語義特徵的共指關係預設項識別;基於序列模式的比較句識別與比較要素抽取;利用依存語法與語義隱式關係,實現了對象和方面的抽取,建立了對象方面的評級模型。探索了時序性文本的情感演化方法。構建了多個套用系統,建立了豐富的語料庫資源和辭彙資源。 面向觀點句識別,採用字與詞的語言粒度表示,提出了增強字向量和BootStrapping集成學習方法。使用詞法和依存句法融合特徵,提出了高效的共指關係預設項識別方法和比較句預設觀點對象識別與補充方法。根據漢語比較句的特點,構建了比較模式挖掘算法,實現了比較句識別及要素抽取。建立產品性能的非完備信息系統,通過特徵降維處理,實現了產品對象情感評級;提出了基於觀點袋模型和語言學規則的多級情感分類方法。針對汽車產品評論文本具有多方面性能,提出基於多標記學習的汽車評論文本多方面性能識別方法;利用主動學習方法,實現了汽車評論的情感傾向演化分析。基於期望水平和兩個簇分布的不相似性度量的近似密度函式,提出了一種簇分布差異閾值的選擇方法,進而建立了概念漂移檢測算法。針對評論文本情感分析具有領域依賴性、非平衡性和語言多樣性,綜合運用SMOTE和BootStrapping方法,提出了一種跨領域文本情感分類的目標領域數據標註方法;利用評論文本的分布密度,提出了BRC裁剪算法,實現了非平衡樣本的平衡化處理;利用多種語言自身表達的獨特性和語言間的關聯性,提出了策略融合的跨語言文本情感傾向判別框架。建立了COAE2012-COAE2013比較句識別、比較要素抽取的評測語料庫,為比較觀點挖掘研究提供了公共數據集。建立了COAE2014-COAE2015觀點要素識別語料庫,為對象/方面的細粒度觀點要素抽取的相關研究提供了公共研究數據集,有力地支持了文本情感分析技術的發展。 利用以上研究成果,構建了基於Web 評論文本的企業產品分析系統、文本情感分析技術與資源開放平台等一系列軟體,為文本情感分析的相關套用提供了軟體支持。