基於文本語義挖掘的商品評論信息可信度分析研究

基於文本語義挖掘的商品評論信息可信度分析研究

《基於文本語義挖掘的商品評論信息可信度分析研究》是依託南京理工大學,由丁晟春擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於文本語義挖掘的商品評論信息可信度分析研究
  • 項目類別:青年科學基金項目
  • 項目負責人:丁晟春
  • 依託單位:南京理工大學
項目摘要,結題摘要,

項目摘要

商品評論信息的可信度會對用戶購買決策產生重大影響,已有研究主要從用戶行為、心理感知等方面,研究影響用戶對評論信息信任程度的因素,但缺乏對評論信息可信度的定量分析研究。本申請將結合文本挖掘、信息組織等方法,從商品評論信息的文本語義出發,擬在申請者前期對評論信息傾向性分析研究的基礎上,探索有效的評論信息可信度定量分析模型。進行如下三方面研究:1.從虛假商品評論信息的發布動機和行為出發分析其特徵規律;2.結合領域本體和條件隨機場模型進行可信度特徵的選擇及其特徵庫的構造,並據此構造規則集進行評論信息可信度文本特徵詞的自動抽取研究;這是研究重點。3.在上述基礎上,設計基於領域本體的評論信息可信程度計算規則,提出基於Jena推理機的文本可信程度語義推理計算算法,並通過該計算方法得到商品評論信息可信度分析結果。這是研究的難點。本項目旨在為意見挖掘提供可信的信息資源,為虛假評論信息的審核過濾提供有效方法。

結題摘要

商品評論信息的可信度會對用戶購買決策產生重大影響,已有研究主要從用戶行為、心理感知等方面,研究影響用戶對評論信息信任程度的因素,但是缺乏對評論信息可信度的定量分析研究。本課題結合了文本挖掘、信息組織、統計學等方法,從商品評論信息的文本語義出發,探索商品評論信息可信度定量分析模型,具體的研究包括以下三個方面:1.從虛假商品評論信息產生的動機、表現的行為和發布的渠道三個角度分析其特徵規律,研究發現虛假評論信息產生的動機一般分為推銷、詆毀、干擾和無意義四類,表現的行為為造假和隱藏,並在此基礎上,從評論信息的內容、評論信息的來源以及評論者自身三個維度進行了評論信息可信度特徵的分析;2.將領域本體和CRFs模型結合起來進行可信度特徵的選擇與特徵詞的自動抽取:首先通過商品評論信息可信度影響因素實證分析,驗證了課題組所選各個可信度特徵的有效性,之後分別通過商品評論信息領域本體構建與完善、基於CRFs模型和本體的評價詞集構建,基於Jena推理的隱性商品評論對象抽取、基於CRFs模型的顯性評價對象以及情感極性特徵的自動識別來完成了評論信息可信度特徵詞的自動抽取,實驗結果表明課題組所提方法的有效性和優越性,該部分為研究的重點;3.在上述基礎上,針對商品評論信息可信度的計算進行了定性和定量兩方面的研究。首先,課題組提出了基於SVM模型的垃圾評論識別方法,成功地過濾了商品評論信息中的垃圾評論;之後採用CRFs模型和領域本體相結合的方法對商品評論信息的可信度進行了四級評估研究,依據實驗結果對“人工效用評價”提出了改進建議:最後為了對商品評論信息的可信度進行更為準確的量化計算,又在可信度特徵分析的基礎上,設計了可信度特徵的計算規則,並提出了基於SVR模型的商品評論可信度計算方法,並通過該計算方法得到商品評論信息可信度分析結果。這是本研究的難點。本項目將研究過程中提出的情感傾向性分析與評價對象抽取方法套用到了NLP&CC2013、COAE2013和COAE2014等公開的中文傾向性測評的任務中,取得了不錯的結果,驗證了本文所提出的方法的有效性。之後依託於本項目的研究成果,開發了“手機商品評論信息抓取與分析”套用系統,參與“2014年(第7屆)中國大學生計算機設計大賽”,取得了良好的成績,為垃圾評論的識別、商品評論信息可信度分析提供了有效的方法。

相關詞條

熱門詞條

聯絡我們