Web文本意見挖掘關鍵技術研究

《Web文本意見挖掘關鍵技術研究》是依託北京理工大學,由牛振東擔任項目負責人的專項基金項目。

基本介紹

  • 中文名:Web文本意見挖掘關鍵技術研究
  • 依託單位:北京理工大學
  • 項目負責人:牛振東
  • 項目類別:專項基金項目
項目摘要,結題摘要,

項目摘要

Web文本意見挖掘通過自動的方法對博克、微博、線上評論等新媒體文本信息進行挖掘和分析。隨Web 2.0快速發展,它是智慧型信息處理、數據挖掘、計算語言學等領域的一個研究熱點。本項目主要研究情感詞典構建、細粒度意見挖掘方法和意見檢索模型等關鍵技術。針對情感詞典構造的整體準確率和基準詞依賴性問題,研究基於圖的耦合半監督情感詞典及領域詞典構造方法。針對向量模型在細粒度意見挖掘存在特徵稀疏,無法表示結構特徵的問題,提出基於樹核的細粒度意見挖掘方法,並針對意見兩階段任務設計多種樹核空間,將樹核與多項式核進行組合。針對文本意見檢索,研究文本檢索結果和情感分類結果的融合方法,研究新的主題意見混合模型,該方法解決了傳統兩階段處理所帶來的檢索結果和情感分類結果的融合問題,更具理論基礎。此外,項目將設計實現一個原型檢索系統,並通過TREC所提供的公開數據驗證其有效性。

結題摘要

Web 文本意見挖掘通過自動的方法對部落格、微博、線上評論等新媒體文本信息進行挖掘和分析。隨Web 2.0 快速發展,它是智慧型信息處理、數據挖掘、計算語言學等領域的一個研究熱點。本項目主要研究Web文本意見挖掘中情感詞典構建和意見檢索模型等關鍵技術,圍繞課題的任務和目標,本課題的主要成果包括:(1)採用混合語言模型理論,提出基於主題意見混合模型的意見檢索方法。該模型假設主題模型與意見模型具有一定的關聯性,即每個主題都有特定的意見模型,不同主題具有不同的意見模型。基於主題意見混合模型的意見檢索方法,能更好的解決傳統信息檢索技術和情感分類技術的融合問題。我們的方法不需要任何標記數據。(2)針對情感詞典構建存在的算法領域自適應性、種子詞依賴性和準確率不高問題,提出了一種基於約束標籤傳播的領域情感詞典自動構建方法。該方法針對情感詞的領域性,利用組塊依存樹和先驗通用情感詞典抽取領域候選情感詞和短語,通過分析領域評論文本中存在的局部上下文情感的一致性和轉折性,以及情感詞之間的詞法關係,定義和抽取情感詞之間的上下文和詞法情感傾向約束關係,能夠增強情感詞之間領域依賴的情感關聯相似度。採用約束傳播算法能夠有效地將局部約束關係傳播到全局情感詞空間,從而解決了局部約束關係的稀疏性問題;最後使用半監督的標籤傳播算法,在融合先驗約束知識的同時,計算候選詞的情感傾向性,構建領域情感詞典。(3)開展了檢索推薦模型等相關研究並設計實現一個文本意見檢索原型系統,通過實驗驗證了相關方法的有效性。針對上述研究,課題組已公開發表SCI檢索論文2篇,EI國際會議論文8篇,軟體系統1套;另外,錄用SCI論文1篇,會議論文3篇,申請專1個,並有2篇論文待投,培養研究生多名,完成了項目目標,並為後續研究提供了較好的基礎。

相關詞條

熱門詞條

聯絡我們