《面向微博平台的短文本話題檢測與跟蹤研究》是依託武漢大學,由李飛擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:面向微博平台的短文本話題檢測與跟蹤研究
- 項目類別:青年科學基金項目
- 項目負責人:李飛
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
微博(Microblog)已成為信息發布、交流的熱門平台,其信息的實時性與內容的豐富性均是傳統平台所不具備的。基於微博這樣一個匯集海量信息的平台開展話題檢測與跟蹤(Topic Detection and Tracking,TDT)工作,將會幫助人們及時掌握重要信息。然而其訊息的短文本屬性以及平台中話題相關信息的小樣本特性,使得在其中開展TDT 工作較為困難。目前國內外在TDT 方面的研究大都限於長文本範圍,較少涉及短文本環境。本課題針對微博這種新興並飛速發展的社交網路平台上的海量信息,提出一種新的結合了短文本分析和用戶特徵分析的文本融合技術框架,採用文本相似度計算、LDA 話題挖掘和基於擬合的句子排序等具體技術,對微博話題進行動態的檢測、跟蹤和分析,並以圖示和列表等用戶易於理解的方式,返回話題關鍵信息。幫助用戶把握全局性的事件背景,並提出趨勢發展的預測結果,為決策者提供高質量的決策支持。
結題摘要
微博平台已發展成為網民討論社會熱點事件和分享日常生活的重要社交平台之一。這些用戶產生的內容(user generated contents,UGCs)在微博平台上以數據流的形式實時產生和動態更新。快速變化的微博流使得我們迫切需要開發一個有效的監測工具來實時分析微博中產生的話題及其演化趨勢,這對突發事件預警、輿情疏導、產品行銷、信息推薦等意義重大。 面向微博文本流的主題探測與追蹤是監測微博流的有效方法之一,它可實時探測網路上的熱點動態,進而可以輔助監測人員及時作出應對措施。然而,微博文本的簡短性、高噪聲、低質量、快速變化、規模龐大等特點使得現有的主題探測與追蹤方法面臨四個主要挑戰:(1) 海量低質的微博文本使得主題挖掘的時空開銷較大,難以滿足實時性要求;(2) 微博文本在向量空間中的高維稀疏使得現有聚類方法難以獲得有價值主題信息;(3) 面向微博文本流的新興主題探測的及時性與準確率矛盾難以調和;(4) 難以準確追蹤和刻畫微博流中的新興主題在時間序列上的演化狀態。本課題針對上述挑戰,構建一個面向微博文本流的主題探測與追蹤的統一框架,該框架試圖分別從微博採樣、主題抽取、新興主題探測與主題追蹤等方面提出相應解決方案。本課題的完成的研究內容可概括如下: (1)針對微博文本海量低質的問題,本課題提出一個基於時間-頻率變換的高質量微博抽取方法,來從大規模微博文本中抽取出部分有代表性的高質量微博。 (2)針對現有基於向量空間模型的文本聚類技術對微博文本進行聚類時面臨維度高、特徵稀疏和噪聲干擾等問題,本課題提出基於頻繁項集的短文本聚類與主題抽取方法。基於100萬條新浪微博文本的實驗結果表明,該方法能夠全面準確地抽取主題信息,並快速有效地實現海量短文本聚類。 (3)針對面向微博文本流的主題探測面臨的微博文本相似度難以準確度量、新興主題辭彙難以有效發現等問題,本課題提出一個基於高效用模式聚類的主題探測方法。該方法可同時探測到新興主題和背景主題。在大規模Twitter和新浪微博上的實驗結果表明該方法比基線方法能更好的探測到兩類主題。 (4)針對面向微博文本流的主題探測與追蹤的及時性和準確性需求,本課題提出一個基於新穎性機率與衰退性機率的主題探測與追蹤方法。在100萬條新浪微博上的實驗結果表明,該方法不僅在新興主題探測方面比基線對比方法取得更高的準確率、主題一致性和新鮮度,且在主題追蹤方面表