面向網路輿情分析的微博社會化短文本分析技術研究

《面向網路輿情分析的微博社會化短文本分析技術研究》是依託北京大學,由楊建武擔任負責人的面上項目。

基本介紹

  • 中文名:面向網路輿情分析的微博社會化短文本分析技術研究
  • 項目負責人:楊建武
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

微博作為快速發展的新興網路套用,已成為網路輿論傳播的主要渠道,對社會生活產生著越來越重要的影響。本項目圍繞微博網路輿情分析問題,以自然語言處理、數據挖掘、人工智慧和網際網路搜尋等領域的最新研究成果為基礎,結合社會學與傳播學的理論方法,重點針對海量的即時性、碎片化、社會化的微博信息,研究微博的特徵表示、會話序列識別、輿情話題檢測和話題傳播分析等理論方法,擬重點解決海量網路短文本流分析問題和文本內容分析與社會關係分析相融合的問題,力求在海量社會化短文本分析的理論方法上有所突破,形成一套有效的面向網路輿情分析的社會化短文本分析方法,設計開發一套微博輿情話題分析原型系統,為新一代網路輿情分析系統提供理論與關鍵技術支撐。在研究過程中,積極參加TREC微博評測,以便客觀地評價本項目的研究成果,並在評測過程中與國際同行交流學習促進本項目研究工作的開展。

結題摘要

微博已成為人們了解時事新聞和傳播輿論的重要渠道。與傳統新聞媒體相比,微博具有文本短、傳播快、用戶多、互動強等特點。本項目圍繞微博網路輿情分析問題,以自然語言處理、數據挖掘、人工智慧和網際網路搜尋等領域的最新研究成果為基礎,結合社會學與傳播學的理論方法,針對海量的即時性、碎片化、社會化的微博信息,重點研究了微博特徵表示、微博話題檢測追蹤、微博時間線生成和微博實時過濾等技術。在文本簡短、語言不規範、噪音較多的微博環境中如何對微博有效地進行特徵表示是一件非常有挑戰的事情,本項目中提出了基於知識的擴展模型和基於實體反饋的語言模型來解決此問題,並構建了多源實體驅動的探索式搜尋引擎原型系統(EEST)以便進行研究實驗和成果展示。微博傳播中話題快速漂移的現象導致微博話題難以檢測和持續追蹤,本項目中提出了基於子話題聚類的微博話題追蹤模型,提高了話題持續跟蹤的準確性。而微博時間線生成技術則是從圍繞同一話題的一系列的博文中自動抽取代表性的博文,並按時間順序形成針對該事件的梗概,從而過濾掉大量噪音、冗餘的微博,提高用戶獲取信息的效率,本項目中提出基於圖的動態貪心聚類算法,對微博時間線的相關性、新穎性以及覆蓋度進行建模。為進一步提高用戶獲取信息的及時性,本項目中還探索了微博實時過濾技術,提出一種適應性過濾框架,從實時的微博數據流中,自動監測並過濾抽取用戶感興趣的信息,並利用固定時間視窗的最大邊緣相關性模型對潛在的微博進行相關性、多樣性的建模。通過本項目研究,解決了微博內容碎片化、語言不規範、話題演化快等問題,形成了一套有效的面向網路輿情分析的社會化短文本分析方法,為新一代網路輿情分析系統提供理論與關鍵技術支撐。 基於以上研究成果,本項目發表國際會議論文12篇,申請發明專利6項。2014年—2017年連續參加該領域的國際權威評測TREC,每次均取得好的成績,更有4項獲得第1名。

相關詞條

熱門詞條

聯絡我們