線上社交網路話題發現及演化機理與計算方法研究

線上社交網路話題發現及演化機理與計算方法研究

《線上社交網路話題發現及演化機理與計算方法研究》是依託中國人民解放軍國防科技大學,由黃九鳴擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:線上社交網路話題發現及演化機理與計算方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:黃九鳴
  • 依託單位:中國人民解放軍國防科技大學
中文摘要,結題摘要,

中文摘要

以微博、即時聊天等為代表的線上社交網路大數據,具有多源性、多樣性、文本碎片化、高速產生、時空相關性大等特點,與傳統Web數據存在顯著差異,給話題發現與演化分析帶來了巨大挑戰。社交網路的話題發現與演化分析指通過挖掘線上社交網路套用中的數據內容,提取發現隱含著的話題及話題的時空變化規律的過程,其研究對人類社會研究、情報分析、輿情分析、網路行銷等方面有巨大參考價值。本項目圍繞線上社交網路數據特點帶來的可理解性、準確性、時效性和演化性問題,從話題模型、話題發現、話題演化分析三個層面研究相關理論、方法和關鍵技術。首先,設計一種粒度動態可調的話題模型,以更好地匹配用戶意圖;在此基礎上,面向碎片化、多源頭信息流,採用高效剪枝和並行化實現準確的實時話題發現與跟蹤技術;然後,從話題相互關聯性和話題時空演變性兩個角度分別研究演化機理,提出相關關鍵技術;最後,構建實現一個線上社交網路話題發現與演化分析原型系統。

結題摘要

近年來,線上社交網站、微博、部落格、論壇、維基等社交網路套用的出現和迅猛發展,使得人類使用網際網路的方式產生了深刻變革——由簡單信息搜尋和網頁瀏覽轉向網上社會關係的構建與維護、基於社會關係的信息創造、交流和共享。線上社交網路的話題發現及演化分析,旨在提取發現隱含的話題及話題的變化規律。 線上社交網路具有用戶眾多、信息實時、瞬間互動、傳播迅速等特點,傳統面向長文本的話題發現與演化分析技術,套用在社交網路數據上時面臨諸多挑戰:(1)信息多源、形式多樣性帶來的可理解性問題;(2)數據內容簡短、噪音大及非內容性特徵多帶來的準確性問題;(3)海量、快速產生的信息產生帶來的計算時效性問題;(4)話題內涵隨時空演變和漂移帶來的演化性問題。 針對上述挑戰,本項目圍繞線上社交網路數據特點帶來的可理解性、準確性、時效性和演化性問題,從話題模型、話題發現、話題演化分析三個層面研究線上社交網路話題分析的理論、方法和關鍵技術,探索話題形成和演化的機理,在動態粒度話題模型、實時話題發現技術、話題多維關聯分析、話題時空演化分析與預測等方面取得突破性進展,推進話題發現與演化分析理論與技術在社交網路分析中的套用。 本項目的研究取得了基於用戶意圖的動態話題模型、單遍掃描的實時熱點話題檢測算法、細粒度話題演化與關聯關係分析模型、基於行為的話題轉發預測方法,以及支撐稀疏特徵計算的特徵表示和相似度計算方法等一系列理論成果,初步形成了多通道、碎片化網路文本數據的話題分析理論體系。在此基礎上,突破了包括水軍檢測等在內的一系列套用技術,實現了原型系統並在用戶單位進行探索性套用。 相關成果的大規模實驗數據集上驗證了有效性。其中,社交網路用戶意圖的挖掘,比傳統基於LDA的方法提升了20%。快速熱點話題檢測方法無需事先分詞,準確率達89%,時空開銷僅為基準算法的2%。話題流行度預測方面,比傳統方法提升了將近10%。 項目的主要科學意義包括:(1)創新性地將用戶意圖與話題發現進行結合,解決了話題粒度標準難以確定的問題;(2)突破了實時流數據的熱點話題發現計算速度問題,採用單遍掃描方法和自適應重構索引來控制性價比;(3)大幅提升了傳統爆發式話題檢測結果的可讀性;探索了Dropout機制和基於深度學習的文本相似度計算方法,並結合用戶信息進行流行度與轉發行為預測,有效提升了預測的準確率。

相關詞條

熱門詞條

聯絡我們