多因素融合下的微博話題可信度評估模型及實證研究

多因素融合下的微博話題可信度評估模型及實證研究

《多因素融合下的微博話題可信度評估模型及實證研究》是依託武漢大學,由王平擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:多因素融合下的微博話題可信度評估模型及實證研究
  • 項目類別:青年科學基金項目
  • 項目負責人:王平
  • 依託單位武漢大學
項目摘要,結題摘要,

項目摘要

本項目研究並建立微博話題可信度量化評估模型。首先從理論上研究影響微博話題可信度評估的因素;然後分析微博之間的跟帖關係,並建立擴展的LDA話題模型進行微博話題抽取;最後以話題為粒度對微博可信度進行定量計算。計算微博可信度考慮以下三個因素:(1)微博用戶的可信度;(2)微博和話題之間的關係;(3)微博用戶和微博之間關係。通過建立包含微博用戶、微博、話題這三層的神經網路,並利用這三個因素計算神經網路每條邊的權重,神經網路的輸出值即為話題的可信度值。模型的有效性利用新浪微博數據進行驗證。本項目的研究對於如何有效地挖掘微博數據、如何評估微博質量有著重要的理論意義,也具有廣泛的套用前景。

結題摘要

信息質量一直是信息和圖書情報領域關注的熱點及前沿領域,如何評估多源信息的質量及可信度是本項目研究的重點。本課題以科研學術實體信息和社會媒體微博信息作為研究對象,重點圍繞“國內外信息可信度評估研究進展”、“科研學術實體信息主題提取可信評估以及檢索可視化”、“多維融合下微博信息可信度評估的影響因素”、“社會媒體微博信息摘要生成、話題演化及可信度評估”展開系統深入全面的研究。在科研學術實體信息方面,本課題利用文獻、作者、機構等三類實體間的引用、合著、合作等關係建立異構網路模型,在此基礎上提出了混合隨機遊走算法Co-AcademicRank定量計算文獻、作者、機構的權威度,並基於MapReduce實現了分散式的Co-AcademicRank算法。最後通過對情報學和圖書館學數據集測試與分析,對比分析了PageRank和Co-ranking算法,驗證了本模型的有效性、準確性和優越性。同時,實驗比較了算法在單機環境下和Hadoop平台下的運行時間,證明了分散式算法的高效性和穩定性。同時,針對科技文獻主題多樣、動態性強等特點,分析科技文獻主題發現及演化具體方法,基於層次機率主題模型hLDA,採用Gibbs抽樣來進行模型參數估計,並運用互信息的方法對主題詞進行篩選,以提取高質量的主題詞。最後,利用先/後離散分析方法研究主題隨時間的演化問題。實驗結果驗證了主題發現及演化方法的可行性及有效性。在社會媒體微博信息方面,本課題以新浪微博數據為實驗語料,研究了中文微博摘錄式摘要方法;利用微博的轉發以及評論關係對LDA模型進行了改進,提出了改進的話題模型CFLDA(Comment and Follow Latent Dirichlet Allocation,CFLDA )以更好地抽取微博蘊含的主題;建立了基於主題的微博用戶關係圖模型,在模型中用戶關係強度除了考慮轉發次數、評論次數等因素之外,還考慮了微博之間的主題相關性因素;利用主題的微博用戶關係圖模型和隨機遊走算法計算基於主題的用戶可信度。此外,從微博內容、微博用戶、社交網路及客群能力等四個維度對影響微博話題可信度的因素進行系統分析,並運用結構方程模型對所構建的理論模型及假設進行了實證研究。通過識別微博話題可信度評估的影響因素能為用戶對虛假信息的判別和輿論引導提供借鑑與參考。

相關詞條

熱門詞條

聯絡我們