Web社會網路用戶與內容建模研究

Web社會網路用戶與內容建模研究

《Web社會網路用戶與內容建模研究》是依託廈門大學,由林琛擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:Web社會網路用戶與內容建模研究
  • 項目類別:青年科學基金項目
  • 項目負責人:林琛
  • 依託單位:廈門大學
項目摘要,結題摘要,

項目摘要

Web社會網路是當前信息科學領域的熱點。對這種新型Web平台上的用戶行為模式和用戶創造內容(User Generated Content)進行建模,不但對Web社會網路分析具有很高的科研價值,而且來自於信息檢索和推薦等大量的實際套用需求。然而,Web社會網路的低可信度、豐富語義和複雜結構以及高度動態性對傳統的文本挖掘技術提出了挑戰。目前學術界對於Web社會網路的這三方面研究還不深入。本項目擬針對這三個挑戰,對Web社會網路的用戶和用戶創造內容展開可信度、語義和結構、以及動態建模的系統研究。.本項目擬達到如下目標:(1)提出用戶創造內容的質量預測、基於層次結構的主題提取、增量式動態主題提取、可信用戶識別、上下文相關的用戶興趣發現以及動態用戶興趣建模等關鍵技術;(2)將以上研究成果套用到情景感知和動態的推薦及可信信息檢索系統上,並參加相關權威評測;(3)發表學術論文10篇以上。

結題摘要

近年來,隨著大量Web社區、社交媒體和微博的湧現,國際國內對於Web社會網路的研究成為熱點。在此背景下,本項目重點研究Web社會網路上的用戶與用戶創造內容,從可信度、語義和結構、以及動態建模三方面入手,提出了一系列針對Web社會網路的建模方法,並套用在檢索、摘要和推薦等多種創新套用中。其中,重要成果包括:研究了不同形式的用戶創造內容的質量預測問題,提出了對論壇帖子、問題回答的質量等靜態“可信度”分類特徵和集成分類方法;以及對微博與事件時效性的動態“可信度”預測方法,並結合語言模型中的偽相關反饋套用在微博實時檢索中。研究了可信用戶識別問題,從隱反饋中構建虛擬社會網路,並改進PageRank算法尋找專家用戶。研究了大規模相似文本發現問題,改進了PassJoin算法,並基於MapReduce框架提出了基於編輯距離的相似文本發現的一種快速實現方法。研究了上下文相關的用戶興趣發現,提出了基於命名實體的用戶興趣表達,和矩陣填充算法解決稀疏性問題,並統一在矩陣分解框架中。研究了微博實時檢索、微博事件摘要、新聞推薦等Web社會網路上的創新套用。本項目所提出的Web社會網路建模方法對於大數據時代的自然語言處理和機器學習領域的其他研究課題具有借鑑意義,各項創新套用具有商業價值,並已得到了騰訊、百度等網際網路公司的課題資助。項目發表論文36篇,其中JCR 2區論文2篇,JCR 3區論文2篇,SCI論文總計7篇;CCF A類會議1篇,CCF B類會議3篇;EI論文合計22篇。項目培養研究生6名。

相關詞條

熱門詞條

聯絡我們