融合文本內容與結構信息的話題分析方法研究

《融合文本內容與結構信息的話題分析方法研究》是依託復旦大學,由黃萱菁擔任項目負責人的面上項目。

基本介紹

  • 中文名:融合文本內容與結構信息的話題分析方法研究
  • 依託單位:復旦大學
  • 項目類別:面上項目
  • 項目負責人:黃萱菁
項目摘要,結題摘要,

項目摘要

近年來社會媒體在我國取得了蓬勃發展,所發布和傳播的信息提供了人們在日常生活中爭相討論的熱門話題,對社會輿論產生了廣泛的影響力。由於傳統的話題分析研究主要以新聞報導作為處理對象,無法充分結合社會媒體所具有的信息內容、社交網路和用戶行為等重要特性。因此,本項課題研究具有重要的學術和套用價值。我們擬針對社會媒體,從話題表示與建模、話題發現與跟蹤、話題結構和語義分析等方面開展融合文本內容和結構的話題分析方法研究,具體內容包括:(1)綜合考慮社會媒體的重要特性,建立融合結構和語義的話題表示模型;(2)研究基於非參數貝葉斯方法的話題檢測與跟蹤算法、社會媒體和新聞媒體的關聯挖掘方法、話題傳播分析與預測算法;(3)根據所構建的話題表示模型,研究基於結構化機器學習的話題結構和語義框架分析算法,以及基於主題模型的話題關鍵字抽取算法。通過本項課題研究,我們擬在CCF推薦的國際學術會議或期刊發表論文15篇以上。

結題摘要

近年來社會媒體在我國取得了蓬勃發展,所發布和傳播的信息提供了人們在日常生活中爭相討論的熱門話題,對社會輿論產生了廣泛的影響力。本項課題研究針對社會媒體,從話題表示與建模、話題發現與跟蹤、話題結構和語義分析等方面開展融合文本內容和結構的話題分析方法研究,具體內容包括:(1)綜合考慮社會媒體的重要特性,建立融合結構和語義的話題表示模型;(2)研究基於非參數貝葉斯方法和深度學習方法的話題檢測與跟蹤算法、話題傳播分析與預測算法;(3)根據所構建的話題表示模型,研究基於深度學習的話題結構和語義框架分析算法,以及基於主題模型和深度學習的話題關鍵字抽取算法。 經過四年多的研究,課題組取得了諸多研究成果,圓滿完成了課題實施目標。在數據方面,我們從新浪微博和Twitter兩個典型的社會媒體套用入手,分別構建了中英文語料庫,其中中文語料庫包含200萬核心用戶,英文語料庫包含100萬核心用戶,同時,我們也下載了這些用戶所發表的超過20億條微博內容。我們所構造的語料庫已通過中國中文信息學會社會媒體處理專委會向國內超過100家科研機構免費進行了分享。 在算法方面,我們提出了融合結構和語義的話題表示模型,以及有關社會媒體話題檢測與跟蹤、話題結構和語義分析的一系列算法和方法,在中國計算機學會(CCF)推薦的國際學術會議或期刊發表論文 41篇,含CCF推薦A類會議或期刊23篇,B類會議或期刊17篇;申報和授權發明專利 2 項。 在人才培養方面,我們打造了多學科交叉融合的學術團隊,培養了博士研究生4名,碩士研究生21名。其中,項目負責人黃萱菁被評為2015年度上海市教育系統巾幗建功標兵;課題組主要參與人員張奇獲得2015年度ACM 上海新星提名獎、2016年度“錢偉長中文信息處理科學技術獎—漢王青年創新獎”;課題組主要參與人員邱錫鵬獲得2018年度“錢偉長中文信息處理科學技術獎—漢王青年創新獎”。2018屆博士生陳新馳獲得了2018年度中國中文信息學會“優秀博士論文獎”。

相關詞條

熱門詞條

聯絡我們