《新聞與社交媒體協同的主題演化摘要研究》是依託華中師範大學,由胡珀擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:新聞與社交媒體協同的主題演化摘要研究
- 項目類別:青年科學基金項目
- 項目負責人:胡珀
- 依託單位:華中師範大學
項目摘要,結題摘要,
項目摘要
現有主題摘要研究普遍忽視了主題在網路傳播中的動態性與跨媒體協同共振性,因而缺乏對主題的多維聯合觀察及動態深度解析。鑒於此,本項目提出將主題摘要範疇從單信息源下的靜態文本拓展到多信息源下的動態文本,以生成新聞與社交媒體聯合的主題演化摘要為目標。針對此目標,我們提出了建立跨媒體文本間語義联系的混合關聯方法,既能緩解社交文本的數據稀疏問題,又能擴充新聞文本缺失的社會維度;為了克服主題分析大多僅針對同質文本且分析結果僅包含同種類型對象的局限性,我們提出了基於異質對象協同建模分析的子主題發現方法,能自動聚合不同類型的對象來協同詮釋子主題;為了生成聯合視角下反映主題發展演化軌跡的摘要序列,我們提出在統一的框架下融合對信息覆蓋性、多樣性、跨媒體互補性、連貫性等多因素的平衡最佳化策略。本研究對揭示異質的跨媒體信息在組織、挖掘與提煉主題要旨及主題發展動態方面的協同價值具有重要的意義。
結題摘要
按研究計畫書要求,我們按時完成了本項目的主要研究內容,實現了預期的研究目標。在項目執行中,我們系統探索了主題演化摘要生成中的若干關鍵問題,圍繞獲取並建立不同媒體文本間的語義联系,發現文本集中的隱含主題及其關係,從多視角、多因素聯合的角度生成主題演化摘要等方面開展研究,提出了一系列有效的解決方案。(1)針對主題相關的跨媒體信息獲取及融合,我們提出了改進的基於主題信息融合的檢索模型,能將文本中主題語義信息融入到檢索模型中,提高相關媒體文本信息的獲取質量。在跨媒體信息融合方面,我們提出了一種基於詞嵌入學習的方法,可將不同類型的文本通過變換映射到具有相同維度的低維稠密向量空間,以克服傳統文本淺層匹配時的辭彙語義鴻溝問題,提高異質媒體文本關聯計算的精度。此外,我們還提出了融合媒體內容特徵、語義距離及時間特徵的回歸模型自動建立跨媒體文本間的語義联系;(2)針對主題發現及演化分析,我們提出了基於改進Bayesian Rose Trees的主題發現技術,該技術綜合考慮類簇間的層次語義與主題間的內容相似度,能及時發現主題並建立主題層次樹。提出的基於KL散度的加權計算可對同一時間段內及相鄰時間段間的主題做關聯分析並解析主題的發展演化過程;(3)針對多視角下的主題要點提煉及演化摘要生成,我們提出了一種基於主題增強的抽取式演化摘要生成方法,該方法綜合了相關性、冗餘性、連貫性、新穎性和互補性來最佳化全局時間軸摘要的生成。為了改善局部主題摘要的質量,我們提出了基於超圖的協同抽取方法及基於次模函式的社交媒體摘要方法,前一種方法能利用句子與詞之間的高階關係來生成新聞、社交媒體的摘要及關鍵字,後一種方法通過內容相關性、多樣性、主觀情感覆蓋性來最佳化摘要的生成。此外,我們還探索提出了基於神經網路的生成式摘要模型,通過聯合注意力機制將文本主題信息自然融入到摘要句的生成過程中以改善摘要質量。基於上述研究,我們獲得第十二屆國際自然語言處理與知識工程學術會議的最佳論文獎,申請並獲得軟體著作權授權5項,在ACL、WWW、自動化學報、中文信息學報等國際國內重要學術會議及期刊上發表(含錄用)學術論文10餘篇。設計開發的中文生成式自動摘要系統參與由中國計算機學會中文信息技術專委會組織的NLPCC 2017自動文摘評測比賽,取得了所有參賽隊中排名第一的最佳成績。