信息多樣性和信息摘要的關鍵問題研究

《信息多樣性和信息摘要的關鍵問題研究》是依託清華大學,由黃民烈擔任項目負責人的面上項目。

基本介紹

  • 中文名:信息多樣性和信息摘要的關鍵問題研究
  • 依託單位:清華大學
  • 項目負責人:黃民烈
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

如何保證信息的多樣性是許多信息處理問題中的共性問題,廣泛地存在於信息檢索、文檔摘要、自動問答、推薦系統、信息網路挖掘等任務中。本課題旨在解決信息多樣性中的兩個關鍵科學問題:(1)信息多樣性的基本描述單位和度量方法,即什麼樣內容具有信息多樣性以及多樣性的程度如何;(2)給定信息需求,如何獲得滿足信息多樣性要求的信息內容摘要,以最大程度地滿足所有用戶。我們的總體目標是提出描述信息多樣性的表示與度量方法,建立統一計算框架使之產生滿足多樣性要求的信息內容。在這個框架中,不同粒度的信息被統稱為信息單元,用戶需求和信息單元通過子話題空間來描述,信息摘要提供多樣化的、結構良好的,多粒度和多模態的內容。為此,我們將研究信息多樣性的表示和度量方法;研究信息摘要的組織結構及其抽取方法;建立適用於網路信息處理的考慮信息多樣性的摘要算法和理論;研究如何根據信息需求的不同,選擇信息摘要的不同表現粒度和不同模態。

結題摘要

如何保證信息的多樣性是許多信息處理問題中的共性問題,廣泛地存在於信息 檢索、文檔摘要、自動問答、推薦系統、信息網路挖掘等任務中。本項目從幾個方面進行了探索: 1、信息多樣性的表示和度量:提出了從子話題樹結構的層面進行表示和度量的方法,並進一步基於話題樹結構解決信息推薦中的稀疏性問題; 2、信息聚類:如何有效利用先驗知識和社交數據中的自然標註進行自動聚類是一個信息摘要中的重要問題,提出了一種基於統計約束的辭彙短語聚類方法,可以魯棒地處理低頻和高頻的上下文信息; 3、信息摘要算法:提出了一種考慮短語屬性的結構化摘要生成算法,提出了利用“流行度”和“專屬度”這兩個短語屬性進行短語生成式摘要算法; 4、信息的表示和度量:從文檔表示、句子表示、句子對表示、結構化知識表示等多個層面探索了如何進行對文本信息進行表示和度量,分別提出了跨領域的文檔表示,考慮詞性知識的句子表示,建模句子間依賴關係的句子對表示,考慮流型嵌入、關係多義性、子圖結構等多種結構化知識表示模型。 發表CCF A類期刊論文1篇,CCF A類會議論文7篇(主要包括IJCAI、AAAI、ACL、SIGIR等),CCF B類會議論文8篇;申請專利5項,獲得專利授權2項,實現專利技術轉讓2項。 培養博士生3名、碩士生2名。

相關詞條

熱門詞條

聯絡我們