基於信息重組的多文檔自動文摘技術

《基於信息重組的多文檔自動文摘技術》是依託哈爾濱工業大學,由徐永東擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於信息重組的多文檔自動文摘技術
  • 依託單位:哈爾濱工業大學
  • 項目類別:青年科學基金項目
  • 項目負責人:徐永東
  • 支持經費:20(萬元)
  • 研究期限:2009-01-01 至 2011-12-31
  • 負責人職稱:副教授
  • 申請代碼:F0211
  • 批准號:60803092
項目摘要
本申請以多文檔信息重組為基礎核心,建立一個適合多任務的中文多文檔自動文摘模型。在剖析多文檔主題結構的基礎上,深入研究了文本片段相似度計算、多文本主題結構分析、關鍵信息抽取、文摘句冗餘消除、時序排列、文摘評測等一系列關鍵技術並最終建立起一個高效、準確的漢語多文檔自動文摘系統。在最為關鍵的多文本信息重組算法中,引入了更為接近文本集合真實內容的層次主題結構的概念,以及動態變閾值文本片段聚類的層次主題結構識別算法。在多文檔關鍵信息抽取策略上,通過文本單元信息量化模型以及多知識源的並行融合算法實現了針對不同文摘需求的關鍵信息抽取。最後本申請還提出了基於模糊標註的多文檔文摘評測方法,實現了多文檔文摘定量、客觀評測。本申請的相關研究成果能夠進一步促進相關漢語自然語言處理技術的發展,同時,一個可行的多文檔自動文摘模型對於加快人們對網路信息的處理速度與準確率具有重要的實際套用價值。

相關詞條

熱門詞條

聯絡我們