多文檔事件信息融合方法的研究

多文檔事件信息融合方法的研究

《多文檔事件信息融合方法的研究》是依託蘇州大學,由李培峰擔任項目負責人的面上項目。

基本介紹

  • 中文名:多文檔事件信息融合方法的研究
  • 項目類別:面上項目
  • 項目負責人:李培峰
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

目前主流的事件抽取方法一般基於單一文檔,所獲得的事件信息不完整(如信息缺失)和語義不夠明確(如代詞指代)。同時,很多事件在網際網路中存在關於該事件的大量報導,如果能把這些報導有效融合起來,就可能獲得一個表述完整、語義明確的事件描述。相關研究尚屬空白。本課題通過對零形指代項識別、多文檔單一事件信息融合和多文檔複雜事件信息融合等關鍵技術的研究,重點解決事件信息抽取中事件信息的完整性和語義明確性兩大問題。特別是,本課題從單文檔中事件的上下文信息和多文檔中事件的結構化和平面信息等方面入手,提出了新穎的基於結構化信息的零形指代項識別方法、事件相似度計算模型、事件元素可信度評價模型和用於複雜事件融合的單一事件間的關聯度模型,用於進一步提高單一事件和複雜事件信息的完整性及明確其語義。通過本課題的研究,可獲得內容更完整和更全面,語義更明確的事件信息,從而可為各種需要語義信息支撐的自然語言處理技術服務。

結題摘要

本課題在對預設信息識別、事件抽取、單一事件信息融合和跨文本事件信息融合等關鍵技術進行研究的基礎上,提出了新穎的事件抽取和融合方法,主要解決事件信息抽取中事件信息完整性和語義明確性問題,實現了一個高性能的中文事件抽取和融合平台,性能達到國際領先水平,為將來的進一步研究打下了紮實的基礎。 三年來,課題總體進展順利,所有研究計畫已按要求完成,達到預期目標。特別是:(1)在中文預設項識別和消解方面:針對中文預設研究缺乏語料的現狀,分別基於CTB 5.1和OntoNotes 3.0手工標註用於中文預設項識別的基準語料庫。在此基礎上,提出了基於最小IP子樹的預設項識別方法和基於聯合句法分析和分塊依存分析的預設項消解方法。該方法和現有最好方法相比,在中文OntoNotes 3.0上預設項識別和消解的F1值分別提高了12.6%和6.8%;(2)在中文事件抽取方面:針對中文事件信息預設問題,提出了基於觸發詞形態結構(Morpholoogical Structure)和核心語素(Head Morpheme)的中文觸發詞擴展方法,從而大大提高了中文事件抽取的性能。另外,針對同一文檔中事件之間的內在關聯性,提出了基於一致性原理的事件抽取方法,用於抽取缺乏有效信息的事件實例。在ACE 2005中文語料上的實驗表明,這些方法和現有最好的句子級別事件抽取方法相比,在F1值上總提高達到了15.0%以上;(3)在單文檔事件融合方面:針對中文事件論元大量預設的問題,提出了基於話題結構理論和事件間相關性的事件融合模型。該方法在ACE 2005中文語料庫上F1值在論元抽取上提高了4.3%;(4)在跨文本事件融合方面:初步探索了跨文本事件融合方法,提出了一種以句法分析為基礎,以語義角色標註為基本系統框架的跨本文信息抽取和融合方法,提出了一種以層次聚類和可信度計算為核心的事件信息融合模型。在金融事件和恐怖事件上的實驗表明,其準確率達到80%左右。 三年來,發表SCI索引源期刊論文2篇、EI索引源期刊論文7篇、國際頂級會議IJCAI/ACL/EMNLP/COLING論文5篇;國核心心期刊論文20篇;申請專利7件,獲得授權3件;獲得軟體著作權9項。

相關詞條

熱門詞條

聯絡我們