面向社會輿情的中文事件抽取及其可信度計算的研究

面向社會輿情的中文事件抽取及其可信度計算的研究

《面向社會輿情的中文事件抽取及其可信度計算的研究》是依託蘇州大學,由李培峰擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向社會輿情的中文事件抽取及其可信度計算的研究
  • 項目類別:面上項目
  • 項目負責人:李培峰
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

網際網路為社會公眾提供了前所未有的輿情表達新手段,如何從海量輿情信息中獲取有價值內容成為目前急待解決的一大挑戰。事件作為表述社會輿情語義的基本要素,從海量文本中抽取事件並計算其可信度是快速、及時、高效地分析社會輿情的基礎。本項目將在話題結構理論和語義一致性理論的指導下,根據中文所特有的語言特點,研究面向社會輿情的中文事件抽取及其可信度計算方法,重點解決其信息缺失問題、全局最佳化問題和可信度計算問題。主要特色如下:(1)基於話題結構理論,提出了新穎的跨事件、跨實體和跨角色的事件推理方法,解決中文事件預設問題;(2)基於語義一致性理論,提出了根據事件間內在關係進行事件抽取的聯合學習模型,解決全局最佳化問題;(3)基於篇章結構理論和事件間的關聯性,提出了一個利用貝葉斯網路進行推理的事件可信度計算模型。本項目對於探索人類語言理解的認知機理,推動面向社會輿情分析的語義知識獲取方法的發展,具有重要的科學意義。

結題摘要

網際網路為社會公眾提供了前所未有的輿情表達新手段,如何從海量輿情信息中獲取有價值內容成為目前急待解決的一大挑戰。事件作為表述社會輿情語義的基本要素,從海量文本中抽取事件並計算其可信度是快速、及時、高效地分析社會輿情的基礎。本項目將在話題結構理論和語義一致性理論的指導下,根據中文所特有的語言特點,研究面向社會輿情的中文事件抽取及其可信度計算方法,重點解決其信息缺失問題、全局最佳化問題和可信度計算問題。具體研究內容和解決問題如下:(1)針對語言表述的多樣性和信息缺失問題,本項目提出了一種基於論元一致性和事件相關性的聯合論元推理模型,利用各種基於論元一致性的方法來揭示多維度的事件論元語義,從而抽取信息缺失的事件論元;(2)針對部分貧信息事件實例難以抽取的問題,項目組提出了基於語義的中文事件觸發詞抽取聯合學習模型,解決了事件抽取的全局最佳化問題。首先,根據中文句子結構靈活和句法成分多省略的特點,提出了基於模式匹配的核心論元和輔助論元抽取方法;其次,根據同一文檔中關聯事件實例間存在的高度一致性,構造了一個關聯事件語義驅動的中文事件觸發詞識別和類型分配二維聯合模型,用於抽取貧信息事件實例;(3)針對事件可信度計算問題,項目組提出了一個二級框架的事件可信度計算方法。先從原始文本中提取與事件真實性有關的要素作為輸入,然後通過具有輔助分類的生成性對抗網路(AC-GAN)對事件真實性進行識別。AC-GAN允許模型學習更多的句法信息,能解決事實值之間的不平衡。

相關詞條

熱門詞條

聯絡我們