基於推理現象的中文文本推理資源建設和自動分析研究

基於推理現象的中文文本推理資源建設和自動分析研究

《基於推理現象的中文文本推理資源建設和自動分析研究》是依託武漢大學,由任函擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於推理現象的中文文本推理資源建設和自動分析研究
  • 項目類別:青年科學基金項目
  • 項目負責人:任函
  • 依託單位:武漢大學
項目摘要,結題摘要,

項目摘要

影響文本推理系統性能的一個重要因素是推理系統能否識別多樣化的推理類型。推理現象的研究有助於識別各種推理類型,然而目前相關研究非常缺乏,也沒有建立相關的大規模標註資源和分析模型。本項目擬研究漢語推理現象的自動識別,並基於推理現象進行推理判斷。為此,本項目將深入考察漢語結構特點,研究漢語推理現象的表現形式,據此建立一個漢語推理現象標註資源。在此基礎上,本項目將研究推理現象的自動識別,包括語義單元的自動識別和推理現象的自動識別,提出並研究基於推理現象的貝葉斯信念網路推理模型,並利用該模型進行文本自動推理。本項目有助於研究漢語文本推理的特點及相關推理現象,探討面向漢語文本推理的深層理解方法,推動中文文本推理的平台建設,並評估現有文本推理系統的性能。

結題摘要

本項目通過研究漢語文本推理中的各類推理關係,建立一個漢語文本推理現象標註框架及標註資源,在此基礎上提出了推理現象的自動識別模型,並以此建立了漢語文本推理的自動分析方法。對於推理現象標註框架及資源,本研究將推理現象分為替換、省略和解釋三大類,在此基礎上建立了一個包含29種推理現象的標註體系,並建立了一個包含5000個文本推理對的數據集。這一方案通過將文本間的外在形式變化與內在的語義轉換建立聯繫,從而建立了一套適合機器自動分析的漢語語義推理機制以及相應的標註資源。對於推理現象識別和總體推理關係判斷,本研究設計並實現了從推理單元識別、推理現象識別到總體推理判斷的串列識別和聯合識別方案,並通過實驗驗證了其有效性。該方法不僅有效提高了文本推理的性能,而且其分析過程具有可解釋性。對於系統套用,本研究將文本推理方法套用於自動問答和情緒識別兩個自然語言處理套用中。基於推理現象的文本推理方法的套用使上述系統具備一定的深度理解能力。實驗表明該方法在一定程度上改進了系統性能。本項目的主要成果包括:(1)在中文信息學報、湖北社會科學(CSSCI)等期刊和CCL、CLSW等國內外自然語言處理會議發表論文16篇;(2)建立了一個包含5000個文本對,共14272個推理現象的標註數據集,其中推理單元的標註一致率為77.56%,推理現象的標註一致率為86.23%;(3)實現了一個推理現象標註平台; (4)設計並實現了一個基於推理現象識別的文本推理系統,並參加了NTCIR-11國際評測,取得第二名的成績;(5)設計並實現了基於文本推理的自動問答和情緒識別系統;(6)將本研究方案套用於漢語篇章結構語料庫的構建以及隱式情緒識別研究。

相關詞條

熱門詞條

聯絡我們