《漢語文本推理的資源建設和統計分析研究》是依託武漢大學,由姬東鴻擔任項目負責人的面上項目。
基本介紹
- 中文名:漢語文本推理的資源建設和統計分析研究
- 項目類別:面上項目
- 項目負責人:姬東鴻
- 依託單位:武漢大學
項目摘要,結題摘要,
項目摘要
文本推理是指文本描述的命題間的邏輯關係,目前主要策略是獲取推理規則並根據規則進行推導。本項目把文本推理的判斷轉化為一個受限的語義依存分析問題,從而以一個嶄新的角度考察文本推理。為此,我們擬建立大規模的漢語文本推理標註資源、探討有效的分析策略並套用於問題回答和關係抽取兩個具體任務。本研究將文本推理從文本蘊涵擴展至預設和隱含,並將這三種推理形式綜合到一個統一的框架中;提出並研究基於語義依存分析的推理判斷且探討基於對數線性的二階段區分性分析模型。本研究有助於處理較複雜的推論形式,探究漢語文本推理的基本特性、比較不同推理形式的異同、評估文本推理對套用系統的貢獻,對推動漢語文本推理評測平台的建設也有重要意義。
結題摘要
按項目申請書的要求我們按時完成本項目所要完成的研究內容。本研究工作主要成果是,針對文本推理的問題,提出以下算法模型:(1)基於受限的語義依存分析的文本推理方法。文本推理的原始問題是:對任一語段T及假設H,判斷T是否可推理出H。為提高文本推理系統的性能,我們將其形式化為一個受限的語義依存分析問題。定義如下:給定語段T及假設H,在T的限制下,對H進行語義依存分析,如果H的語義依存圖存在的機率大於δ ,則T可推理出H;否則無法推理出H。由於語義依存圖是一個帶標記的有向圖,為保證分析效率,我們採用兩個階段分析語義依存結構。整個分析過程分為兩個階段,Phase 1為無向樹分析,Phase II為有向圖分析。兩個階段都採用對數線性模型進行分析。本模型有助於處理較複雜的推論形式,探究漢語文本推理的基本特性、比較不同推理形式的異同、評估文本推理對套用系統的貢獻,對推動漢語文本推理評測平台的建設也有重要意義。( 2 )基於深度學習的文本推理方法。傳統的分類方法很難確定區分性特徵,據此建立的分類器性能不太理想。我們提出一個基於深度學習方法的模型,首先通過一個聯合受限玻茲曼機模型學習T和H的聯合表示層,然後通過聯合層計算出T和H的原始句子表示的重構誤差來判斷推理關係,其中聯合受限玻茲曼機模型的訓練語料是從大規模新聞語料中自動獲取,T和H的原始句子表示通過遞歸自編碼機習得。實驗測試基於RTE評測語料,我們的模型能夠提升文本推理識別的性能。(3)基於事件圖的文本推理方法。為了強化文本蘊含系統深層語義分析與推理能力,我們提出了基於事件圖的中文文本蘊含識別方法。該方法基於事件標註語料生成事件圖,將文本間的蘊含關係轉化為事件圖間的蘊含關係。通過事件圖生成事件語義相似度特徵,並根據矛盾語言現象生成矛盾識別特徵,與傳統統計特徵、辭彙語義特徵和句法特徵結合進行分類,來識別蘊含關係。實驗測試基於NTCIR-RITE中文文本推理評測語料,實驗結果表明基於事件語義特徵的中文文本蘊含識別方法可以更有效地對中文文本蘊含關係進行識別。