篇章結構分析及基於雙語投射的篇章標註方法研究

《篇章結構分析及基於雙語投射的篇章標註方法研究》是依託北京理工大學,由鑒萍擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:篇章結構分析及基於雙語投射的篇章標註方法研究
  • 依託單位:北京理工大學
  • 項目負責人:鑒萍
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

自然語言處理經歷了幾十年的發展,分析的對象從字、詞、短語到句子,自然而且必然地進入了篇章這一層面。在統計自然語言處理思想和語料庫語言學盛行的今天,隨著賓州篇章樹庫的發布,學者們開始嘗試藉助各種機器學習方法,通過對篇章關係的標註來解釋篇章結構,引發了篇章結構分析的熱潮。但是,由於篇章問題的複雜性,篇章關係分析的核心部分- - 隱式關係的判別,其準確率沒有超過50%。這也是篇章分析處於起步階段的最好證明。本項目首先將矛頭指向這一難題。漢語方面,目前最大的問題是沒有大規模的篇章語料庫, 嚴重製約了漢語篇章的研究和套用。而篇章語料庫的標註又無疑是一項難度大、費時費力的工程。在本項目中,我們希望藉助漢英雙語平行樹庫這一資源,通過對英語端的篇章分析,來得到漢語的篇章關係標記。無論將獲得的漢語篇章語料作為種子語料,還是視其為一種篇章標註的框架,都將是未來構建大規模漢語(甚至其它語言)篇章語料的便捷途徑。

結題摘要

篇章上下文信息的利用是自然語言理解的瓶頸之一。本課題研究PDTB模式下的篇章結構分析方法,搭建了英語和漢語端到端(end-to-end)篇章結構分析平台;針對關係論元邊界識別和隱式關係判別兩個難點問題,提出了基於語義依存的一體化分析方法,將論元邊界識別和關係判別、顯式關係和隱式關係判別統一到了一個分析模型下,以此為基礎,設計並實現了新的英語、漢語篇章結構分析框架;提出了基於word embedding的篇章關係分析方法,提升了英語隱式關係分析性能。針對漢語篇章結構標註數據匱乏問題,基於英漢雙語語料,提出了基於投射的篇章語料庫構建方法,並基於此標註了320篇漢語篇章語料。課題還開展了篇章上下文信息在機器翻譯中的套用研究,最長名詞短語識別方法研究和漢語拼寫錯誤檢查與修正研究,在國內國際評測中獲得了理想的成績。課題執行期間,共發表和錄用學術論文11篇,申請和授權發明專利各1項。

相關詞條

熱門詞條

聯絡我們