漢語篇章結構分析的資源建設與計算模型研究

項目摘要

篇章結構分析針對篇章的連貫性,是篇章級語義分析的基礎。目前自然語言處理研究的重點聚焦在詞法和句法層面，對篇章內在規律的研究相對較少，缺乏對篇章進行有效分析的理論和計算方法，從而嚴重製約了基於篇章的相關套用。本項目將從理論體系完善、語料庫構建和計算模型研究等方面系統開展漢語篇章結構分析的研究：（1）從研究漢語篇章結構組織的規律和特點入手，建立一套適用於漢語篇章結構表示與分析的理論體系。擬採用一種連線依存樹的形式表示漢語的篇章結構，並基於連線詞構建漢語的篇章關係體系。（2）提出一套漢語篇章結構標註規範，並結合自舉學習和主動學習方法半自動構建一定規模的高質量漢語篇章結構標註資源。（3）以子句為基本單位，自底向上，借鑑依存句法分析算法，分析篇章中的層次結構及各組成成分之間的結構關係。有指導性和無指導性方法雙管齊下，重點解決隱式（連線詞預設）篇章結構關係的識別。

結題摘要

篇章級結構分析針對篇章的連貫性，是篇章級語義分析的基礎。目前自然語言處理研究的重點聚焦在詞法和句法層面，對篇章內在規律的研究相對較少，缺乏對篇章進行有效分析的理論和計算方法，從而嚴重製約了基於篇章的相關套用。本項目從理論體系探索、語料庫構建和計算模型研究等方面系統開展了漢語篇章結構分析的研究，主要研究成果包括：（1）提出了基於連線依存樹（Connective-driven dependency tree）的漢語篇章結構表示機制，該機制融合了PDTB和RST分別重視連線詞和篇章層次結構的優點；（2）建立了漢語篇章結構標註規範，建成了一個包含500個文檔9000多個篇章關係的漢語篇章結構語料庫（CDTB1.0）；（3）基於上述標註語料庫，系統研究了漢語小句、篇章層次、篇章關係及連線詞等識別算法，實現了一個端到端的漢語篇章結構分析器。本項目的研究豐富和深化了漢語篇章結構形式分析的理論研究，奠定了漢語篇章結構計算分析的資源基礎與算法基礎，並為篇章翻譯、文本摘要等相關研究奠定了紮實的理論、資源及技術基礎。

漢語篇章結構分析的資源建設與計算模型研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條