基於馬爾科夫樹與DRT的漢語句群自動劃分算法研究

基於馬爾科夫樹與DRT的漢語句群自動劃分算法研究

《基於馬爾科夫樹與DRT的漢語句群自動劃分算法研究》是依託杭州電子科技大學,由王榮波擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於馬爾科夫樹與DRT的漢語句群自動劃分算法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:王榮波
  • 依託單位:杭州電子科技大學
項目摘要,結題摘要,

項目摘要

句群自動劃分是自然語言處理中的重要課題,在機器翻譯、篇章理解、信息檢索等領域有廣泛套用前景。針對現有漢語句群劃分方法未充分利用句子上下文信息及句間關聯信息的不足,本項目利用篇章表述理論(DRT)能動態地描述自然語言意義的特性,提出一種基於馬爾科夫樹和DRT理論的漢語句群自動劃分方法。主要研究內容包括:(1)漢語句群構成特點分析;(2)漢語段落的馬爾科夫樹表示和句群自動劃分算法;(3)DRT理論中篇章表述結構(DRS)構造算法;(4)DRT理論的語義解釋模型。本項目研究的難點和核心問題在於構建馬爾科夫樹對漢語段落進行層次表示並利用動態規划算法實現句群自動劃分,以及提出改進的DRS和語義解釋模型對句群劃分結果進行修正。本項目研究對於豐富漢語句群劃分理論與方法,具有重要的建設性意義,同時為自然語言處理中從句法結構表示向語義形式表示轉化提供了一種普適的方法,彌補了目前在語篇語義表征方法方面的不足。

結題摘要

句群自動劃分是自然語言處理中的重要課題,在機器翻譯、篇章理解、信息檢索等領域有廣泛套用前景。針對現有漢語句群劃分方法未充分利用句子上下文信息及句間關聯信息的不足,圍繞著項目的研究目標,本項目從漢語句群構成特點分析、漢語段落的馬爾科夫樹表示和句群自動劃分算法、DRT 理論中篇章表述結構(DRS)構造算法和DRT 理論的語義解釋模型等方面開展研究,成果體現在如下幾個方面:首先,在漢語句群特點分析方面,側重於對漢語句子的語義組塊進行分析,主要以漢語的賓州樹庫作為語料資源,使用機器學習的方法建立統計語言模型,改進了組塊分析相關任務的語義角色標註。其次,在漢語段落的馬爾科夫樹表示和句群自動劃分方面,分析了漢語句群構成特點,針對目前句群劃分工作缺乏計算語言學數據支持、忽略篇章銜接詞的問題以及當前篇章分析較少研究句群語法單位的現象,以漢語句群理論為指導,提出一種基於多元判別分析( MDA) 方法的漢語句群自動劃分方法。再次,在句群語料收集方面,構建了漢語句群劃分標註評測語料,彌補目前該領域缺乏公共評測語料的問題。最後,在對句群劃分結果進行評價和修正方面,通過評價函式J得到段落的最優句群劃分結果後,採用了Pμ評價方法和WindowDiff 評價方法對句群劃分結果正確性進行評價。總之,作為一項自然語言語篇理解方面的探索性研究工作,課題組在篇章句群識別和劃分這一方向做了深入研究,並逐步將句群研究套用到自然語言處理的其它熱點方向,如自動摘要、句子結構分析等。項目組共發表7篇期刊論文,其中SCI收錄期刊1篇,EI收錄1篇,培養碩士生7名。

相關詞條

熱門詞條

聯絡我們