漢語框架語義依存圖自動抽取關鍵技術研究

漢語框架語義依存圖自動抽取關鍵技術研究

《漢語框架語義依存圖自動抽取關鍵技術研究》是依託山西大學,由李茹擔任項目負責人的面上項目。

基本介紹

  • 中文名:漢語框架語義依存圖自動抽取關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:李茹
  • 依託單位:山西大學
項目摘要,結題摘要,

項目摘要

語義依存圖是進行深層次語義分析的一種語言模型。漢語框架語義依存圖是基於漢語框架網對漢語句子語義結構的一種形式化表示,提取一個句子的框架語義依存圖就意味著抽取了這個句子的語義骨架。漢語框架語義依存圖自動抽取技術研究在國內外尚屬首次。本項目基於山西大學的漢語框架網工程,研究面向漢語句子深層語義理解的框架語義依存圖自動抽取關鍵技術,研究內容包括(1)漢語框架語義依存圖的表示,並建立漢語框架語義依存圖的標註規範;(2)頂層目標詞的識別及目標詞所屬框架的選擇;(3)框架元素語義角色及語義關係的自動標註;(4)零形式核心框架元素的識別和自動填充;(5)建立面向漢語框架語義依存圖提取的標註語料庫,研發一個漢語框架語義依存圖自動抽取工具軟體。本項目的研究成果將為實現漢語句子語義的深層次理解提供新的途徑,為基於漢語框架網的篇章事件推理奠定基礎,對自然語言處理相關領域的研究有著重要的理論意義和套用價值。

結題摘要

語義分析是自然語言處理領域最重要也是最為困難的問題。目前針對漢語的語義分析研究主要集中在字、詞以及淺層句法語義分析階段,難以滿足許多套用領域中更深入的語義分析需求。因此如何選擇適合於漢語的語義分析路線,獲得更深入、準確的語義分析效果是目前漢語語義分析所面臨的關鍵問題。本項目針對漢語句子的語義結構表示問題,提出了句子的框架語義依存圖模型,系統地研究了框架語義依存圖自動抽取的關鍵技術。項目開展以來,課題組按照契約計畫實施,超額完成了原定契約任務。項目的研究結果與關鍵數據包括:(1)建立了句子的框架語義依存圖模型,包括句子的單框架語義依存圖、核心框架語義依存圖及完全框架語義依存圖的表示及規範;(2)構建了面向框架語義依存圖抽取中各項任務的標註語料,包括CFN三庫補充,針對框架排歧、目標詞識別、框架元素核心詞提取、框架元素標註以及零形式識別任務的語料庫;(3)實現了基於最大熵模型及相似度方法的未登錄目標詞識別,並獲得了94.17%的識別準確率;建立了基於依存特徵以及特徵自動選取的框架排歧方法,並最終獲得了81.46%的排歧準確率;(4)實現了基於依存特徵的框架元素自動標註模型,獲得了65%左右的標註F值;建立了框架元素語義核心成分提取規則以及機器學習模型,最終針對簡單型與複合型的框架元素語義核心詞識別準確率分別達到了97.34%與94.03%;(5)建立了零形式框架元素識別與分類的規則集與模型;在國際評測語料中,零形式檢測與分類的F值分別為74.5%、50%,優於目前最好的評測結果。(6)探索了基於框架語義分析的句子語義相似度計算、文本蘊含及文本摘要等套用研究。項目的研究成果為實現漢語句子的語義理解提供了一條有效途徑,對自然語言處理相關領域的研究有著重要的理論意義和套用價值。

相關詞條

熱門詞條

聯絡我們