《句法制導的統計漢語句義分析方法研究》是依託北京大學,由常寶寶擔任負責人的面上項目。
基本介紹
- 中文名:句法制導的統計漢語句義分析方法研究
- 項目負責人:常寶寶
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
自然語言理解的核心是語義的理解,長期以來,缺乏健壯可靠的語義分析技術一直是制約各類自然語言處理套用系統性能提高的瓶頸之一。淺層句義分析主要著眼於提取句子中謂詞與其他成分之間的語義關係,是現階段句義分析研究的現實選擇,目前典型的方法是將淺層句義分析視作一種後句法的非結構化分類問題,謂詞論元以及謂詞框架間所形成的結構關係在模型中不能很好的體現,同時也不易實現與句法分析的融合和集成。針對這些問題,在本項目中,我們提出了一種句法制導的統計漢語句義分析方法;並將結構化支持向量機模型用於淺層句義分析建模問題,以期更好地在模型中刻畫淺層分析結果中所展現出的結構依存關係;基於句法制導機制,我們還提出了建立句法語義分析的一體化模型,以期在句法分析模型和句義分析模型互動的基礎上綜合提升二者的分析性能。
結題摘要
自然語言理解的核心是語義的理解,長期以來,缺乏健壯可靠的語義分析技術一直是制約各類自然語言處理套用系統性能提高的瓶頸之一。本項目主要圍繞漢語淺層句義分析展開,重點研究下面6項內容並取得積極進展: (1) 提出了一種句法制導的淺層句義分析模型,該模型使得淺層句義分析具有更好的形式語義學基礎,不同於目前所提出的其他淺層句義分析方法。 (2) 提出了一種基於語義組塊的淺層句義分析方法,在詞的基礎上直接對語義角色進行識別和分類,獲得了較高的準確率,並極大地節省了分析時間。 (3) 基於北大網庫(NetBank)構建了一個語義角色分類系統,並將其與基於PropBank的語義角色分類系統的性能進行了對比,探討了不同的語義標註體系對淺層句義分析方法的影響。 (4) 將半指導的機器學習技術用於漢語淺層句義分析,除了使用標註語料之外,還將未標註語料加入模型訓練過程,彌補了標註語料在規模和領域覆蓋方面的不足,改善了句義分析技術的領域推廣能力。 (5) 對漢語分詞模型的領域適應性進行了考察,漢語分詞是漢語語義角色的前處理工作,分詞性能對淺層句義分析的性能有著直接的影響,項目組通過引入多種統計量特徵以及半指導學習技術,改善了分詞性能和領域適應性。 (6) 構建了淺層句義分析軟體和輔助語義角色標記和校對工具。對給定的句法分析樹,淺層句義分析軟體可以完成句子中謂詞的語義角色。輔助語義角色標註軟體則可以可視化的界面輔助人工完成語義角色標註任務。