基於組合範疇語法的漢語深層句法分析

《基於組合範疇語法的漢語深層句法分析》是依託北京大學,由孫薇薇擔任負責人的青年科學基金項目。

基本介紹

  • 中文名:基於組合範疇語法的漢語深層句法分析
  • 項目負責人:孫薇薇
  • 項目類別:青年科學基金項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

深層句法分析旨在獲取比傳統的短語結構分析和依存分析更為深層的語法信息,並提供通向組合語義分析的透明接口,是近些年興起的一個重要研究課題。本項目提出基於組合範疇語法來研究漢語深層句法分析,力圖在範疇語法和漢語句法分析兩方面取得創新性成果和研究性進展,為漢語的語義理解等深層文本分析任務提供支撐。為實現這一目標,我們將著重研究基於深層辭彙計算的詞法消歧和語義驅動的句法消歧等兩項深層句法分析的核心技術,構建漢語深層句法分析器。在此基礎上,將進一步研究辨別式與隱變數生成模型的集成學習,異質數據融合以及無指導辭彙歸納等三個統計機器學習問題,藉此從學習算法和拓展數據源兩個方面來改進深層句法分析。本項目的最終目標是探索漢語深層句法分析問題、研究相關核心技術並構建高質量的語言理解系統,從而為文本數據挖掘、問答系統、機器翻譯等研究領域提供有益參考。

結題摘要

本項目旨在研究針對漢語言理解的深層語言處理技術。特別地,我們的深層分析技術以組合範疇語法作為的理論支撐。 為了提供高效率的深層分析以服務各種自然語言處理套用,在本項目的初始階段,我們著力研究了基於增量式分析架構的組合範疇語法分析算法並使用Java語言實現了相關係統。儘管我們的系統在分析精度的度量下接近CCG最佳分析水準,且兼具高效率,它仍然受困於魯棒性的問題。魯棒性問題的根源是組合範疇語法所帶來的數量龐大的硬性語法限制。具體而言,當我們的語法分析器能夠分析一個句子的時候,其所提供的分析的質量是比較令人滿意的,但問題在於這個分析器只能分析約75%的句子。這個魯棒性問題也同樣地困擾基於其他語法範式的深層語言分析系統。我們重新審視我們的目標,我們的目標是為漢語提供深層分析,而組合範疇語法分析的最終結果是以詞與詞之間的二元依存關係為要素的深層依存結構。為什麼不直接生成這樣的圖表征呢?受到傳統的表層依存分析研究的啟發,在本項目的第二階段,我們針對數據驅動的分析技術展開了討論。我們研究了兩大類分析模型:基於狀態轉換的模型和基於因子分解的模型。不同於既有的針對樹型的工作,我們的目標結構是更加一般依存圖。在基於狀態轉換的分析方法框架下,我們提出了三個新的狀態轉換系統,這些轉換系統可以生出更一般的圖。基於新的轉換系統我們實現了分析器,這個分析器達到了CCG分析的既有的最佳分析水平。不僅在分析精度上取得了好的結果,在分析效率上,我們的分析器取得了經驗線性時間的分析效率。在基於因子分解的方法框架下,我們設計並實現了一個二階分析器。理論上,我們證明了二階分析是一個NP難問題;在實際系統構建上,我們提出了一個基於拉格朗日鬆弛這一組合最佳化技術的解碼器。這個解碼器取得了非常好的解碼效果,顯著提升了CCG分析的既有的最佳分析水平。

相關詞條

熱門詞條

聯絡我們