基於依存圖的漢語依存分析技術研究

基於依存圖的漢語依存分析技術研究

《基於依存圖的漢語依存分析技術研究》是依託南京大學,由陳家駿擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於依存圖的漢語依存分析技術研究
  • 項目類別:面上項目
  • 項目負責人:陳家駿
  • 依託單位:南京大學
項目摘要,結題摘要,

項目摘要

依存文法對於語序靈活的漢語來說具有良好的描寫能力,然而投影性原則使得依存樹基本等價於短語結構樹,沒有充分體現出表示方法和分析精度的優勢。為了擺脫這一限制,滿足後續語義分析等套用的需要,本課題提出了基於依存圖的漢語依存分析方法,重點研究兩大問題:一是建立基於依存圖的句法標註體系,給出基於原有樹庫的自動調整和轉換方法,並研究與之相應的圖搜尋算法。另一方面,為了提高長句的分析精度和效率,引入淺層分析技術,使用組塊分析捆綁短語使得句子扁平化,使用骨架分析識別長距離搭配以廓清句子結構;嘗試用基於圖的算法,將淺層分析和依存分析融合起來,最終給出實用的漢語依存圖分析算法。

結題摘要

句法分析是自然語言處理的基礎課題,直接影響著句子語義分析、輿情分析、智慧型問答、機器翻譯等任務的質量。中文句法分析的研究起步較晚,雖也已建立了較大規模的樹庫,使用了與英語等其他語言相同的機器學習模型,但是中文句法分析的效果,無論是短語結構文法還是依存文法,始終與英語、德語、甚至起步相對較晚的阿拉伯語等語言有較大差距。提高中文句法分析的效果一直是學界和產業界的迫切需求。中文句法分析究竟是在文法體系上出現了問題,還是在模型算法上需要改進,都需要做出深入的研究和探索。 本項目針對中文句子依存分析的關鍵問題進行了多方面的研究。首先,藉助已有的中文依存樹庫和語義角色庫,統計得出中文句子的語義角色難以通過依存樹結構推導出來,進而明確了圖結構在表示中文句子語義關係上的必要性。其次,建立了中文依存圖的標註體系和語料庫,分析出漢語中存在的非樹結構。同時,從模型算法的層面做了兩個方面的探索。研究了新興的神經網路深度學習算法,套用於中文依存分析。我們比較了不同的詞向量(Word Embedding)構建方法,基於SKIP、CBOW方法,發現相比簡單上下文,使用依存關係能夠更好地表征詞語的語義。然後,我們將結構化神經網路模型套用於依存分析,使用對比學習方法,超過了現有的有指導方法的最好結果,接近半指導和詞性句法分析一體化方法的結果。在系統實現上,通過多執行緒、硬編碼、圖棧等技術,使得句子分析的平均速度達到毫秒級,系統的模型檔案也減少至1/10。最後,為了提高長句分析的精度和效率,重點研究了並列結構的自動識別算法,使用Word Embedding來計算兩個並列成分之間的語義相似度和結構相似度,輔以鄰接可靠度的計算,使得聯合結構的F-score提高了十五個百分點。 綜上,本項目從理論的角度研究了圖結構在依存分析中的必要性,初步建立了中文依存圖語料庫,在算法層面上使用深度學習技術,研究了詞向量獲取方法、結構化神經網路的依存分析技術、利用詞向量提高聯合結構識別效果,從而在整體上提高了中文依存分析的效果。

相關詞條

熱門詞條

聯絡我們