《中文句法分析與語義角色標註的聯合學習機制研究》是依託蘇州大學,由朱巧明擔任項目負責人的面上項目。
基本介紹
- 中文名:中文句法分析與語義角色標註的聯合學習機制研究
- 項目類別:面上項目
- 項目負責人:朱巧明
- 依託單位:蘇州大學
項目摘要,結題摘要,
項目摘要
語義角色標註(SRL)是自然語言處理的一個關鍵問題,也是目前的一個研究熱點。研究發現,SRL嚴重受制於自動句法分析的性能,中文語義角色標註更是如此。因此,本課題提出中文句法分析和語義角色標註的聯合學習機制研究,目的是使句法分析更加適合於語義角色標註,以縮短SRL在自動句法分析和手工句法分析上的性能差異。研究內容主要包括:一是句法分析模型和聯合學習機制研究,重點探索可擴充的層次句法分析模型,在此基礎上,實現句法分析和語義角色標註的聯合學習,使得句法分析和語義角色標註能同時有效進行,減少自動句法分析對語義角色標註系統性能的負面影響;二是基於樹核函式的語義角色標註研究,研究和改進現有的樹核函式,探索新穎的樹核函式,同時探索語義角色關係實例的結構化信息的最佳表達形式,以更好地體現所需的各種結構化句法信息。
結題摘要
本課題通過句法分析和語義角色標註的聯合學習研究,解決中文語義角色標註中存在的關鍵問題,實現一個高性能的中文語義角色標註系統;在國內和國際同行中廣泛使用的基準語料上,性能達到國際領先水平。三年來,課題總體按照申請書計畫開展,進展順利,完成情況及取得的成果已達到預期目標。本課題已完成的研究內容包括四個方面(其中第一和第二項為申請書計畫研究內容,第三和第四項為本課擴展研究內容):一是句法分析和語義角色標註的聯合學習研究。探索了句法分析和語義角色標註的聯合學習問題,以緩解語義分析對句法分析結果的嚴重依賴,同時能夠提高兩者,特別是語義分析的性能。為此,本課題從兩個層次實現了句法分析和語義角色標註的聯合學習模型:第一,提出了一種聯合方案,該方案能夠將語義分析嵌入到句法分析過程中,實現兩者的同步執行;第二,在整個分析過程中,將由語義角色標註得到的語義信息集成到句法分析模型中,以更好地指導句法分析。基於中文TreeBank、中文PropBank 和中文NomBank 的實驗表明了本課提出的聯合學習方法優於傳統的基於1 top-best句法樹的方法,同時也優於基於n top-best句法樹的方法。二是結構化句法信息在語義角色標註中的套用。首先探索了語義角色標註所需的關鍵結構句法信息,提出了可區分式的樹結構的抽取方案,以確保抽取的樹結構既涵蓋關鍵的結構化信息,又能減少不必要的噪音。然後探索新穎的卷積樹核函式,在比較產生式時用模糊匹配代替精確匹配,即只要是產生式之間的中心成分具有相似性,那么兩棵子樹之間就具有一定的相似性,避免了精確匹配所帶來的缺點,從而使子樹之間的相似度更能準確地反映語義關係之間的相似度。三是深入研究了中文名詞性謂詞的語義角色標註,從兩個方面探索了動詞性謂詞語義角色標註在名詞性謂詞語義角色標註中的套用,實現了動詞性謂詞和詞名詞謂詞語義角色標註的聯合學習。四是研究了語義角色標註框架在其他自然語言處理任務中的套用:覆蓋域界定和篇章分析中的論元識別。 研究成果方面,本課題發表SCI索引源期刊論文2篇、EI索引源期刊論文8篇、國際頂級會議CIKM/SIGIR/IJCNLP/COLING論文7篇;獲得軟體著作權6項、專利1件。全部超過了項目預定的指標。