漢語篇章框架語義關係網自動抽取及其語義推理

項目摘要

人類對自然語言的理解是複雜的思維過程，它依賴語言學、常識性知識以及思維規律等，篇章語義分析是自然語言處理中最重要也是最困難的問題。漢語篇章框架語義關係網是篇章的語義結構形式化描述，抽取篇章的框架語義關係網意味著抽取了這個篇章的語義骨架，建立框架語義推理機制意味著能夠實現篇章語義的深層次挖掘。本項目基於漢語框架網語義資源，研究面向篇章深層語義分析的篇章框架語義關係網自動抽取及其語義推理技術，研究內容包括：（1）針對篇章漢語框架語義關係網自動抽取技術，建立所需的支撐資源；（2）研究篇章上下文語義關係自動標註技術；（3）研究篇章零形式框架元素自動識別與填充技術；（4）建立基於框架關係的篇章語義推理機制，研發漢語篇章框架語義關係網自動抽取及語義推理工具軟體。項目的研究成果將為漢語篇章深層次語義分析方法提供新的思路，形成基於框架語義知識庫的篇章語義分析理論體系，創新篇章語義分析的理論與方法。

結題摘要

本項目針對漢語篇章的語義結構表示問題,以框架語義學為理論基礎,利用框架語義描述體系來刻化漢語篇章語義,系統地研究了漢語篇章框架語義關係網自動抽取與語義推理關鍵技術。項目的主要研究內容及重要結果包括：（1）建立了漢語篇章上下文語義關係標註集；制定了漢語篇章語義關係網表示規範，構建了篇章標註資源311篇、框架1320個、詞元11114個、標註例句約8萬條。（2）研究了篇章上下文語義關係自動標註技術，包括篇章上下文語義相關性自動判別和篇章上下文語義關係類型自動識別兩個子任務。針對第一個任務，提出基於最大熵模型的篇章關係分類器和基於貪婪策略的篇章結構樹生成方法，分別獲得獲得57.48%的準確率和64.55%的F值。針對第二個任務，提出基於框架特徵的機器學習方法，獲得40.69%的準確率。（3）研究了篇章零形式框架元素自動識別與填充技術，提出基於規則和過濾的零形式識別方法、基於最大熵的零形式分類方法、基於最大熵和框架關係相結合的有定零形式填充方法，分別獲得了78.84%的F值、68.88%的F值和40.19%的F值。（4）建立了基於框架關係的篇章上下文的語義關係推理機制和基於框架關係的篇章框架元素語義關係推理機制，並將漢語篇章框架語義分析及推理技術套用於閱讀理解、自動問答任務，驗證本項目提出方法的有效性。（5）研發了漢語篇章框架語義標註及篇章語義關係網自動抽取軟體、漢語框架網資源共享平台、漢語框架網人機協同輔助標註系統、漢語框架網入口網站。項目開展以來，課題組按照項目年度研究計畫執行，在國內外重要學術期刊及國際學術會議上發表論文20篇；申請發明專利4項，授權發明專利1項，獲得軟體著作權7項，培養博士、碩士研究生25名，超額完成了項目計畫書任務。項目的研究成果為漢語篇章語義理解提供了一種新思路，為自然語言理解相關套用領域篇章級語義分析提供了一種有效途徑。

漢語篇章框架語義關係網自動抽取及其語義推理

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條