《基於敘事模式分析的無監督新聞事件語義抽取研究》是依託北京大學,由馮岩松擔任負責人的青年科學基金項目。
基本介紹
- 中文名:基於敘事模式分析的無監督新聞事件語義抽取研究
- 項目負責人:馮岩松
- 項目類別:青年科學基金項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
新聞事件語義抽取是信息抽取研究中的熱點問題之一,是大規模實時新聞數據管理研究中的關鍵一環。本課題針對傳統新聞事件抽取工作對於人工標註數據的依賴問題提出建立一種針對新聞事件語義要素的自動分析模型,並嘗試藉助機率統計方法將多媒體語義信息融入到新聞語義要素中。貫穿本課題的一個中心思想是如何減少人工參與,更多地利用新聞資源龐大的數據規模來挖掘新聞事件的敘事模式,進而抽取核心事件的語義要素。本課題的主要研究內容包含以下四個方面:基於敘事模式的新聞事件分析研究、基於事件語義鏈的核心新聞事件識別研究、無監督新聞事件語義要素抽取研究以及針對多媒體新聞語義要素融合的研究。本項目通過對新聞進行事件語義層次上的重構實現對實時新聞數據的自動事件語義要素抽取,為自動構建知識庫、基於事件的信息檢索等高級套用打下堅實基礎。
結題摘要
面向開放域的新聞事件語義抽取是信息抽取研究中的熱點問題之一,是海量新聞數據管理研究中的關鍵一環,是基於內容的個性化、知識庫自動更新及智慧型檢索等高級套用的重要基礎。傳統新聞事件的表示與抽取方法通常依賴大量的手工標註數據,且事件的類別模板通常由專家制定,在面對現今發展迅速的新媒體時代時,缺乏足夠的靈活性。本課題針對這一問題,提出建立一種新的新聞事件語義要素的表示與自動分析模型。這一模型主要基於敘事模式分析理論,從海量新聞語料中自動歸納出某類事件的常用敘述方式,並藉助於結構化知識庫和無監督機器學習方法從中總結出新的事件類別及其要素,從而促進新聞事件抽取、新聞語義分析與挖掘、及新聞個性化推薦等多種套用。貫穿本課題的一個中心思想是如何減少人工參與,更多地利用新聞資源龐大的數據規模和目前網路上已有的結構化、半結構化知識資源來挖掘新聞事件的敘事模式及其相關的事件元素,進而自動歸納出核心事件的語義要素。在三年的項目執行期間,課題組首先從數據出發,構建了海量開放域新聞數據語料庫,並藉助於現有網路百科的半結構化知識資源,構建了大規模開放域新聞知識資源庫,以便對新聞的事件要素進行歸類。在此基礎上,課題組基於敘事模式分析理論,將新聞事件的分析與結構化新聞知識資源緊密結合,抽取新聞實體及其語義關係,挖掘新聞事件及事件要素的常見模式;同時,利用結構預測和深度神經網路模型對核心新聞事件的檢測和抽取過程進行最佳化,從而實現對海量新聞資源的高效分析與挖掘。此外,課題組還基於結構化新聞內容表示研究了基於內容的新聞報導個性化推薦技術,從實際套用角度印證了新聞事件抽取研究的價值。基於上述研究工作,課題組在國際權威文本分析技術評測(NIST TAC KBP 2015)的新聞事件檢測任務中取得了第四名的好成績;並基於上述研究工作,申請國家發明專利2項,發表高水平學術論文21篇,其中5篇發表在人工智慧、自然語言處理領域重要國際會議上(如ACL、AAAI、EMNLP等)。本項目的實施實現了對新聞進行事件語義層次上的重構,為大規模實時新聞分析系統、結構化知識庫自動更新等前沿技術的研發打下堅實基礎。