自然語言處理中的覆蓋域界定和聚焦點識別研究

項目摘要

覆蓋域界定和聚焦點識別研究分別從作用面和作用點兩個層面確定用戶感興趣的文本片斷和關注對象，相互補充，相輔相成，在自然語言處理研究中具有廣泛的套用價值，是實現句子級深層語義理解的重要基礎之一。目前，覆蓋域界定研究在建模和有效利用結構化句法信息的方面存在缺陷，聚焦點識別研究剛起步。本課題將在語言學理論指導下，從建模、結構化句法信息利用和數據不平衡問題研究等多個角度，深入研究自然語言處理中的覆蓋域界定和聚焦點識別問題。主要研究內容包括：（1）基於淺層語義分析的覆蓋域界定模型；（2）基於樹核函式的覆蓋域界定研究；（3）基於競爭機制和中心理論的聚焦點識別研究；（4）面向數據層面和算法層面的數據不平衡解決方案。同時，針對中文語料庫缺乏問題，本課題將構建一定規模的高質量中文覆蓋域界定和聚焦點識別語料庫，深入開展中文覆蓋域界定和聚焦點識別研究，縮短與英文相關研究的差距。

結題摘要

本課題在研究自然語言中否定語義和不確定語義表示結構的基礎上，提出了新穎的覆蓋域和聚焦點識別方法和計算模型，實現了一個高性能的覆蓋域界定和聚焦點識別系統，性能達到國際領先水平，為將來的進一步研究打下了紮實的基礎。三年來，課題總體進展順利，所有研究計畫已按要求完成，達到預期目標。特別是：（1）在覆蓋域界定方面，揭示了平面化句法特徵與結構化句法特徵在覆蓋域界定模型中的不同作用，採用完全子樹和關鍵路徑兩類句法結構，提出了一個基於卷積樹核的融合模型，並藉助觸發詞詞性驅動的多分類器融合策略，最佳化覆蓋域界定系統性能。在BioScope語料庫上，覆蓋域界定性能提高約5%。此外，提出了基於卷積神經網路的覆蓋域界定模型，性能再提高了約2%。（ 2）在聚焦點識別方面，提出了基於“詞-主題”的雙層結構圖模型的聚焦點識別方法，利用上下文中的線索及特徵來識別聚焦點，此外，作為無監督模型，該方法避免了人工標註的開銷。在SEM’2012評測語料上的實驗表明，聚焦點識別的性能比該評測最優系統提高了約6%。（ 3）在面向漢語的覆蓋域界定和聚焦點識別研究方面，構建了一個較大規模的完備的漢語語料庫CNeSp，並藉助漢語詞素特徵和跨語言觸發詞擴展技術，最佳化了漢語觸發詞識別方法，在CNeSp語料庫上性能提高約3%。此外，藉助元決策樹模型，有效融合了序列化特徵和結構化特徵，實現了面向漢語的覆蓋域界定系統，在CNeSp語料庫上的性能平均達到60%。研究成果方面，本課題發表SCI索引源期刊論文1篇、EI索引源期刊論文4篇、國際頂級會議ACL/IJCAI/EMNLP/COLING論文8篇；獲得軟體著作權2項、專利3件。

自然語言處理中的覆蓋域界定和聚焦點識別研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條