漢語語義選擇限制知識自動獲取及其套用研究

項目摘要

語義選擇限制刻畫謂語對論元的語義選擇傾向，是一種重要的辭彙語義知識，對句法分析、語義角色標註、詞義消歧、指代消解、隱喻計算等自然語言處理任務都有重要作用。手工構建的語義選擇限制知識庫不能很好地滿足大規模文本處理的需要，本項目研究漢語語義選擇限制知識的自動獲取及套用，內容包括：（1）知識獲取方面，提出結合漢語特色的語義選擇限制獲取模型，把漢語構詞與漢字部首等特點與語料庫分布、詞典知識結合起來計算論元相似度，基於多知識源構建基礎搭配庫，研製標準測試集對模型進行評價。（2）知識表示方面，針對詞語層面的語義選擇限制知識可理解性差的缺點，通過語義類映射將其轉化為語義類層面的知識，從而提高知識的可理解性，構建語義選擇限制知識庫並總結語言規律。（3）知識套用方面，把自動獲取的語義選擇限制知識融入機器學習框架進行隱喻識別，在大規模隱喻識別基礎上對隱喻與語義選擇限制之間的關係進行定量分析。

結題摘要

語義選擇限制是一種重要的辭彙語義知識，對自然語言的句法語義分析有重要作用。本項目圍繞漢語語義選擇限制知識的自動獲取及套用，主要研究了以下三個方面的內容：（1）知識獲取方法及評測，提出基於詞語相似度的語義選擇限制獲取方法、基於神經網路的語義選擇限制獲取方法以及基於LDA的語義選擇限制獲取方法，構建偽消歧評測數據集對方法進行評價。考察了基於多源知識的漢語詞語相似度計算方法。（2）知識表示及知識庫建設，提出基於語義分類體系及最小描述長度MDL原則的優選語義類獲取方法，將知識抽象到語義類層面，構建語義選擇限制知識庫，知識庫包含常用雙音節動詞4681個，對現有的語義分類體系進行了改造。（3）知識在隱喻識別中的套用，提出基於機器學習方法的隱喻識別，定量分析了隱喻與選擇限制的關係。隱喻是一個複雜的現象，單純基於選擇限制識別隱喻還不夠，還需要考慮詞語抽象性及歷時因素。提出基於跨語言知識遷移的詞語抽象性度量方法並用於隱喻識別，基於歷時詞向量考察了詞語隱喻義的發展變化，構建了隱喻搭配庫及標註語料庫。圍繞上述工作，項目組成員在國內外期刊會議上發表論文30篇，其中SCI論文1篇，EI論文11篇，中文信息學報論文6篇，1篇論文獲得CLSW2015唯一最佳論文。所構建的語義選擇限制知識庫及隱喻知識庫已提供給北京大學、北京語言大學等研究單位使用。

漢語語義選擇限制知識自動獲取及其套用研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條