基於神經網路的跨語言實體鏈指研究

《基於神經網路的跨語言實體鏈指研究》是依託北京理工大學,由郭宇航擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於神經網路的跨語言實體鏈指研究
  • 依託單位北京理工大學
  • 項目負責人:郭宇航
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

跨語言實體鏈指技術將一種語言的上下文中的名稱連結到另一種語言知識庫的相應實體上。這種技術打破知識的語言鴻溝,一方面能夠最大程度地利用網際網路上由不同語言表示的知識庫,另一方面也能為缺乏知識庫的語言的信息處理提供支持。跨語言實體鏈指的難點在於如何計算由不同語言表示的文本之間的相似度。本項目深入研究基於神經網路的上下文語義表示方法。通過基於詞向量的翻譯技術,緩解未登錄詞對跨語言文本相似度的影響;通過基於段落向量的翻譯技術,利用上下文中的全局信息計算跨語言文本之間的相似度;通過將不同語言映射到同一個段落向量空間,實現不經過翻譯直接計算跨語言文本相似度的方法,從而減少翻譯步驟帶來的錯誤級聯。

結題摘要

項目背景 實體鏈指任務將文本中出現的實體表述連結到知識庫中相應的實體上,跨語言實體鏈指任務中,文本與知識庫中的語言非同種語言,這樣可以對知識庫內容匱乏的語言進行有效的實體鏈指。 主要研究內容 本項目主要研究以下內容: (1) 更好的實體上下文建模方法 (2) 跨語言特徵的抽取 (3) 高質量跨語言平行語料的獲取 重要結果 (a) 針對微博這類短文本進行基於詞向量的實體連結研究。充分利用指稱和候選實體本身所含有的語義信息,提出在詞向量層面對任務進行抽象建模,並設計一種基於詞向量語義分類的微博實體連結方法。首先通過神經網路訓練詞向量模板,然後通過實體聚類獲得類別標籤作為特徵,再通過多分類模型預測目標實體的主題類別來完成實體消歧. (b) 針對實體連結中上下文特徵表示的問題,從語義角度入手,研究了指代消解特徵的提取問題。採用了多視窗多過濾器的卷積神經網路識別獨立實體。這種方法的好處是減少了手工構造特徵的工作,能夠自動從數據中學習特徵表示形式。 (c) 針對跨語言上下文表示的問題,研究了語義角色特徵的作用。將目標語言句子的語義角色和句法分析進行結合,構造語義角色樹,用於目標語言的特徵表示。具體地,設計了語義角色樹的表示方法。 (d) 針對跨語言平行語料獲取方面的問題,提出一系列針對平行語料對齊質量進行分析的方法,實現了一個從低質量語料中獲取高質量語料的系統。 關鍵數據及其科學意義 相比於傳統方法,本項目提出的模型在微博實體鏈指任務中相比當前最好結果獲得了近2%F1值的提升。其創新之處在於,從神經網路語言模型的角度,以分類器分類預測的方式提出了實體消歧方法,不僅能夠充分地利用上下文語義信息,也能夠利用實體的 語義分類信息來進行消歧,並降低了獲取訓練語料的難度。 在實體消解方面,本項目所提出方法的好處是減少了手工構造特徵的工作,能夠自動從數據中學習特徵表示形式。 跨語言特徵提取方面,本項目提出的特徵表示在串到樹的機器翻譯框架下獲得譯文相比傳統方法的翻譯效果具有較為顯著的提高。 高質量平行語料獲取方面,本項目所篩選後獲得語料訓練的機器翻譯效果,比未經過篩選的語料的翻譯效果具有明顯的提升,具體地,從原始的BLEU值6.30提高到了BLEU值20.1。

相關詞條

熱門詞條

聯絡我們