《基於詞向量表示的大規模知識圖譜構建方法研究》是依託中國人民大學,由劉桃擔任項目負責人的面上項目。
基本介紹
- 中文名:基於詞向量表示的大規模知識圖譜構建方法研究
- 項目類別:面上項目
- 項目負責人:劉桃
- 依託單位:中國人民大學
項目摘要,結題摘要,
項目摘要
大規模知識圖譜的構建是計算機實現智慧型推理的基礎。特徵表示是制約知識圖譜構建效果的一個很重要的因素,傳統特徵表示方法存在特徵表意能力差、缺乏語義可計算性、特徵設計過程複雜等問題,而基於深度學習的詞向量特徵表示方法具有豐富的表意能力,是一種全自動的特徵學習方法。本課題擬基於詞向量學習,對知識圖譜的基本元素(如命名實體、關係)形成全新的特徵表示,進而研究基於詞向量特徵和深度神經網路的知識圖譜的自動化構建方法,使得大規模知識圖譜的普遍套用成為現實。本課題在詞向量學習的方法上,通過對深度神經網路結構的調整和引入先驗的語言學知識,解決詞向量學習的效率、效果問題;在知識圖譜各子任務上,一方面在原有算法的基礎上,引入基於詞向量的詞聚類特徵,並將該特徵與原特徵進行有效的融合;另一方面,提出了面向知識圖譜的深度神經網路結構設計方法,在此基礎上,提出全新的基於詞向量的實體、關係識別算法。
結題摘要
本項目在自然語言文本元素的向量表示學習算法、基於詞向量表示和深度網路的命名實體識別算法和關係抽取算法三方面展開了研究,形成了相關問題的理論和算法。(1)如何獲得高質量的詞向量是知識獲取中的基本問題,也是基於詞向量進行知識圖譜構建取得成功的關鍵。我們利用更加豐富的特徵,構建了最佳化的詞向量學習算法,並研究了不同特徵對構建具有不同性質的詞向量的影響,以及對各類下游任務的不同影響。(2)對於更長語言片段如句子、篇章的向量表示,目前主流的模型是通過多層的神經網路抽取特徵並得到文本向量。這些方法存在模型複雜、參數空間巨大等缺點。我們提出了神經詞袋模型,它簡潔、高效,在很多數據集上,神經詞袋模型可以取得複雜神經網路所能達到的效果甚至更好的結果。(3)命名實體識別是知識圖譜構建中的重要子任務。我們開發了一個線上序列標註平台,將主動學習引入到序列標註平台之中,提高樣本標註效率,依靠多任務學習技術,將複雜命名實體識別任務拆分為獨立的子任務,並和分詞、詞性標註多個任務進行聯合循環訓練,可生成具有更好性能的模型。(4)關係抽取是識別出一個語句中的兩個實體之間的語義關係,是知識圖譜構建的關鍵子任務。我們使用兩個雙向循環神經網路分別對實體周邊平鋪式局部上下文和實體對在依賴樹上的最短依賴路徑進行建模,用於抽取實體局部上下文特徵和依賴樹上的依賴關係特徵,這兩種特徵能夠彌補彼此的不足,並取得了顯著的效果。(5)在數據集構建方面,我們對中文詞法與語義推理問題進行研究,探索漢語中特有的詞義、語法推理方式,提出了68種中文詞法關係、28種語義推理關係,並基於此構建了一個中文類比推理數據集CA8,它包含了 17813 個類比問題,覆蓋了綜合的詞法和語義關聯。(6)項目的主要成果發表於ACL、EMNLP、AAAI、ECAI、COLING、NAACL、ICWS等國際頂級會議和國際期刊上。本項目開發的核心算法均已在Github開源平台上發布。我們在2018年5月在Github發布的預訓練中文詞向量資源以及中文詞語類比推理數據集到目前為止共獲得了3769個星。