《命名實體消歧與多源實體知識獲取方法研究》是依託北京大學,由王厚峰擔任負責人的面上項目。
基本介紹
- 中文名:命名實體消歧與多源實體知識獲取方法研究
- 項目負責人:王厚峰
- 項目類別:面上項目
- 依託單位:北京大學
項目摘要,結題摘要,
項目摘要
歧義消解與知識獲取是自然語言處理研究中最基礎的問題;而命名實體則是語言信息處理中廣受關注的對象。本項目以漢語的命名實體為對象,研究實體歧義消解與知識獲取的方法,為命名實體的理解探索一條有效的途徑。主要研究內容包括:(1)構建實體知識表示的框架。研究從多源網路百科中自動歸納實體的基本知識結構和擴展知識結構,並通過擴展知識結構適應對不同實體類的描述;(2)提出實體知識獲取與融合的方法。通過挖掘網路百科中的文本知識表示模式以及同義變換規律,從多源數據中獲取實體知識;通過文本內和文本間實體共指關係,實現知識融合;(3)提出基於實體知識庫的命名實體消歧方法。通過深層學習模型構建文本中的命名實體與實體知識庫中對應實體的語義關聯,實現對命名實體的理解;(4)探索基於多數據源的命名實體消歧方法。在實體知識不完整情況下,通過從多源數據中獲取實體信息實現歧義消解,並提煉信息完善對實體知識的描述。
結題摘要
本項目圍繞命名實體歧義消解以及實體知識獲取方法開展研究。四年來的研究主要歸納為如下三個方面:(1)對命名實體挖掘開展了深入研究,利用大規模url與title庫進行開放領域的實體挖掘,將命名實體進行分類收集。命名實體挖掘是構建實體知識庫的基礎性工作。(2)研究了實體關係抽取的多種方法。實體知識通常指實體關係形成的三元組。面對人工構建實體知識庫存在諸多受限的問題,項目組研究了帶噪音聚類的遠監督實體關係抽取方法以及基於深度學習的實體關係自動抽取方法,以獲取實體知識。所提方法在多個數據集上取得了好的測試效果。(3)研究了實體歧義消解的方法。針對有知識庫的情況,研究了命名實體歧義消解問題;面對無知識庫的跨文本同名實體情況,研究了跨文本的命名實體同名共指問題;此外,還研究了無知識庫情況下,文本內的實體同指,主要是零指代消歧問題。 項目組基本按預定的計畫開展研究,達到了預期的目標,完成了預定的任務。在方法研究、技術開發、資源建設、系統設計等方面取得了一系列成果。(1) 在理論與方法方面進行了一系列探索和研究。在國內外學術會議和期刊上發表了研究論文29篇,其中,期刊論文7篇,在 ACL,AAAI,IJCAI,SIGIR,EMNLP,COLING,CIKM等高水平的國際會議上發表論文 14 篇;另外,申請專利2項。(2)形成了一定規模的語料庫,構建了實體知識庫。(3)研究中所取得成果的一部分已經在與IT公司合作中得到套用,有些正在實施之中。特別是,在與企業合作的基礎上,於2016年與合作企業共同申請了北京市科委的科技計畫項目。(4)在項目實施期間,同國內外同行進行了大量的學術交流。包括:哈薩克斯坦歐亞民族大學人工智慧研究所,都柏林城市大學,香港城市大學,中山大學,廣東外語外貿大學,桂林電子科技大學,谷歌中國研究中心等。應邀在學術會議或企業做學術報告。(5)培養了10名研究生,包括博士研究生4名,碩士研究生6名。