構建面向Web的、以實體為中心的知識庫的關鍵技術研究

《構建面向Web的、以實體為中心的知識庫的關鍵技術研究》是依託清華大學,由王建勇擔任項目負責人的面上項目。

基本介紹

  • 中文名:構建面向Web的、以實體為中心的知識庫的關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:王建勇
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

隨著網際網路的迅速發展及線上數據的急劇上升,用戶從海量數據中搜尋有價值的信息變得越來越困難,並且隨著資料庫、自然語言處理和數據挖掘等領域的相關技術不斷套用到信息檢索當中,搜尋引擎從關鍵字搜尋發展到智慧型搜尋成為可能。而實現智慧型搜尋的一項關鍵任務就是基於Web的實體知識庫的構建。本項目基於豐富的網路資源,以建立實體知識庫來為Web智慧型搜尋服務作為基本套用目標,以實體及關係提取、實體名字排歧、實體知識庫連結整合、以及實體知識庫索引等關鍵技術作為研究重點,擬解決以下三類研究問題: 第一,基於大規模Web網頁以及現有知識庫,實現實體的準確提取,設計實體名字排歧方法,進行實體與知識庫連結、整合;第二,對實體及其相關屬性進行建模,提取實體關係;第三,開展實體知識庫索引技術研究,以支持快速查詢和動態更新。 最後將建立一個基於實體的知識庫系統,以驗證成果的正確性和可行性,為開發下一代智慧型搜尋系統奠定基礎。

結題摘要

本項目基於豐富的網路資源,以建立實體知識庫來為Web智慧型搜尋服務作為基本套用目標,以實體及關係提取、實體名字排歧、實體知識庫連結整合、以及實體知識庫索引等關鍵技術作為研究重點,重點解決了以下四類研究問題: 第一,基於大規模Web 網頁以及現有知識庫,設計實體名字排歧算法,進行實體與知識庫連結、整合;第二,對實體及其相關屬性進行建模,提取實體語義關係;第三,開展實體知識庫索引技術研究,以支持快速查詢和動態更新;第四,將所提部分技術用於構建和擴展領域知識庫系統(如餐飲和電影),並探討實體知識庫系統的某些潛在套用(如個性化推薦系統、主題發現等),以驗證成果的正確性和可行性。 本項目在實體連結與消歧領域,先後設計了面向面向社交媒體數據的實體連結算法KAURI、面向異構網路的實體連結算法SHINE、實體別名發現算法GRIAS。此外,我們還對現有的實體連結方法進行了全方位的總結,相應綜述文獻發表在國際期刊IEEE TKDE。上述研究成果得到了包括語義Web創始人之一James A. Hendler教授和德國科學院和歐洲科學院院士Gerhard Weikum教授等在內的國際著名學者引用和肯定。在語義關係抽取領域我們提出了面向低冗餘度數據的語義關係抽取框架REACTOR。在實體知識庫索引技術領域,我們提出了一個稱為AWETO的增量式RDF存儲系統。在其他實體知識庫相關研究領域,本項目在個性化推薦系統和文本聚類等領域提出了多個高效的算法,並得到了美國斯隆研究獎得主、康乃爾大學Johannes Gehrke教授、美國總統青年研究獎得主美國賓州大學Lyle Ungar教授在內的國際著名學者的引用和肯定。本項目在國際重要期刊和會議共發表論文22篇,其中CCF A類期刊/會議論文14篇。本項目培養博士生4人、碩士生3人,其中已畢業的3名博士生有3人次獲得清華大學優秀博士論文獎、2人次入選北京市優秀畢業生、1人次獲得中國人工智慧學會優秀博士論文獎。項目負責人受邀在國際會議做特邀報告1次並當選IEEE Fellow。

相關詞條

熱門詞條

聯絡我們