基於關鍵字的大規模連結數據搜尋技術研究

《基於關鍵字的大規模連結數據搜尋技術研究》是依託東南大學,由李慧穎擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於關鍵字的大規模連結數據搜尋技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:李慧穎
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

連結開放數據項目已經匯集了超過50 billions的RDF三元組,主題覆蓋出版物、地理、多媒體、生命科學等眾多領域。如何幫助用戶獲取感興趣的數據和信息是當前語義Web研究領域最關心的問題之一。相比SPARQL查詢必須掌握查詢語言語法和待查詢數據模式,普通用戶更適合關鍵字查詢方式。現有語義Web搜尋引擎往往僅提供RDF文檔或實體的搜尋,不支持更複雜的查詢需求(如查詢多個實體及實體間的關係)。本課題研究基於關鍵字的大規模連結數據搜尋問題:研究多粒度連結數據摘要模型和索引方法;研究關鍵字查詢理解方法;研究高效地將關鍵字查詢轉換為結構化查詢(用查詢圖表示)的方法;研究查詢圖相關性評價問題。最終幫助用戶在大規模、異構、互鏈數據中跨數據源地進行高效和有效的關鍵字搜尋。

結題摘要

項目組就連結數據摘要模型和索引方法、關鍵字查詢理解方法、結構化查詢構建方法、結構化查詢相關性評價方法進行了深入研究,主要研究成果如下: 提出一種基於樹模板的連結數據索引方法。將連結數據圖劃分成若干D-step樹,同時將D-step樹中的內容節點和邊標籤作為索引信息。該索引方法將關鍵字查詢問題轉化為字元串匹配問題,能夠支持高效的關鍵字查詢方法。 提出一種實體連結方法幫助關鍵字查詢理解。利用實體關聯圖刻畫知識庫中實體及實體間的關聯,對每個候選實體獲得個性化EntityRank向量,通過向量間比較度量語義相似性。使用了錨實體來更準確地度量語義相似性。最後,結合局部特徵及全局特徵疊代地進行實體連結,實驗結果展示了較高的F1值。 在實體連結完成的基礎上,對關鍵字查詢進行關係檢測構建結構化查詢。為了生成更精確的結構化查詢,將查詢結果類型作為約束條件。通過關鍵字查詢判斷查詢結果的類型,在結構化查詢中增加對查詢結果的類型約束。通過卷積神經網路進行關係預測,增加類型約束過濾查詢結果,本方法在測試集上的實驗展示出較高的平均F1值。 提出了結合語義相似度、字面量相似性、上下文相似性、實體流行度評價候選實體相關性的方法。對於候選查詢結果評價方法,針對不同評價指標設計三種候選查詢結果的相關性評價方案。實驗結果表明,該候選實體的相關性評價方法和查詢結果的相關性評價方法具有明顯的效果。 總的來說,本項目的研究工作達到了預期的目標。項目組一共發表學術論文8篇,SCI期刊論文1篇,會議論文7篇,其中EI檢索論文6篇。同時,項目組已申請專利3項。

相關詞條

熱門詞條

聯絡我們