基於圖資料庫理論的海量RDF數據存儲和查詢方法研究

《基於圖資料庫理論的海量RDF數據存儲和查詢方法研究》是依託北京大學,由鄒磊擔任負責人的青年科學基金項目。

基本介紹

  • 中文名:基於圖資料庫理論的海量RDF數據存儲和查詢方法研究
  • 項目負責人:鄒磊
  • 項目類別:青年科學基金項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

隨著語義網概念的推廣及套用的不斷增多,語義數據的規模也在急劇增長,因此海量語義數據管理成為了一項熱點研究領域。本項目以圖資料庫理論為基礎,研究和實現面向海量RDF(Resource Description Framework,資源描述框架)數據的存儲和查詢的方法。具體的研究內容包括:基於圖模型的RDF數據的存儲策略,索引結構和查詢算法,以及構建統一的測試平台。本項目所考慮的RDF數據上的查詢類型包括子圖匹配查詢,路徑查詢和關鍵字查詢。這些查詢不僅涵蓋而且擴展了目前的RDF數據上的查詢語言(即SPARQL語言)的語義。在項目的研究中,我們擬設計的存儲和查詢方法具有可擴展性好,動態維護代價低,以及查詢語義豐富三個方面的特點。

結題摘要

隨著語義網概念的推廣及套用的不斷增多,RDF語義數據的規模也在急劇增長,因此海量RDF語義數據的管理成為了海量數據管理領域一項熱點的研究話題。傳統的RDF數據管理以關係資料庫為基礎,研究如何將RDF的三元組表拆分成多個關係表,從而將面向RDF的SPARQL查詢轉換為面向關係表的SQL查詢。這種方法忽略了RDF圖數據的結構特點,從而其查詢效率比較低。本項目從RDF圖數據的特點出發,提出了利用RDF圖結構來設計面向RDF的查詢方法和索引結構。具體的,在本課題的研究過程中,我們研究了三類典型的查詢“子圖匹配查詢”,“路徑查詢”和“關鍵字查詢”。 我們提出了利用子圖匹配的算法來回答面向RDF的SPARQL查詢的問題,同時基於此提出了VS*-tree索引結構,極大地減小了查詢的搜尋空間。我們研發了基於子圖匹配的SPARQL查詢引擎gStore,其相關研究成果發表在資料庫領域頂級國際會議和期刊VLDB 2011和VLDB Journal上。 RDF圖中邊對應RDF三元組中的屬性(Property)。傳統的圖上的可達性查詢是不考慮RDF圖上的邊的標籤信息的。本課題考慮到RDF邊上的屬性的特點,我們提出了基於標籤的可達性查詢的算法。其研究成果發表在資料庫領域重要國際會議和期刊CIKM 2011和Information System上。 同時為了解決RDF上的關鍵字查詢問題,我們提出了“關鍵字圖(Keyword Graph)”的概念,將每個關鍵字表示為圖中的節點,將關鍵字之間的共現關係表示關鍵字圖中的邊。在關鍵字圖中的關鍵字查詢可以有效地提出關鍵字查詢的性能。其研究成果發表在資料庫領域國際會議ADMA 2013。同時該論文的擴展版本被ADMA 2013推薦到國際期刊發表。 本課題研究過程中,我們發表了相關學術論文16篇,其中計算機學會推薦的頂級(A類)期刊/會議論文5篇,包括VLDB Journal, TKDE, VLDB等。本項目所發表的論文,目前已被國內外同行引用61次(根據Google Scholar統計)。在研究成果的產業化套用方面,本課題的研究成果獲得授權專利3項;目前已經和搜狗等相關企業就本課題研究中成果(基於圖的RDF查詢引擎gStore)的工業化套用簽訂了兩年合作開發協定。

相關詞條

熱門詞條

聯絡我們