《海量RDF圖數據的分散式存儲與查詢算法研究》是依託西安電子科技大學,由李賀擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:海量RDF圖數據的分散式存儲與查詢算法研究
- 項目類別:青年科學基金項目
- 項目負責人:李賀
- 依託單位:西安電子科技大學
中文摘要,結題摘要,
中文摘要
隨著語義網技術的不斷發展與推廣,以網際網路上的各種數據資源構成的RDF圖數據集合正以指數形式飛速增長。由於RDF數據規模龐大且具有複雜多變的圖結構特徵,傳統的數據存儲與查詢方式已經不能滿足日益增長的大規模RDF圖數據的需求。本項目針對大規模RDF圖數據在分散式存儲框架上的存儲與查詢問題展開研究,主要內容包括以下幾點:(1)研究圖數據劃分算法對分散式RDF圖數據存儲與查詢的影響,根據圖的連通性提出一種支持大規模RDF圖數據的數據流劃分算法,使RDF圖數據能夠合理有效地存儲在分散式存儲框架上;(2)研究分散式環境中的RDF圖數據索引技術,通過分析RDF數據的語義特徵和SPARQL查詢模式提出一種多層的圖結構索引來提高大規模RDF圖數據的查詢效率;(3)研究並行的SPARQL查詢最佳化算法,採用SPARQL查詢模式分解和重組的方式設計分散式環境中並行的SPARQL查詢最佳化處理算法。
結題摘要
隨著語義網技術的不斷發展與推廣,以網際網路上的各種數據資源構成的RDF圖數據集合正以指數形式飛速增長。由於RDF數據規模龐大且具有複雜多變的圖結構特徵,傳統的數據存儲與查詢方式已經不能滿足日益增長的大規模圖數據的需求。本項目針對大規模圖數據在分散式存儲框架上的存儲與查詢問題展開研究,主要研究內容包括以下幾點:(1)對數據流處理模式進行分析並根據語義圖數據特徵以圖理論為基礎進行建模,提出具體的語義圖劃分算法模型,設計算法並進行了實驗驗證;(2)根據得到的圖劃分結果,利用組合最佳化的方法設計動態圖在分散式環境中的數據複製和動態維護方法,提升分散式環境中的圖數據管理效率;(3)對語義圖數據進行查詢最佳化算法的設計和實現,由於語義圖數據是一種特殊的異構圖結構,我們通過定義異構圖中的元結構和元路徑來提升異構圖數據上的查詢效率。本項目的研究涉及圖理論、資料庫理論、信息檢索、大規模複雜數據處理等領域,不但具有深刻的科學理論研究價值, 也可以被廣泛地套用到許多實際套用領域。