大規模格結構數據管理關鍵技術研究

大規模格結構數據管理關鍵技術研究

《大規模格結構數據管理關鍵技術研究》是依託昆明理工大學,由游進國擔任項目負責人的地區科學基金項目。

基本介紹

  • 中文名:大規模格結構數據管理關鍵技術研究
  • 項目類別:地區科學基金項目
  • 項目負責人:游進國
  • 依託單位:昆明理工大學
項目摘要,結題摘要,

項目摘要

數據立方體格和概念格是數據倉庫、數據挖掘、知識發現等領域兩類重要的數據模型,其實例都屬於格結構數據,然而對大規模格結構數據的存儲和查詢目前仍然是挑戰。本課題視格結構數據為圖結構數據,擬以格結構數據的統計特性和規律為切入點,研究格結構數據的產生和解析模型;在此基礎上,研究大規模格結構數據的劃分方法、分散式存儲技術、分散式構造技術和分散式查詢技術。利用實驗統計方法、複雜網路等經典解析模型、格的概念層次結構建立較完整的格結構數據機理體系,結合當前圖劃分方法、分散式記憶體計算技術發展大規模格結構數據管理方法和技術,構建分析平台和數據平台,進行實例驗證和分析。研究結果有望對達百萬至千萬個結點的大規模格結構數據進行高效查詢和分析,在格結構數據的特性、模型、劃分方法等方面取得較好的理論成果。

結題摘要

在數據倉庫以及知識發現這兩個緊密交叉、融合的研究領域存在兩類重要的數據模型:數據立方體(格)和概念格,其實例都屬於格結構數據。大規模格結構數據的特性、存儲和查詢的研究對大數據分析具有較好的理論和實際意義。 首先對格結構數據研究現狀進行調研和分析,視格結構數據為圖結構數據,以格結構數據的統計特性和模型為切入點展開研究,以便下一步研究大規模格結構數據的存儲和查詢方法。通過實驗,發現數據立方體格和概念格具有類似的圖統計特性,與隨機網路和複雜網路的模型相比,其在度分布、聚集係數、平均最短路徑等方面具有不同的統計特性。進一步,基於格結構數據的統計特性和內部規律,分析了格結構數據的生成模型。 然後,在格結構數據統計特性和解析模型的基礎上,充分考慮通訊代價、負載均衡以及數據冗餘,提出了格結構數據劃分方法:隨機劃分、按層劃分、圖劃分等三種方法。通過格結構劃分實驗,分析了不同劃分方法的性能。 最後利用開源分散式計算框架Hadoop和Spark,提出和實現大規模格結構數據的分散式存儲以及查詢方法,完成了大規模格結構數據的分析原型系統。

相關詞條

熱門詞條

聯絡我們