大規模標註RDF數據管理的關鍵技術研究

大規模標註RDF數據管理的關鍵技術研究

《大規模標註RDF數據管理的關鍵技術研究》是依託華中科技大學,由袁平鵬擔任項目負責人的面上項目。

基本介紹

  • 中文名:大規模標註RDF數據管理的關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:袁平鵬
  • 依託單位:華中科技大學
項目摘要,結題摘要,

項目摘要

隨著數據規範組織與互聯的需要,RDF數據量在迅速增長,與之相伴隨的RDF數據元信息,即標註RDF數據規模同樣在快速增加,亟待有效管理。目前標註RDF數據的管理通常基於RDF的數據模型,並沿用其存儲技術,未能有效考慮標註RDF數據的特徵。這導致數據模型的靈活性不好,表達能力弱。採用RDF數據的存儲技術來管理標註RDF數據可擴展性差,消耗的存儲空間膨脹,性能低,當存儲大規模數據時問題尤為突出。針對大規模標註RDF數據管理問題,本項目首先研究基於多部圖的標註RDF數據模型、其矩陣表示和變換運算。為存儲大規模標註RDF數據,研究標註RDF數據的存儲結構及標註RDF數據劃分;研究標註RDF數據的壓縮技術以提高存儲效率;研究標註RDF數據的索引選取及構建技術以便於高效查詢及推理。本項目研究形成的有關刻畫標註RDF數據的模型、大規模標註RDF存儲結構將為大規模標註RDF數據管理提供支持。

結題摘要

隨著數據規範組織與互聯的需要,RDF 數據量在迅速增長,與之相伴隨的RDF 數據元信息,即標註RDF 數據規模同樣在快速增加,亟待有效管理。圍繞申請內容,本課題研究了標註RDF數據模型、可擴展的標註RDF數據存儲結構、標註RDF數據壓縮技術以及標註RDF數據索引技術。按照要求完成了每年的研究計畫,並在本課題的基礎上增加了一些相關前沿研究工作,如:研究(標註)RDF數據的查詢處理技術、研究信息抽取技術及示範套用等。針對研究內容,1、提出了基於多部圖的標註RDF 數據模型、其矩陣表示和變換運算。該模型可統一表達標註RDF數據和RDF數據,為統一處理RDF數據及其標註數據提供了理論基礎。2、為了降低存儲數據所占用空間,提出了URI壓縮技術、變長ID編碼、列壓縮及增量壓縮等方法。3、基於標註RDF數據模型,設計了支持RDF和標註RDF數據的統一存儲方法以及緊湊的存儲結構。該存儲方法通用且易於管理,克服了國際上主流RDF存儲結構中存儲多份數據所帶來的存儲空間浪費、訪問低效等缺陷。4、提出了ID-Chunk和ID-Predicate兩種索引方法來加速數據塊的定位和謂詞未知的查詢處理。5、為有效處理查詢,提出了動態的查詢計畫生成方法及塊式Pipeline查詢執行方法執行以提高查詢執行速度。6、本研究研發了可統一存儲RDF數據及其標註數據的存儲系統TripleBit。與目前國際上著名的RDF數據存儲系統RDF-3X、BitMat和MonetDB在多個測試集LUBM、UniProt和BTC2012上進行對比測試。結果表明,在存儲空間上比RDF-3X至少降低了40%。在查詢性能上比對比系統提高了幾倍。研究成果發表在計算機學會所制定的“資料庫、數據挖掘與內容檢索”領域A類會議VLDB 2013和B類期刊Knowledge and Information Systems等上。所研發的系統TripleBit已於網上開源(http://grid.hust.edu.cn/triplebit),供學術同行共享及評價。

相關詞條

熱門詞條

聯絡我們