基於圖的大規模異質信息網路的匹配查詢關鍵技術研究

《基於圖的大規模異質信息網路的匹配查詢關鍵技術研究》是依託北京大學,由鄒磊擔任負責人的面上項目。

基本介紹

  • 中文名:基於圖的大規模異質信息網路的匹配查詢關鍵技術研究
  • 項目負責人:鄒磊
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

近年來圖數據研究引起了學術界和工業界的廣泛關注。本項目研究異質信息網路數據中的圖匹配查詢問題。不同於簡單標籤圖數據,異質信息網路具有豐富的語義信息,可更好地對於現實世界中的圖結構數據進行建模,例如RDF語義網路和社會網路數據。由於傳統的圖模式匹配的方法主要集中在簡單標籤圖,這些方法不能有效地解決語義豐富的異質信息網路的圖模式匹配查詢問題。為此,本項目的研究圍繞圖模式匹配這個核心問題,從查詢性能和查詢語義兩個方面系統地研究海量異質信息網路圖模式匹配查詢。為了提高查詢性能,擬提出面向豐富語義信息的異質信息網路的索引機制,基於圖結構的物化視圖方法,分散式並行環境下的圖匹配查詢方法等。同時為了支持公眾用戶在RDF語義網路知識搜尋和社會網路數據檢索中更方便表示其查詢語義,本項目擬研究支持用戶輸入自然語言問題檢索異質信息網路數據的方法,具體指將輸入的自然語言問題轉換為異質信息網路上的圖模式匹配查詢圖。

結題摘要

圍繞著海量異質網路數據問題,本項目開展了如下研究工作: (1) 異質信息網路的索引技術研究 本項目以社交網路和語義網等真實數據為背景,以異質信息網路為模型,提出該模型下的面向圖匹配的查詢索引機制和查詢最佳化等相關技術。 此方面,我們提出多種針對異質信息網路查詢,包括Skyline查詢,圖的近似查詢等索引結構,並構建相關的系統;論文發表在TKDE,VLDB等。具體見總結報告的第二部分和已發表論文列表。 (2) 基於圖結構的物化視圖的策略 由於傳統的關係資料庫是基於關係表結構的,它的物化視圖通常也採用關係表來表示。異質信息網路是基於圖模型的,傳統的基於表的物化方法會帶來大量物化空間的浪費。為此,本項目主要關注基於圖結構的物化視圖的構建,組織等策略來減少空間代價。此方面提出利用查詢的日誌來挖掘圖結構數據中的概念信息,對數據進行物化處理,相關工作發表在EDBT等會議中。 (3) 分散式並行環境下基於語義的異質信息網路的劃分策略 不同於傳統的圖劃分的研究,異質信息網路具有大量的語義信息。傳統的圖劃分主要根據圖的結構,例如最小切策略 。本項目將著重分析在海量異質信息網路中,基於語義的圖數據劃分方法。此方面提出了多種分散式環境下的SPARQL查詢方法,並構建了相關分散式RDF圖資料庫系統Distributed gStore,相關工作發表在TKDE和VLDB Journal等國際頂級期刊中。 (4) 基於自然語言問題理解的圖模式匹配方法 本項目將研究從自然語言問題到圖模式匹配查詢的轉化。從而支持用戶利用自然語言問題的輸入來檢索帶有豐富語義信息的異質信息網路數據。此方面提出了將用戶自然語言轉換為查詢圖,並進行匹配得到查詢答案,將自然語言問題中的消歧和查詢執行結合起來,既提高查詢效率,也提高了查詢的準確度,論文發表在SIGMOD等。 我們開發了一項開源的圖資料庫系統gStore,可以支持20-30邊億規模圖數據的存儲和SPARQL查詢工作;其分散式版本可以支持100億規模的圖數據的存儲和SPARQL查詢。開源系統發布https://github.com/Caesar11/gStore 上。本項目發表論文26篇,其中計算機領域頂級期刊和會議論文12篇(CCF-A)。該項目部分研究成果《海量圖結構數據存儲和查詢最佳化理論研究》獲得2014年中國計算機學會自然科學獎二等獎(鄒磊排名第一)

相關詞條

熱門詞條

聯絡我們