《基於圖模型的海量非結構化數據查詢語言及其最佳化實現》是依託華東師範大學,由錢衛寧擔任項目負責人的面上項目。
基本介紹
- 中文名:基於圖模型的海量非結構化數據查詢語言及其最佳化實現
- 項目類別:面上項目
- 項目負責人:錢衛寧
- 依託單位:華東師範大學
項目摘要,結題摘要,
項目摘要
海量非結構化數據的管理是新型數據密集型套用中碰到的重要問題,圖模型是對非結構數據進行建模的一種重要工具。本項目旨在針對Web數據管理、科學數據管理等套用對於海量非結構化數據管理的需求,系統研究基於圖模型的非結構化數據查詢語言的形式化定義和語義基礎、靈活/可擴展的查詢語言設計、針對集群環境的查詢計畫表示與代價模型,以及高效的適應性分散式查詢最佳化算法。項目將針對套用中查詢需求多樣、數據量大、套用環境為大規模集群的特點,重點研究基於圖模型的查詢語言的形式化描述、環境相關的查詢計畫表示和代價模型,集群環境中無集中控制的分散式代價估計、代價維護和適應性查詢處理和最佳化技術,並通過具有實際套用背景的原型系統驗證所研究方法的有效性。項目的研究工作基於項目組成員多年來對於分散式和P2P系統中的查詢處理、Web數據管理、集群環境中的數據存儲與索引研究工作,是現有研究的自然延續。項目目標明確,可行性較強。
結題摘要
海量非結構化數據的管理是新型數據密集型套用中碰到的重要問題,圖模型是對非結構數據進行建模的一種重要工具。本項目針對 Web 數據管理、科學數據管理等套用對於海量非結構化數據管理的需求,系統研究基於圖模型的非結構化數據查詢語言的形式化定義和語義基礎、靈活/可擴展的查詢語言設計、針對集群環境的查詢計畫表示與代價模型,以及高效的適應性分散式查詢最佳化算法。項目針對套用中查詢需求多樣、數據量大、套用環境為大規模集群的特點,重點研究基於圖模型的查詢語言的形式化描述、環境相關的查詢計畫表示和執行,集群環境中的分散式查詢處理和最佳化技術,並通過具有實際套用背景的原型系統驗證所研究方法的有效性。 經過四年的研發,項目課題按照原計畫進行。項目以社交媒體這一典型的大規模圖數據為切入點,形式化地定義了圖數據模型下社交流(social stream)查詢語言SSQL;結合社交網路套用的圖數據查詢需求,制定了社交網路分析型查詢基準評測,以公開、可測量的形式,描述了圖模型數據查詢需求;在基準評測中,對圖模式匹配、時序查詢、熱點查詢等典型查詢模式進行了定義,同時定義了這些典型查詢模式的查詢計畫表示方法;在制定基準評測時,對影響圖模型數據的統計特徵,特別是其中顯著影響查詢性能的統計特徵進行了定義和分析,同時研究了分散式環境下統計特徵計算和估計方法;項目著重研究了社交數據流這一典型圖模型數據的查詢處理和最佳化技術,包括社交數據流統計值查詢處理、圖結構數據的壓縮以及基於壓縮圖的查詢處理技術、社交數據流的自適應取樣等;項目組收集了海量社交媒體數據,基於這些數據,利用課題所研發的技術,課題組設計和開發了網上集群行為資源庫,展示和驗證了課題所研發的圖模型數據查詢處理和最佳化技術的有效性。 項目組成員在重要學術會議和重要學術期刊上發表18篇高質量的學術論文(包括15篇研究論文和3篇演示論文),申請發明專利6項,申請並獲得軟體著作權6項,獲得教育部科技進步二等獎1項(第5獲獎人),培養博士5人(2人畢業),碩士5人(畢業5人)。