面向計算密集型的海量數據查詢處理關鍵技術研究

項目摘要

隨著社會經濟的迅速發展，面對海量數據的計算密集型查詢處理需求日益增加，呈現出數據大規模、類型多樣化、計算複雜化等特點。這些需求和特點都對傳統的海量數據管理和查詢處理方式提出了新的挑戰。本項目以構建可靠、高效、低成本的大規模數據查詢處理平台為目標，以大規模數據的存儲、分布、索引、查詢處理及用戶接口等為研究重點，研究有利於線上數據高效查詢和離線數據可靠備份的分散式存儲體系結構、高效的大規模數據存取訪問機制、大規模異構數據的索引管理機制、智慧型調度與任務管理機制以及面向用戶的高效並行查詢語言及新型編程模型等基本理論和關鍵技術，並為智慧型電網、電子商務等行業需要構建自適應性強、性能好的計算密集型套用平台提供基礎。本課題的研究工作具有重要的理論價值和現實意義，將對大規模數據管理的基礎理論與關鍵技術的研究起到重要推動作用，對其在航空航天、天文氣象等國家重要領域的套用起到引導作用。

結題摘要

隨著社會經濟的迅速發展，面對海量數據的計算密集型查詢處理需求日益增加，呈現出數據大規模、類型多樣化、計算複雜化等特點。這些需求和特點都對傳統的海量數據管理和查詢處理方式提出了新的挑戰。本項目以大規模數據的存儲、分布、索引、查詢處理等為研究重點，從海量數據的特點出發，提出了利用非結構化數據的子結構來設計面向計算密集型查詢的索引結構和剪枝方法。具體的，在本課題的研究過程中，我們研究了三類典型的查詢“字元串匹配查詢”，“圖匹配查詢”和“多屬性Skyline查詢”。我們利用數據預處理、索引、過濾及提煉的框架進行字元串查詢處理。在預處理過程中，引入了有效的數據結構——n-gram對字元串的特徵進行提取，並設計出兩層索引機制、剪枝算法TA和CA過濾不在查詢結果之內的字元串，從而得到查詢的候選結果集。基於該研究成果的論文已經被國際頂尖會議VLDB 2014錄用並發表。同時為了解決圖數據中的近似匹配問題，我們根據已有的框架結構，利用圖的子結構特徵創建了兩層索引SEGOS，該方法可以增加剪枝的能力，但同時它也會增大查詢過程中索引過濾的代價。在研究過程當中，我們動態的調整子結構的複雜度，以使得最終建立的索引達到最低的查詢代價。基於該研究成果的論文已經被國際頂尖會議ICDE 2012以長文形式發表。大規模分散式系統中高效率數據訪問與查詢的關鍵因素是路由路徑的選擇, 而基本路由算法在實際套用中往往引起很大的通訊負擔，特別是在大規模分散式系統中會產生網路堵塞。鑒於此，我們給出了一個分散式機率skyline 查詢的處理框架，以及分散式機率 skyline 查詢處理算法DSUD和e-DSUD，利用中央伺服器提供的反饋信息，刪除本地節點上不可能成為查詢結果的數據，從而加速查詢處理的時間並減少網路的通訊負擔，基於該研究成果的論文已經被國際頂尖期刊IEEE TKDE發表。本課題研究過程中，我們已經在國內外期刊和會議上發表學術論文12篇，其中計算機學會推薦的頂級（A類）期刊/會議論文3篇，包括IEEE TKDE, VLDB, ICDE等。根據Google Scholar統計，本項目所發表的論文，目前已被國內外同行引用40餘次。在人才培養方面，本項目總共培養研究生9名，其中包括博士3名和碩士6名。

面向計算密集型的海量數據查詢處理關鍵技術研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條