《多維數據布魯姆過濾器的理論與技術》是依託寧波大學,由錢江波擔任負責人的國家自然科學基金資助面上項目。
基本介紹
- 中文名:多維數據布魯姆過濾器的理論與技術
- 依託單位:寧波大學
- 項目負責人:錢江波
- 項目類別:面上項目
項目簡介,結題摘要,
項目簡介
數據過濾技術能夠從靜態或動態的海量數據中快速提純出有價值的數據做進一步處理,它是當前數據爆炸時代非常有效的工具。儘管單維數據過濾器已經研究和套用多年,但針對多維數據過濾器的研究還不多,且主要集中在低維數據的集合判斷問題。基於數據管理技術的前瞻性考慮,項目以多維數據為處理對象,探索高性能數據過濾器的理論和實現技術,為大數據處理領域提供先進、實用的解決方案。研究內容包括:(1)提出低維數據布魯姆過濾器關聯刪除概念和方法,該方法也能用於半連線、視窗更新等其它操作;(2)針對高維數據的不同過濾粒度,提出多粒度距離敏感布魯姆過濾器方案;(3)結合硬體和並行計算的高效性,設計實現可用於數據處理前端流水線加速的硬過濾器;(4)設計實現後端數據處理伺服器的基於MapReduce的批處理和流水線加速方法。該項研究具有原創性,對提高數據處理速度,拓展數據管理技術的理論和方法有重要的理論和現實意義。
結題摘要
數據過濾技術能夠從靜態或動態的海量數據中快速提純出有價值的數據做進一步處理,是當前數據爆炸時代非常有效的工具。基於數據管理技術的前瞻性考慮,項目以多維數據為處理對象,探索高性能數據過濾器的理論和實現技術,為大數據處理領域提供先進、實用的解決方案。研究內容包括:提出低維數據布魯姆過濾器關聯刪除概念和方法,該方法也能用於半連線、視窗更新等其它操作;針對高維數據的不同過濾粒度,提出多粒度距離敏感布魯姆過濾器方案;結合硬體和並行計算的高效性,設計實現可用於數據處理前端流水線加速的硬過濾器;設計實現後端數據處理伺服器的基於MapReduce 的批處理和流水線加速方法。項目按計畫執行,很好地完成了預定目標,部分成果如:(1)創造性地提出可對齊的局部性敏感哈希函式族,在此基礎上,提出了新型多粒度距離敏感布魯姆過濾器,可以處理多個不同距離的近似查詢。提出控制假陽性和假陰性的理論和方法。論文得到審稿專家高度評價,還被包括《美國科學院院刊》(PNAS)等期刊和會議多次引用。(2)提出一種新的數據結構,能夠分別保持兩維數據單獨的摘要信息,還能夠保持兩維數據之間的關聯信息並執行一般數據和流數據的關聯刪除,並採用硬體協處理器來加速運算。(3)大數據時代的數據很多是用海明碼錶示的,而在海明空間不能採用前述多粒度距離敏感布魯姆過濾器方案,因為無法構造虛擬的過濾器。我們創造性的將查詢點虛擬化,擴大查詢半徑,分析相關參數和理論,實現海明空間的多粒度距離敏感布魯姆過濾器。共發表高水平學術論文24篇,其中SCI檢索7篇、EI檢索14篇,申請人有3篇一作為CCF推薦的A類期刊,申請發明專利14項,其中授權發明專利4項,軟體著作權2項。培養研究生24名、博士生2名,畢業研究生13名。該項研究具有原創性,可廣泛套用於大數據粗粒度和細粒度處理,對提高數據處理速度,拓展數據管理技術的理論和方法有重要的理論和現實意義。