基於多核的大規模高維數據並行索引研究

基於多核的大規模高維數據並行索引研究

《基於多核的大規模高維數據並行索引研究》是依託杭州師範大學,由周迪斌擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於多核的大規模高維數據並行索引研究
  • 項目類別:青年科學基金項目
  • 項目負責人:周迪斌
  • 依託單位:杭州師範大學
項目摘要,結題摘要,

項目摘要

傳統高維索引最佳化技術,往往基於串列模式,受制於主頻和儲存限制,性能難以大幅提升。面向新一代高維索引技術的發展趨勢和套用需求,系統研究索引數據量化、索引編碼和壓縮等核心技術,探索高維索引結構線性存儲策略,設計基於並行模式高維索引算法,挖掘多核CPU和GPU內在並行計算能力,提升單機檢索效率;研究並行索引、高維聚類及分散式多級存儲技術,實現多並發條件下海量數據的高效檢索;研究聯合索引策略,通過對快速索引算法有效組合,構建強分類器,提升檢索的準確度,避免單一檢索算法存在的數據依賴性。本項目研究將集中解決高維索引存在的維度災難、性能瓶頸、I/O瓶頸等關鍵性技術難題,實現億級規模高維空間的快速匹配和檢索,為海量多媒體信息檢索、數據挖掘、生物信息檢索和時序數據分析等領域提供強有力的支撐。

結題摘要

項目組按原定研究計畫對所涉及的主要內容進行了深入研究,在高維並行檢索、高維數據的壓縮與層次存儲、圖像特徵提取與匹配等領域都取得了豐富成果。(1)提出了一種非常有效的並行多GPU的海量圖像數據檢索架構,通過並行化指令設計、數據存儲和運算負載平衡,充分挖掘多核和眾核硬體的內在並行性,實現了接近千萬級別的圖像數據的實時檢索,並將該技術套用於電子商務圖片檢索。(2)為進一步提高數據的存儲效率,研究分析了高維數據的維度壓縮理論和方法,通過對維度數據的按維度分布特性最佳化組合,在損失一定的精度條件下,能極大的壓縮其存儲需求。在此基礎上,提出了一種二重檢索算法,第一次以壓縮數據為基礎進行檢索,然後抽取第一次檢索排序結果,採用非壓縮數據,進行精確檢索計算。該方法可以兼顧存儲的需求和檢索的效率,能較好的解決超大數據的檢索需求,但在檢索的準確率方面需要進一步提升。(3)在高維數據的預處理和互動過程中,分析採用多層次的存儲策略,圖像特徵數據存儲在高速外存,如快閃記憶體中,原始數據則存放在普通外存或大型資料庫中;原始圖像數據計算其縮略圖並壓縮存儲,以減少IO訪問次數;同時採用檢索快取設計,減少類似檢索需求時候對系統資源的消耗,提高系統整體效率。 在論文發表方面,共發表相關論文近20篇,其中SCI檢索期刊論文2篇,EI檢索期刊或會議論文4篇,專利申請3個,軟著申請3個。

相關詞條

熱門詞條

聯絡我們