基於概要結構的數據流歷史數據的組織與分析

《基於概要結構的數據流歷史數據的組織與分析》是陳華輝為項目負責人,寧波大學為依託單位的面上項目。

基本介紹

  • 中文名:基於概要結構的數據流歷史數據的組織與分析
  • 項目類別:面上項目
  • 項目負責人:陳華輝
  • 依託單位:寧波大學
項目摘要,結題摘要,

項目摘要

動態構造能近似表示數據流的概要結構是數據流處理的核心。目前數據流研究多假設套用中用戶主要關心最近時間段內數據流上的數據,因而構造概要時一般採用界標模型、滑動視窗模型或數據衰減模型等三種模型,對較遠過去的流歷史數據,要么完全放棄,要么被衰減成影響很小。但分析實際的數據流套用可以發現,有許多套用會關心數據流歷史數據。本項目通過保存數據流歷史視窗的概要,進而提供歷史概要組織和管理的有效手段,從而實現數據流歷史數據的有效分析和處理。主要研究: (1)概要的歸併; (2)概要的分層組織; (3)概要的索引結構; (4)分散式環境中的數據流概要的索引和組織; (5)利用概要的分層組織和索引結構,提供對數據流歷史數據的各類分析,包括OLAP分析、相似性分析、相關性分析、kNN查詢、聚類分析、趨勢分析、頻繁項分析和聚集查詢等。

結題摘要

隨著計算機網路和各類電子設備套用的越來越廣泛,越來越多的數據以連續的流的形式出現,如網路路由信息,感測器網路採集的實時信號,證券交易、信用卡交易、商場購物交易等的實時記錄,網際網路網站點擊流,電信網路的電話呼叫業務記錄,聊天室、簡訊等的實時文本流等,均產生連續不斷的各類數據。這些數據被稱為流數據或數據流。因為數據流和傳統資料庫等系統中處理的數據的巨大差別,迫使研究人員對數據流模型和處理方法進行深入研究。 數據流處理的關鍵是套用單趟數據掃描算法,建立流數據的概要結構,以便隨時能根據該結構提供數據流的近似處理結果。本項目通過保存數據流的概要,進而提供概要組織和管理的有效手段,從而實現數據流數據的有效分析和處理。針對目前數據流套用中典型的概要結構,包括直方圖、隨機抽樣、小波、隨機投影和sketch等,本項目主要研究了多個概要是如何歸併的、概要的分層組織、概要的索引結構、分散式環境中的數據流概要的索引和組織,並利用概要結構,提供對數據流數據的各類分析,包括相似性分析、相關性分析、Join查詢、聚類分析、趨勢分析、頻繁項分析、Top-k查詢、Skyline查詢等。

相關詞條

熱門詞條

聯絡我們