大數據環境下高維數據流挖掘算法及套用研究

大數據環境下高維數據流挖掘算法及套用研究

《大數據環境下高維數據流挖掘算法及套用研究》是依託大連理工大學,由馮林擔任項目負責人的面上項目。

基本介紹

  • 中文名:大數據環境下高維數據流挖掘算法及套用研究
  • 依託單位:大連理工大學
  • 項目類別:面上項目
  • 項目負責人:馮林
項目摘要,結題摘要,

項目摘要

大數據環境下的高維數據流在無線感測網路、移動通信、社交網路以及生物信息等領域有廣泛的套用前景,是當前數據挖掘領域的重要研究方向。由於大數據環境下高維數據流存在維數災難及數據分布不穩定等問題,傳統方法尚難以對如此複雜的數據進行深入的處理和挖掘。本項目研究大數據環境下高維數據流的降維、概念漂移檢測、分類及關聯規則挖掘問題,重點研究其分類及關聯規則挖掘。在大數據環境下,首先通過矩陣分解技術實現任務分解,利用平衡離散度思想對高維數據流進行線性監督降維,得到適合分類的最優低維子空間及低維數據;建立穩定的增量極端學習機分類器。同時,利用子空間投影技術對新數據塊進行概念漂移檢測,以便及時調整分類器實現實時分類。根據類別信息及原始高維數據塊進行有針對性的高效益關聯規則挖掘。本項目旨在為大數據環境下高維數據流的分類及關聯規則問題提供可行的方法,期望有助於大數據環境下高維數據流在更廣範圍內套用。

結題摘要

大數據環境下的高維數據流在無線感測網路、移動通信、社交網路以及生物信息等領域有廣泛的套用前景,是當前數據挖掘領域的重要研究方向。由於大數據環境下高維數據流存在“維數災難”及數據分布不穩定等問題,傳統方法尚難以對如此複雜的數據進行深入的處理和挖掘。針對這些問題,本項目研究了大數據環境下高維數據流的降維、概念漂移檢測、分類及關聯規則挖掘問題,重點研究了其分類及關聯規則挖掘。項目完成了通過矩陣分解技術實現高維數據流挖掘任務分解,進一步利用平衡離散度思想對高維數據流進行線性監督降維,使得高維數據被投影到合適的子空間,得到適合分類的最優低維子空間及低維數的任務。為解決高維數據流的實時性數據挖掘問題,本項目改進並設立了穩定的增量極端學習機分類器,使得數據挖掘模型的疊代和測試速度都顯著增加。同時,針對高維數據流的概念漂移問題,本項目提出了利用子空間投影技術對新數據塊進行概念漂移的檢測的算法,以便及時調整分類器實現實時分類,使得模型對新類型數據依然魯棒。最後,本項目還設計並實現了基於樣本類別信息及原始高維數據塊進行有針對性的高效關聯規則挖掘的算法。本項目共發表學術論文31篇,其中17篇被SCI索引,13篇被EI索引。項目在高維數據流挖掘的各個方面均提供了切實可行的方法,促進了當下大數據環境下高維數據流的挖掘工作。

相關詞條

熱門詞條

聯絡我們