維數約簡

維數約簡是機器學習領域中一個重要的研究方向。近年來,高維海量不可控數據的現狀,維數約簡算法又一次成為人們關注的焦點。

基本介紹

  • 中文名:維數約簡
  • 外文名:Dimensionality reduction
  • 意義:防止了維數災難的發生
  • 目的:去除噪聲的影響
定義,意義,提出背景,常用維數約簡方法,維數約簡分類,按照約簡維數的大小,按照數據時序的情況,按照有無監督信息,

定義

維數約簡:Dimensionality reduction
維數約簡又稱為降維,是機器學習的一種必要手段。若資料庫X是屬於n維空間的,通過特徵提取或者特徵選擇的方法,將原空間的維數降至m維,要求m遠小於n,滿足:m維空間的特性能反映原空間數據的特徵,這個過程稱之為維數約簡。

意義

維數約簡是相對於維數災難或者說是高維數據來提出的,很明顯,其意義就是降低原來的維數,並保證原資料庫的完整性,在約簡後的空間中執行後續程式將大大減少運算量,提高數據挖掘效率,且挖掘出來的結果與原有數據集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。

提出背景

在科學研究中,我們常常要對數據進行處理,而這些數據通常位於一個高維空間中,例如當處理一個256*256 的圖像序列時,我們需要將其拉成一個向量,這樣,我們就得到了65536維的數據,如果直接對這些數據進行處理,會有以下問題:首先,會出現所謂的“維數災難”問題,巨大的計算量將使我們無法忍受;其次,這些數據通常沒有反映出數據的本質特徵,如果直接對他們進行處理,不會得到理想的結果。所以,通常我們需要首先對數據進行維數約簡,然後對約簡後的數據進行處理。當然要保證約簡後的數據特徵能反映甚至更能揭示原數據的本質特徵。
通常,我們進行數據維數約簡主要是基於以下目的:
1、壓縮數據以減少存儲量
2、去除噪聲的影響
3、從數據中提取特徵以便進行分類
4、將數據投影到低維可視空間,以便於看清數據的分布
對付高維數據問題基本的方法就是維數約簡,即將n 維數據約簡成m(M<<N)維數據,並能保持原有數據集的完整性,在m 上進行數據挖掘不僅效率更高,且挖掘出來的結果與原有數據集所獲得結果基本一致。分析現有的數據挖掘模型,用於數據維數約簡的基本策略歸納起來有兩種:一種是從有關變數中消除無關、弱相關和冗餘的維,尋找一個變數子集來構建模型。換句話說就是在所有特徵中選擇最優代表性的特徵,稱為特徵選擇。另一種特徵提取,即通過對原始特徵進行某種操作獲取有意義的投影。也就是把n 個原始變數變換為m 個變數,在m上進行後續操作。

常用維數約簡方法

數據維數約簡的方法可以分為線性維數約簡和非線性維數約簡,而非線性維數約簡又分為基於核函式的方法和基於特徵值的方法。線性維數約簡的方法主要有主成分分析(PCA)、獨立成分分析(ICA)、線性判別分析(LDA)、局部特徵分析(LFA)等等。基於核函式的非線性維數約簡方法有基於核函式的主成分分(KPCA)、基於核函式的獨立成分分析(KICA)、基於核函式的決策分析(KDA)等等。基於特徵值的非線性降維方法有ISOMAP 和LLE。綜合如下:
維數約簡方法論維數約簡方法論
LDA\ Fisher DA
常用維數約簡方法比較常用維數約簡方法比較
KPCA
KICA
ISOMAP
LLE
數學變換(DFT DCT)
KLT
P-NORMS 和內積
MLT(多核學習)
流形學習…… 等等

維數約簡分類

維數約簡可按照不同的分類標準,分成不同的類別,常見的分類方式有以下三種。

按照約簡維數的大小

維數約簡問題常常被分為以下三類,分別是:
  • 硬維數約簡問題:硬維數約簡問題(hard dimensionality reduction problems) 處理的是維數範圍在從幾百到成百上千維的高維問題,對於硬維數約簡問題來說這個約簡過程通常是很激烈的。著名的問題像模式識別和包括圖像與語音在內的分類問題,比如人臉識別、特徵識別、聽覺模式等都屬於這一類。
  • 軟維數約簡問題:軟維數約簡問題(soft dimensionality reduction problems) 通常處理的問題僅包含了幾十維的數據,比硬維數約簡問題的維數要少很多。其約簡過程由於只需約簡較少的維數而顯得不是很激烈。像在社會科學、心理學等里的大多數統計分析都屬於這一類。
  • 可視化問題:這個問題所研究的問題是:數據本身具備一個很高的維數,但是我們需要約簡它到1、2 或者3 維空間,並繪製和可視化它。幾個代表性的技術可將一些數據可視化到5 維數據集,分別利用顏色(colors)、旋轉(rotation)、立體投影法(stereography)、圖像字元(glyph) 或者其他裝置,但是它們缺乏對一個樣本點的吸引力,一個著名的表達技術是the grand tour。Chernoff 臉允許更多維數,但是它很難解釋和產生這個數據的空間視圖。

按照數據時序的情況

    按照有無監督信息

    • 監督式維數約簡: 監督式維數約簡其本質就是約簡過程是一種監督學習(Supervised learning)過程,利用一組已知類別的樣本調整分類器的參數,使其達到所要求性能的過程,也稱為監督訓練或有教師學習。正如人們通過已知病例學習診斷技術那樣,計算機要通過學習才能具有識別各種事物和現象的能力。用來進行學習的材料就是與被識別對象屬於同類的有限數量樣本。監督學習中在給予計算機學習樣本的同時,還告訴計算各個樣本所屬的類別。
    • 半監督式維數約簡: 主要考慮如何利用標註樣本和未標註樣本進行訓練和分類。
    • 非監督式維數約簡: 即指約簡過程的學習樣本不帶有類別信息。

    相關詞條

    熱門詞條

    聯絡我們