流形學習

流形學習

流形學習,全稱流形學習方法(Manifold Learning),自2000年在著名的科學雜誌《Science》被首次提出以來,已成為信息科學領域的研究熱點。在理論和套用上,流形學習方法都具有重要的研究意義。假設數據是均勻採樣於一個高維歐氏空間中的低維流形,流形學習就是從高維採樣數據中恢復低維流形結構,即找到高維空間中的低維流形,並求出相應的嵌入映射,以實現維數約簡或者數據可視化。它是從觀測到的現象中去尋找事物的本質,找到產生數據的內在規律。

基本介紹

  • 中文名:流形學習
  • 外文名:Manifold Learning
  • 介紹:成為信息科學領域的研究熱點
  • 簡介:2000年科學雜誌Science首次提出
  • 定義:從高維採樣數據恢復低維流形結構
  • 分類:模式識別中的基本方法,
分類,Isomap,LE,LLE,PCA,MDS,

分類

流形學習方法是模式識別中的基本方法,分為線性流形學習算法和非線性流形學習算法,非線性流形學習算法包括等距映射(Isomap),拉普拉斯特徵映射(Laplacian eigenmaps,LE),局部線性嵌入(Locally-linear embedding,LLE)等。而線性方法則是對非線性方法的線性擴展,如主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等。

Isomap

Isomap由麻省理工學院計算機科學與人工智慧實驗室的JoshTenenbaum教授於2000在Science雜誌上提出。Isomap的主要目標是對於給定的高維流形,欲找到其對應的低維嵌入,使得高維流形上數據點間的近鄰結構在低維嵌入中得以保持。Isomap以MDS(Multidimensional Scaling)為計算工具,創新之處在於計算高維流形上數據點間距離時,不是用傳統的歐式距離,而是採用微分幾何中的測地線距離(或稱為曲線距離),並且找到了一種用實際輸入數據估計其測地線距離的算法(即圖論中的最小路徑逼近測地線距離)。
Isomap的優點在於:
  1. 求解過程依賴於線性代數的特徵值和特徵向量問題,保證了結果的穩健性和全局最優性;
  2. 能通過剩餘方差判定隱含的低維嵌入的本質維數;
  3. Isomap方法計算過程中只需要確定唯一的一個參數(近鄰參數k或鄰域半徑e)。

LE

LE(Laplacian eigenmaps)的基本思想是,用一個無向有權圖描述一個流形,然後通過用圖的嵌入(graph embedding)來找低維表示。簡單來說,就是在保持圖的局部鄰接關係的情況下,將其圖從高維空間中重新畫在一個低維空間中(graph drawing)。
在至今為止的流形學習的典型方法中,LE速度最快,但是效果相對來說不理想。
LE的特點,就是如果出現離群值(outlier)情況下,其魯棒性(robustness)十分理想。這個特點在其他流形學習方法中沒有體現。

LLE

局部線性嵌入相關工作發表在Science (2000) 上,是非線性降維的里程碑。
LLE算法可以歸結為三步:
  1. 尋找每個樣本點的k個近鄰點;
  2. 由每個樣本點的近鄰點計算出該樣本點的局部重建權值矩陣;
  3. 由該樣本點的局部重建權值矩陣和其近鄰點計算出該樣本點的輸出值。具體的算法流程如下圖所示。
LLE算法流程圖LLE算法流程圖

PCA

主成分分析(PCA)被認為是一種特別成功的特徵提取和降維算法。它的原理是,利用對原來的變數進行線性組合而得到新的變數(主成分),這些變數之間的方差最大。因為數據原來的變數之間有可能差距不大,描述的內容差不多,故效率低下。換句話說,我們可能說了很多話,但是卻在講同一件事情。由於方差在數據中描述的變數之間的差距,故方差最大也就意味著新的變數之間有比較大的差距。這樣,就可以以較高的效率描述數據。

MDS

與PCA類似,多維尺度分析(MDS)的目的也是把觀察的數據用較少的維數來表達。然而,MDS利用的是成對樣本間相似性構建合適的低維空間,使得樣本在此空間的距離和在高維空間中的樣本間的相似性儘可能的保持一致。
MDS方法有5個關鍵的要素,分別為主體、客體、準則、準則權重、主體權重。具體定義為:
  1. 客體:被評估的對象。可以認為是待分類的幾種類別。
  2. 主體:評估客體的單位。就是訓練數據。
  3. 準則:根據研究目的自行定義,用以評估客體優劣的標準。
  4. 準則權重:主體衡量準則重要性後,對每個準則分別賦予權重值。
  5. 主體權重:研究者權衡準則重要性後,對主體賦予權重值。

相關詞條

熱門詞條

聯絡我們