欠完備自編碼器

欠完備自編碼器

自編碼器(autoencoder)是神經網路的一種,經過訓練後能嘗試將輸入複製到輸出。從自編碼器獲得有用特徵的一種方法是限制 h 的維度比 x 小,這種編碼維度小於輸入維度的自編碼器稱為欠完備(undercomplete)自編碼器。學習欠完備的表示將強制自編碼器捕捉訓練數據中最顯著的特徵。

基本介紹

  • 中文名:欠完備自編碼器
  • 外文名:undercomplete autoencoder
  • 學科:人工智慧
  • 特徵:輸出維度小於輸入維度
  • 有關術語:自編碼器
  • 目的:學習數據分布最顯著的特徵
簡介,自編碼器,特徵表達及數據降維,

簡介

從自編碼器獲得有用特徵的一種方法是限制 h的維度比 x 小,這種編碼維度小於輸入維度的自編碼器稱為欠完備(undercomplete)自編碼器。學習欠完備的表示將強制自編碼器捕捉訓練數據中最顯著的特徵。
學習過程可以簡單地描述為最小化一個損失函式L(x,g(f(x))),其中 L 是一個損失函式,懲罰g(f(x)) 與 x 的差異,如均方誤差。當解碼器是線性的且 L 是均方誤差,欠完備的自編碼器會學習出與 PCA相同的生成子空間。這種情況下,自編碼器在訓練來執行複製任務的同時學到了訓據的主元子空間。如果編碼器和解碼器被賦予過大的容量,自編碼器會執行複製任務而捕捉不到任何有關數據分布的有用信息。

自編碼器

自編碼器是一種無監督學習算法,其輸出能夠實現對輸入數據的復現。自編碼器的概念是 Rumelhart等最早提出的,自編碼器是一種數據壓縮算法,它使用編碼器實現數據壓縮,使用解碼器實現解壓縮。編碼階段將高維數據映射成低維數據,減少數據量;而解碼階段正好相反, 從而實現對輸入數據的復現。2006 年,Hinton 等將其作為一種降維方法發表在 Science 上。 文章通過使用“互補先驗”的方法推導出一個快速貪婪算法, 逐層學習深度定向網路,然後對整個網路的參數進行最佳化, 改善了傳統方法易陷入局部極小的情況,由此產生了深度自編碼器。Bengio 等在深度自編碼器的研究過程中, 加入了稀疏性的限制,
使用儘可能少的神經元學習提取有用的數據特徵, 進而產生了稀疏自編碼器。Vincent 等為了提高算法的健壯性, 在輸入數據中加入了噪聲, 形成了去噪自編碼器。2010年,Rifai等在維度處理的過程中加以限制,提出了收縮自編碼器。

特徵表達及數據降維

真實世界中存在大量非常複雜的事物和現象,通常我們希望能夠以一種更加簡潔且完整的方式去表示一個事物或現象,這就需要去揭示隱藏在複雜表象下的事物或現象的客觀規律。
從某個事物或現象(例如天氣狀況)中抽象出一些數據(如溫度、濕度、風力等),通過多個變數來表示或描述一個現象,這個多維變數叫做特徵。特徵作為機器學習系統的原材料,
對於最終模型的影響毋庸置疑。機器學習算法的性能在很大程度上取決於數據表達或特徵表達的選擇,當數據能夠被很好地表達為特徵時,即便使用簡單的模型也可達到滿意的精度。故在實際套用機器學習算法時,很重要的一個步驟是怎樣預處理數據以得到一個好的特徵表達。
真實世界中的數據通常是高維的。對高維數據的處理包括兩點特性。第一點是“維數災難”,它給後面的數據處理帶來困難,是處理高維數據時遇到的最大問題之一;第二點是“維數福音”,高維數據中包含著關於客觀事物和現象的極為全面和豐富的信息,蘊含著解決問題的可能性,當然也含有很多冗餘信息。作為一類普遍存在的規律,在大多數情況下我們觀察到的從表面上看是高維的、複雜的事物或現象,實際上是可以用少量的簡單變數來支配的。
處理高維數據的關鍵是在眾多的因素中找到事物的本質規律。表達轉換指的是將原始表達轉換為另一個不同的表達,表達維數小於原始表達維數的情形。在模式識別系統中,使用到的特徵很重要,經常需要將高維的冗餘的原始特徵轉換為低維的保留有效信息的特徵,也就是特徵轉換。特徵轉換可以分為兩類:第一類是“特徵選擇”,即從原始表達中選擇一個子集作為新的表達;第二類是“特徵抽取”,即將原始表達投影到一個低維特徵空間中以得到一個更加緊湊的表達。

相關詞條

熱門詞條

聯絡我們