預測稀疏分解(predictive sparse decomposition,PSD)是稀疏編碼和參數化自編碼器的混合模型。該模型由一個編碼器f(x)和一個解碼器g(h)組成,並且都是參數化的。在訓練過程中,h由最佳化算法控制。
基本介紹
- 中文名:預測稀疏分解
- 外文名:predictive sparse decomposition
- 屬於:近似學習推斷
- 組成:稀疏編碼和參數化自編碼器
- 訓練過程:交替最佳化h和模型參數
- 套用:無監督特徵學習
基本內容,訓練,套用,不足,
基本內容
預測稀疏分解(predictive sparse decomposition,PSD)是稀疏編碼和參數化自編碼器的混合模型。參數化編碼器被訓練為能預測疊代推斷的輸出。該模型由一個編碼器 和一個解碼器 組成,並且都是參數化的。在訓練過程中, 由最佳化算法控制。最佳化過程是最小化:
訓練
和稀疏編碼相同,訓練算法交替地相對和模型的參數最小化上述目標。相對 最小化較快,因為 提供的良好初始值以及損失函式將 約束在 附近。簡單的梯度下降算法只需 10 步左右就能獲得理想的 。
PSD 所使用的訓練程式不是先訓練稀疏編碼模型,然後訓練來預測稀疏編碼的特徵。 PSD 訓練過程正則化解碼器,使用 可以推斷出良好編碼的參數。
套用
預測稀疏分解是學習近似推斷(learned approximate inference)的一個例子。PSD 能夠被解釋為通過最大化模型的對數似然下界訓練有向稀疏編碼的機率模型。PSD 被套用於圖片和視頻中對象識別的無監督特徵學習,在音頻中也有所套用。
在 PSD 的實際套用中,疊代最佳化僅在訓練過程中使用。模型被部署後,參數編碼器用於計算已經習得的特徵。相比通過梯度下降推斷 ,計算是很容易的。因為 是一個可微帶參函式, PSD 模型可堆疊,並用於初始化其他訓練準則的深度網路。
不足
預測性的稀疏分解模型訓練一個淺層編碼器網路,從而預測輸入的稀疏編碼。這可以被看作是自編碼器和稀疏編碼之間的混合。為模型設計機率語義是可能的,其中編碼器可以被視為執行學成近似 MAP 推斷。由於其淺層的編碼器, PSD 不能實現我們在均值場推斷中看到的單元之間的那種競爭。然而,該問題可以通過訓練深度編碼器實現學成近似推斷來補救,如 ISTA 技術。
當訓練集不足以捕獲樣本的變化時,PSD在實際套用中可能無法實現令人滿意的性能。