梯度消失問題

下圖是神經網路在訓練過程中, 隨epoch增加時各種隱藏層的學習率變化。

兩個隱藏層：[784,30,30,10]

三個隱藏層：[784,30,30,30,10]

四個隱藏層：[784,30,30,30,30,10]

可以看到：前面的隱藏層的學習速度要低於後面的隱藏層。這種現象普遍存在於神經網路之中，叫做消失的梯度問題（vanishing gradient problem）。更加一般地說，在深度神經網路中的梯度是不穩定的，在前面的層中或會消失，或會激增。這種不穩定性才是深度神經網路中基於梯度學習的根本問題。

產生梯度消失問題的原因

下圖是一個極簡單的深度神經網路：每一層都只有一個單一的神經元。

代價函式C對偏置b₁的偏導數的結果計算如下：

sigmoid 函式導數的圖像如圖：

該導數在σ′(0) = 1/4時達到最高。現在，如果我們使用標準方法來初始化網路中的權重，那么會使用一個均值為0 標準差為1 的高斯分布。因此所有的權重通常會滿足|w_j|<1。從而有w_jσ′(z_j) < 1/4。這就是消失的梯度出現的本質原因。

根本的問題其實並非是消失的梯度問題或者激增的梯度問題，而是在前面的層上的梯度是來自後面的層上項的乘積。所以神經網路非常不穩定。唯一可能的情況是以上的連續乘積剛好平衡大約等於1，但是這種幾率非常小。

解決方案

預訓練加微調

Hinton為了解決梯度的問題，提出採取無監督逐層訓練方法，其基本思想是每次訓練一層隱節點，訓練時將上一層隱節點的輸出作為輸入，而本層隱節點的輸出作為下一層隱節點的輸入，此過程就是逐層“預訓練”（pre-training）；在預訓練完成後，再對整個網路進行“微調”（fine-tunning）。Hinton在訓練深度信念網路（Deep Belief Networks中，使用了這個方法，在各層預訓練完成後，再利用BP算法對整個網路進行訓練。此思想相當於是先尋找局部最優，然後整合起來尋找全局最優。