隨機失活

隨機失活

隨機失活(dropout)是對具有深度結構的人工神經網路進行最佳化的方法,在學習過程中通過將隱含層的部分權重或輸出隨機歸零,降低節點間的相互依賴性(co-dependence )從而實現神經網路的正則化(regularization),降低其結構風險(structural risk)。

基本介紹

  • 中文名:隨機失活
  • 外文名:dropout
  • 提出者:G. Hinton,N. Srivastava,A. Krizhevsky 等 
  • 提出時間:2012年 
  • 學科:人工智慧
總結,動機,實現,效果,

總結

具有大量參數的深度神經網路是非常強大的機器學習系統。然而,過擬合是這種網路中的嚴重問題。大型網路使用起來也很慢,因此在測試時通過組合許多不同的大型神經網路的預測很難處理過擬合。隨機失活是一種解決此問題的技術。關鍵思想是在訓練期間從神經網路中隨機丟棄單位(及其連線)。這可以防止單位共適應太多。在訓練期間,從指數數量的不同“稀疏”網路中抽取樣本。在測試時,通過簡單地使用具有較小權重的單個未加網路的網路,很容易近似平均所有這些稀疏網路的預測的效果。這顯著減少了過擬合,並且比其他正則化方法有了重大改進。研究表明,隨機失活提高了神經網路在視覺,語音識別,文檔分類和計算生物學中監督學習任務的性能,在許多基準數據集上獲得了最先進的結果。

動機

隨機失活是為解決深度神經網路的過擬合(overfitting)和梯度消失(gradient vanishing)問題而被提出的最佳化方法,其一般構想是在神經網路的學習過程中,隨機將部分隱含層節點的權重歸零,由於每次疊代受歸零影響的節點不同,因此各節點的“重要性”會被平衡。引入隨機失活後,神經網路的每個節點都會貢獻內容,不會出現少數高權重節點完全控制輸出結果的情況,因此降低了網路的結構風險。

實現

按神經網路自身的不同結構,隨機失活的實現方法有差異。對多層感知器(Multi-Layer Perceptron, MLP),隨機失活通常將選中節點的輸出歸零;對卷積神經網路(Convolutional Neural Network, CNN),隨機失活可以隨機將卷積核的部分元素歸零,即隨機連線失活(drop connect),或在多通道情形下隨機歸零整個特徵圖的通道,即空間隨機失活(spatial dropout);對循環神經網路(Recurrent Neural Network, RNN),隨機失活按網路的拓撲結構可以作用於每個時間步的輸入和狀態矩陣。

效果

隨機失活通常降低了神經網路的計算開銷,因為歸零操作可以得到稀疏矩陣。但在疊代次數較多的學習任務,例如RNN的學習中,反覆生成隨機數會帶來額外的計算開銷。

相關詞條

熱門詞條

聯絡我們