Highway結構,一種可學習的門限機制,在此機制下,一些信息流沒有衰減的通過一些網路層,適用於SGD法。
基本介紹
- 中文名:Highway結構
- 外文名:Highway structure
- 又名:Highway Networks
Highway結構解決的問題,公式,Highway結構的套用,
Highway結構解決的問題
隨著神經網路的發展,網路的深度逐漸加深(更深的層數以及更小的感受野,能夠提高網路分類的準確性),網路的訓練也就變得越來越困難。Highway Networks就是一種解決深層次網路訓練困難的網路框架。
公式
傳統的神經網路前向傳播(忽略偏置和層索引):
H為非線性函式,W為權重,x為輸入,y為輸出。
Highway Networks的前向傳播:
T為transform gate,C為carry gate;
,即:
的維度必須相同,不夠補零。
最後得到:
該層的雅可比變換為:
一部分數據進行處理,一部分直接通過,最後的輸出公式為:
Highway Networks的卷積層與全連結層相似,對權值共享和局部感受野進行H和T的轉化。轉化門T定義, 為權重矩陣, 為偏置。
Highway結構的套用
Highway Network主要解決的問題是,網路深度加深,梯度信息回流受阻造成網路訓練困難的問題。下圖是沒有Highway和有Highway的對比圖:
可以看到,當網路加深,訓練的誤差反而上升了,而加入了highway之後,這個問題得到了緩解。一般來說,深度網路訓練困難是由於梯度回流受阻的問題,可能淺層網路沒有辦法得到調整。Highway Network 受LSTM啟發,增加了一個門函式,讓網路的輸出由兩部分組成,分別是網路的直接輸入以及輸入變形後的部分。