深度殘差收縮網路

深度殘差收縮網路

深度殘差收縮網路(Deep Residual Shrinkage Network,DRSN)是一種人工智慧算法,其實是深度殘差網路(Deep Residual Network,ResNet)的新型改進,將軟閾值化作為非線性層引入ResNet的網路結構之中,其目的是提高深度學習方法在含噪聲數據或複雜數據上的特徵學習效果。

更具體的話,深度殘差收縮網路的原型可認為來自於Squeeze-and-Excitation Network(SENet),本質上就是將SENet中各個特徵通道的加權替換成了各個特徵通道的軟閾值化。

基本介紹

  • 中文名:深度殘差收縮網路
  • 外文名:Deep Residual Shrinkage Network
  • 提出者:Minghang Zhao 
  • 期刊:IEEE Transactions on Industrial Informatics 
  • 提出時間:2019年 
  • 類別:卷積神經網路
  • 套用:計算機視覺,故障診斷
動機,相關基礎,軟閾值化,深度殘差網路,基本概念,網路結構,深層理解,套用,

動機

深度殘差收縮網路面向的是數據包含噪聲的情況。事實上,這裡的“噪聲”,可以有更加寬泛的理解。“噪聲”不僅可以指數據獲取過程中所摻雜的噪聲(例如高斯噪聲),而且可以指“與當前任務無關的冗餘信息”。
例如,在訓練一個貓狗分類器的時候,如果圖像中有老鼠,那么老鼠就可以理解成一種噪聲。
從這個角度來講的話,噪聲或者說冗餘信息幾乎是無處不在的。因此,深度殘差收縮網路可能有著更廣闊的套用場景。

相關基礎

軟閾值化

軟閾值函式是信號降噪里一個非常常用的概念,它將一段信號的值朝著“零”的方向進行收縮。比如,在下面的這張圖片裡,橫軸x表示輸入,縱軸y表示輸出。那么,相較於輸入信號,輸出信號就朝著“零”發生了收縮。
深度殘差收縮網路
軟閾值化
對於基於深度學習的特徵學習方法,其關鍵不僅在於提取與標籤相關的目標信息,剔除無關的信息也是非常重要的,所以要在深度神經網路內部引入軟閾值化。閾值的自動設定,是深度殘差收縮網路的核心貢獻。需要注意的是,軟閾值化中的閾值,需要滿足一定的條件。
首先,閾值必須是正數;其次,閾值不能太大,否則輸出會全部為零。
更重要的是,每個樣本,應該有不同的閾值。這是因為,一個樣本集中經常包含著很多樣本,而這些樣本所包含的噪聲量經常是不同的。在深度學習算法裡,由於這些特徵沒有明確的物理意義,閾值的大小也無法得到解釋。但是道理是相通的,即每個樣本應該有不同的閾值。

深度殘差網路

深度殘差網路ResNet是一種改進的卷積神經網路,通過引入恆等路徑,降低了模型訓練的難度。
在恆等路徑的作用下,網路參數的訓練難度大幅降低,從而容易訓練出效果好的深度學習模型。
深度殘差收縮網路
深度殘差網路的基本模組

基本概念

深度殘差收縮網路是一種人工智慧方法,發表在國際期刊IEEE Transactions on Industrial Informatics上。從本質上講,深度殘差收縮網路是深度殘差網路注意力機制軟閾值函式的集成,在深度殘差網路的內部實現了自動軟閾值化,以自適應地在特徵學習的過程中消除冗餘信息,提高有用特徵的學習效果。

網路結構

深度殘差收縮網路
深度殘差收縮網路的基本模組
在深度殘差網路的基礎上,深度殘差收縮網路引入了一個小型的子網路,用這個子網路學習得到一組閾值,對特徵圖的各個通道進行軟閾值化。這個過程其實可以看成一個可訓練的特徵選擇的過程。具體而言,前面的卷積層將重要的特徵轉換成絕對值較大的值,將冗餘信息所對應的特徵轉換成絕對值較小的值;通過子網路學習得到二者之間的界限,並且通過軟閾值化將冗餘特徵置為零,同時使重要的特徵有著非零的輸出。
在紅色虛線內的子網路中,首先對輸入特徵圖內的所有元素,取絕對值。然後經過全局均值池化和求平均,就得到了一組特徵。為了方便描述,將這組特徵記為A。在另一條路徑中,全局均值池化之後的特徵,輸入到一個小型的全連線網路之中。這個全連線網路以一個Sigmoid激活函式作為最後一步,其目的在於將輸出調整到0和1之間,記為α。最終的閾值就是α×A。這樣的話,閾值就是,一組0和1之間的數字×特徵圖的絕對值的平均值。通過這種方式,深度殘差收縮網路保證了閾值不僅為正數,而且不會太大。
深度殘差收縮網路
深度殘差收縮網路的整體結構
最後,堆疊一定數量的基本模組以及卷積層、批標準化、激活函式、全局均值池化以及全連線輸出層等,就得到了完整的深度殘差收縮網路。

深層理解

深度殘差收縮網路不僅可以用於含噪數據,也可以用於不含噪聲的數據。這是因為,深度殘差收縮網路中的閾值是根據樣本情況自適應確定的。換言之,如果樣本中不含冗餘信息、不需要軟閾值化,那么閾值可以被訓練得非常接近於零,從而軟閾值化就相當於不存在了。
同時,軟閾值化是將[-τ, τ]區間內的特徵置為0,讓其他的、距0較遠的特徵也朝著0進行收縮。如果和前一個卷積層的偏置b放在一起看的話,這個置為零的區間就變成了[-τ+b, τ+b]。因為τ和b都是可以自動學習得到的參數,從這個角度看的話,軟閾值化其實是可以將任意區間的特徵置為零,是一種更靈活的、刪除某個取值範圍特徵的方式,也可以理解成一種更靈活的非線性映射。
值得指出的是,通過這種方式,在深度殘差收縮網路中,不同的樣本就有了不同的閾值。在一定程度上,也可以理解為一種注意力機制:注意到不重要的特徵,將它們剔除掉;或者說,注意到重要的特徵,將它們保留下來。另外,雖然跨層的恆等路徑將不重要的特徵也傳遞到了高層特徵中,但是通過很多殘差模組的不斷堆疊,這些不重要的特徵所占的比重越來越低,最終實現不重要特徵的消除。

套用

雖然深度殘差收縮網路在論文中是用於基於振動信號的故障診斷,但是它其實是一種通用的人工智慧方法,也可以套用於計算機視覺語音識別等領域。

相關詞條

熱門詞條

聯絡我們