基本介紹
- 中文名:深度殘差收縮網路
- 外文名:Deep Residual Shrinkage Network
- 提出者:Minghang Zhao
- 期刊:IEEE Transactions on Industrial Informatics
- 提出時間:2019年
- 類別:卷積神經網路
- 套用:計算機視覺,故障診斷
動機,相關基礎,軟閾值化,深度殘差網路,基本概念,網路結構,深層理解,套用,
動機
深度殘差收縮網路面向的是數據包含噪聲的情況。事實上,這裡的“噪聲”,可以有更加寬泛的理解。“噪聲”不僅可以指數據獲取過程中所摻雜的噪聲(例如高斯噪聲),而且可以指“與當前任務無關的冗餘信息”。
例如盛船汽,在訓練一個貓狗分類器的時候,如果圖像中有老鼠,那么老鼠就可以理解成一種噪聲。
從這個角度來講的話,噪聲或者說冗餘信息幾乎是無處不在的。因此,深度殘差收縮網路可能有著更廣闊的套用場景。
相關基礎
軟閾值化
軟閾值函式是信號降噪里一個非常常用的概念,它將一段信號的值朝著“零”的方向進行收縮。比如,在下面的這張圖片裡,橫軸x表示輸入,縱軸y表示輸出。那么,相較於輸入信號,輸出信號就朝著“零”發生了收縮。
對於基於深度學習的特徵學習方法,其關鍵不僅在於提取與標籤相關的目標信息,剔除無關的信息也是非常重要的,所以要在深度神經網路內部引入軟閾值化。閾值的自動設定,是深度殘差收縮網路的核心貢獻。需要注意的是,軟閾值化中的閾值,需要滿足一定的條件。
首先,閾值必須是正數;其次,閾值不能太大,否則輸出會全部為零。
更重要的是,每個樣本邀歡跨,應該有不同的閾值。這是因為,一個樣本集中經常包含著很多樣本,而這些樣本所包含的噪聲量經常是不同的。在深度學習算法裡,由於這些特徵沒有明確的物理意義,閾值的大小也無法得到解釋。但是道理是相通的,即您和和每個樣本應該有不同的閾值。
深度殘差網路
深度殘差網路ResNet是一種改進的卷積神經網路,通過引入恆等路徑,降低了模型訓練的難度。
在恆等路徑的作用下,網路參數的訓練難度大幅降低,從而容易訓練出效果好的深度學習模型。
基本概念
深度殘差收縮網路是一種人工智慧方法,發表在國際期刊IEEE Transactions on Industrial Informatics上。從本質上講,深度殘差收縮網路是深度殘差網路、注意力機制和軟閾值函式的集成,在深度殘差網路的內部實現了自動軟閾值化,以自適應地在特徵學習的過程中消除冗餘信息,提高有用特徵的學習效果。
網路結構
在深度殘差網路的基礎上,深度殘差收縮網路引入了一個小型的子網路,用這個子網路學習得到一組閾值,對特徵圖的各個通道進行軟閾值化。這個過程其實可以看成一個可訓練的特徵選擇的過程。具體而言,前面的卷積層將重要的特徵轉換成絕對值較大的值,將冗餘信息所對應的特徵轉換成絕對值較小的值;通過嫌她臘子網路學習得到二者之間的界限,並且通過軟閾值化將冗餘特徵置為零,同疊蒸時使重要的特徵有著非零的輸出。
在紅色虛線內的子網路中,首先對輸入特徵圖內的所有元素,取絕對值。然後經過全局均值池化和求平均,就得到了一組特徵。為了方便描述,將這組特徵記為A。在另一條路徑中,全局均值池化之後的特徵,輸入到一個小型的全連線網路之中。這個全連線網路以一個Sigmoid激活函式作為最後一步,其目的在於將輸出調整到0和1之間,記為α。最終的閾值就是α×A。這樣的話,閾值就是,一組0和1之間的數字×特徵圖的絕對值的平均值。通過這種方式,深度殘差收縮網路保證了閾值不僅為正數,而且不會太大。
最後,堆疊一定數量的基本模組以及卷積層、批標準化、激活函式、全局均值池化以及全連線輸出層等,就得到了完整的深度殘差收縮網路。
深層理解
深度殘差收縮網路不僅可以用於含噪數據,也可以用於不含噪聲的數據。這是因為,深度殘差收縮網路中的閾值是根據樣本情況自適應確定的。換言之,如果樣本中不含冗餘信息、不需要軟閾值化,那么閾值可以被訓練得非常接近於零,從而軟閾值化就相當於不存在了。
同時,軟閾值化是將[-τ, τ]區間內的特徵置為0,讓其他的、距0較遠的特徵也朝著0進行收縮。如果和前一個卷積層的偏置b放在一起看的話,這個置為零的區間就變成了[-τ+b, τ+b]。因為τ和b都是可以自動學習得到的參數,從這個角度看的話,軟閾值化其實是可以將任意區間的特徵置為零,是一種更靈活的、刪除某個取值範圍特徵的方式,也可以理解成一種更靈活的非線性映射。
值得指出的是,通過這種方式,在深度殘差收縮網路中,不同的樣本就有了不同的閾值。在一定程度上,也可以理解為一種注意力機制:注意到不重要的特徵,將它們剔除掉照記辨勸;或者說,注意到重要的特徵,將它們保留下來。另外,雖然跨層的恆等路徑將不重要的特徵也傳遞到了高層特徵中,但是通過很多殘差模組的不斷堆疊,這些不重要的特徵所占的比重越來越低,最終實現不重要特徵的消除。
套用
在紅色虛線內的子網路中,首先對輸入特徵圖內的所有元素,取絕對值。然後經過全局均值池化和求平均,就得到了一組特徵。為了方便描述,將這組特徵記為A。在另一條路徑中,全局均值池化之後的特徵,輸入到一個小型的全連線網路之中。這個全連線網路以一個Sigmoid激活函式作為最後一步,其目的在於將輸出調整到0和1之間,記為α。最終的閾值就是α×A。這樣的話,閾值就是,一組0和1之間的數字×特徵圖的絕對值的平均值。通過這種方式,深度殘差收縮網路保證了閾值不僅為正數,而且不會太大。
最後,堆疊一定數量的基本模組以及卷積層、批標準化、激活函式、全局均值池化以及全連線輸出層等,就得到了完整的深度殘差收縮網路。
深層理解
深度殘差收縮網路不僅可以用於含噪數據,也可以用於不含噪聲的數據。這是因為,深度殘差收縮網路中的閾值是根據樣本情況自適應確定的。換言之,如果樣本中不含冗餘信息、不需要軟閾值化,那么閾值可以被訓練得非常接近於零,從而軟閾值化就相當於不存在了。
同時,軟閾值化是將[-τ, τ]區間內的特徵置為0,讓其他的、距0較遠的特徵也朝著0進行收縮。如果和前一個卷積層的偏置b放在一起看的話,這個置為零的區間就變成了[-τ+b, τ+b]。因為τ和b都是可以自動學習得到的參數,從這個角度看的話,軟閾值化其實是可以將任意區間的特徵置為零,是一種更靈活的、刪除某個取值範圍特徵的方式,也可以理解成一種更靈活的非線性映射。
值得指出的是,通過這種方式,在深度殘差收縮網路中,不同的樣本就有了不同的閾值。在一定程度上,也可以理解為一種注意力機制:注意到不重要的特徵,將它們剔除掉;或者說,注意到重要的特徵,將它們保留下來。另外,雖然跨層的恆等路徑將不重要的特徵也傳遞到了高層特徵中,但是通過很多殘差模組的不斷堆疊,這些不重要的特徵所占的比重越來越低,最終實現不重要特徵的消除。