VGG 模型

簡介

模型的名稱——“VGG”代表了牛津大學的Oxford Visual Geometry Group，該小組隸屬於1985年成立的Robotics Research Group，該Group研究範圍包括了機器學習到移動機器人。下面是一段來自網路對同年GoogLeNet和VGG的描述：

“GoogLeNet和VGG的Classification模型從原理上並沒有與傳統的CNN模型有太大不同。大家所用的Pipeline也都是：訓練時候：各種數據Augmentation（剪裁，不同大小，調亮度，飽和度，對比度，偏色），剪裁送入CNN模型，Softmax，Backprop。測試時候：儘量把測試數據又各種Augmenting（剪裁，不同大小），把測試數據各種Augmenting後在訓練的不同模型上的結果再繼續Averaging出最後的結果。”

需要注意的是，在VGGNet的6組實驗中，後面的4個網路均使用了pre-trained model A的某些層來做參數初始化。雖然提出者沒有提該方法帶來的性能增益。先來看看VGG的特點：

小卷積核。作者將卷積核全部替換為3x3（極少用了1x1）；
小池化核。相比AlexNet的3x3的池化核，VGG全部為2x2的池化核；
層數更深特徵圖更寬。基於前兩點外，由於卷積核專注於擴大通道數、池化專注於縮小寬和高，使得模型架構上更深更寬的同時，計算量的增加放緩；
全連線轉卷積。網路測試階段將訓練階段的三個全連線替換為三個卷積，測試重用訓練時的參數，使得測試得到的全卷積網路因為沒有全連線的限制，因而可以接收任意寬或高為的輸入。

具體介紹

小卷積核

說到網路深度，這裡就不得不提到卷積，雖然AlexNet有使用了11x11和5x5的大卷積，但大多數還是3x3卷積，對於stride=4的11x11的大卷積核，一開始原圖的尺寸很大因而冗餘，最為原始的紋理細節的特徵變化用大卷積核儘早捕捉到，後面的更深的層數害怕會丟失掉較大局部範圍內的特徵相關性，後面轉而使用更多3x3的小卷積核（和一個5x5卷積）去捕捉細節變化。

而VGGNet則清一色使用3x3卷積。因為卷積不僅涉及到計算量，還影響到感受野。前者關係到是否方便部署到移動端、是否能滿足實時處理、是否易於訓練等，後者關係到參數更新、特徵圖的大小、特徵是否提取的足夠多、模型的複雜度和參數量等等。

計算量

在計算量這裡，為了突出小卷積核的優勢，用同樣conv3x3、conv5x5、conv7x7、conv9x9和conv11x11，在224x224x3的RGB圖上（設定pad=1，stride=4，output_channel=96）做卷積，卷積層的參數規模和得到的feature map的大小如下圖一：

VGG 模型

基本介紹

簡介

具體介紹

小卷積核

計算量

感受野

全連線

特徵圖

全連線轉卷積

1x1卷積

相關詞條

熱門詞條