SPP-Net:簡介,SPP Layer介紹,訓練過程,single-size,M

SPP-Net是一種可以不用考慮圖像大小，輸出圖像固定長度網路結構，並且可以做到在圖像變形情況下表現穩定。SPP-net的效果已經在不同的數據集上面得到驗證，速度上比R-CNN快24-102倍。在ImageNet 2014的比賽中，此方法檢測中第二，分類中第三。

基本介紹

外文名：spatial pyramid pooling network
縮寫：SPP-Net
領域：深度學習
提出時間：2015年
提出者：何凱明

簡介,SPP Layer介紹,訓練過程,single-size,Multi-size training,SPP層代碼分析,測試階段,檢測算法,

簡介

SPP-Net是出自論文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》。

在此之前，所有的神經網路都是需要輸入固定尺寸的圖片，比如224*224（ImageNet）、32*32(LenNet)、96*96等。這樣對於我們希望檢測各種大小的圖片的時候，需要經過crop，或者warp等一系列操作，這都在一定程度上導致圖片信息的丟失和變形，限制了識別精確度。而且，從生理學角度出發，人眼看到一個圖片時，大腦會首先認為這是一個整體，而不會進行crop和warp，所以更有可能的是，我們的大腦通過蒐集一些淺層的信息，在更深層才識別出這些任意形狀的目標。

SPP-Net對這些網路中存在的缺點進行了改進，基本思想是，輸入整張圖像，提取出整張圖像的特徵圖，然後利用空間關係從整張圖像的特徵圖中，在spatial pyramid pooling layer提取各個region proposal的特徵。

crop和warp

一個正常的深度網路由兩部分組成，卷積部分和全連線部分，要求輸入圖像需要固定size的原因並不是卷積部分而是全連線部分。所以SPP層就作用在最後一層卷積之後，SPP層的輸出就是固定大小。

SPP-net不僅允許測試的時候輸入不同大小的圖片，訓練的時候也允許輸入不同大小的圖片，通過不同尺度的圖片同時可以防止overfit。

相比於R-CNN提取2000個proposal，SPP-net只需要將整個圖扔進去獲取特徵，這樣操作速度提升了100倍左右。

SPP Layer介紹

圖二

卷積層的參數和輸入大小無關，它僅僅是一個卷積核在圖像上滑動，不管輸入圖像多大都沒關係，只是對不同大小的圖片卷積出不同大小的特徵圖，但是全連線層的參數就和輸入圖像大小有關，因為它要把輸入的所有像素點連線起來,需要指定輸入層神經元個數和輸出層神經元個數，所以需要規定輸入的feature的大小。因此，固定長度的約束僅限於全連線層。 SPP-Net在最後一個卷積層後，接入了金字塔池化層，使用這種方式，可以讓網路輸入任意的圖片，而且還會生成固定大小的輸出。

從整體過程來看，就是如圖二所示。黑色圖片代表卷積之後的特徵圖，接著我們以不同大小的塊來提取特徵，分別是4*4，2*2，1*1，將這三張格線放到下面這張特徵圖上，就可以得到16+4+1=21種不同的塊(Spatial bins)，我們從這21個塊中，每個塊提取出一個特徵，這樣剛好就是我們要提取的21維特徵向量。這種以不同的大小格子的組合方式來池化的過程就是空間金字塔池化（SPP）。比如，要進行空間金字塔最大池化，其實就是從這21個圖片塊中，分別計算每個塊的最大值，從而得到一個輸出單元，最終得到一個21維特徵的輸出。所以Conv5計算出的feature map也是任意大小的，經過SPP之後，就可以變成固定大小的輸出了，以圖二為例，一共可以輸出（16+4+1）*256的特徵。

SPP-Net

基本介紹

簡介

SPP Layer介紹

訓練過程

single-size

Multi-size training

SPP層代碼分析

測試階段

檢測算法

相關詞條

熱門詞條