最大池化

介紹

常用的池化方法有最大池化（max-pooling）和均值池化（mean-pooling）。根據相關理論，特徵提取的誤差主要來自兩個方面：

（1）鄰域大小受限造成的估計值方差增大；

（2）卷積層參數誤差造成估計均值的偏移。

一般來說，mean-pooling能減小第一種誤差，更多的保留圖像的背景信息，max-pooling能減小第二種誤差，更多的保留紋理信息。與mean-pooling近似，在局部意義上，則服從max-pooling的準則。

max-pooling卷積核的大小一般是2×2。非常大的輸入量可能需要4x4。但是，選擇較大的形狀會顯著降低信號的尺寸，並可能導致信息過度丟失。通常，不重疊的池化視窗表現最好。

套用

圖像識別

CNN經常用於圖像識別系統。據報導，2012年MNIST資料庫的錯誤率為0.23%。[11]另一篇關於使用CNN進行圖像分類的論文報導說，學習過程“非常快”;在同一篇論文中，截至2011年的最佳公布結果在MNIST資料庫和NORB資料庫中獲得。

當套用於面部識別時，CNN實現了錯誤率的大幅降低。另一篇論文報導“對超過10個科目的5600張靜態圖像”的識別率為97.6%。人工培訓後，CNN用於客觀評估視頻質量;所得到的系統具有非常低的均方根誤差。

ImageNet大規模視覺識別挑戰是對象分類和檢測的基準，包含數百萬的圖像和數百個對象類。在ILSVRC 2014中，大規模的視覺識別挑戰，幾乎所有排名靠前的團隊都使用CNN作為他們的基本框架。優勝者GoogLeNet （DeepDream的基礎）將目標檢測的平均精度提高到了0.439329，分類錯誤降低到了0.06656，這是迄今為止最好的結果。其網路套用了30多個層次。在ImageNet測試中，卷積神經網路的性能與人類接近。[54]最好的算法仍然與小或薄的物體糾纏在一起，比如花的莖上有一隻小螞蟻或手裡拿著一根羽毛筆的人。他們也有使用濾鏡變形的圖像的麻煩，這是現代數位相機日益普遍的現象。相比之下，這些圖像很少麻煩人類。然而，人類往往會遇到其他問題。例如，它們不擅於將物體分類為細粒度類別，例如特定品種的狗或鳥種，而卷積神經網路則擅長處理這種情況。

2015年，CNN的多層次展現了從廣泛的角度發現臉部的能力，包括顛倒，即使部分被競爭性表演遮擋。該網路訓練了20萬張圖像的資料庫，其中包括各種角度和方向的臉部以及另外2000萬張沒有臉部的圖像。他們在50,000次疊代中使用了128個圖像的批次。

視頻分析

與圖像數據域相比，將CNN套用於視頻分類的工作相對較少。視頻比圖像更複雜，因為它具有另一個（時間）維度。然而，CNN在視頻領域的一些擴展已經被探索。一種方法是將空間和時間視為輸入的等效維度，並在時間和空間上執行卷積。另一種方法是融合兩個卷積神經網路的特徵，一個用於空間，另一個用於時間流。基於卷積門限制玻爾茲曼機和獨立子空間分析中，介紹了用於訓練時空特徵的無監督學習方案。

最大池化

基本介紹

介紹

套用

圖像識別

視頻分析

自然語言處理

相關詞條

熱門詞條