維奧拉-瓊斯目標檢測框架

框架的組成

特徵類型和進化

檢測框架使用的特徵涉及到圖像上矩形區域的像素和，就是哈爾特徵，而這些特徵以前多用於基於圖像的物體檢測領域。然而，由於維奧拉和瓊斯使用的特徵包含不止一個矩形區域，就顯得更為複雜。如圖1所示的圖像是四種不同的特徵。每一個特徵的值就是白色矩形的像素值之和與深色矩形像素值之和的差值。所以，相比那些複雜的方向可變濾波器（steerable filters），這種矩形特徵是十分原始的。雖然他們對水平和豎直方向比較敏感，它們的反饋是比較粗粒度的。最後，使用一個稱為積分圖的數據結構，矩形特徵的計算可以在常數時間內完成，也就使得它們很具有速度優勢。例如，2矩形特徵需要六次查詢，3矩形特徵需要八次，而4矩形特徵則需要九次。

學習算法

選擇哪些特徵作為最終用於分類的過程十分漫長。例如，在一個24x24像素的視窗內，一共有45,396個可能的特徵。因此，目標檢測框架使用了一個稱為AdaBoost的機器學習算法來選擇特徵並訓練分類器。

級聯架構

在學習階段強分類器的進化可以很快完成，但是還不夠進行實時計算。基於這個原因，強分類器按照複雜性的順序被組成一種級聯結構，每一個後續分類器的訓練樣本都是通過了之前所有分類器的樣本。如果級聯的任何一個分類器拒絕了一個檢測視窗，則該視窗不再進行任何的進一步檢測。因此，這種級聯結構類似於一種退化的樹。在人臉檢測中，第一級分類器（也稱為attentional operator）只使用了2個特徵，就達到了將近0%的漏檢率（false negative rate）以及40%的誤檢率（false positive rate）[5]。這一個分類器就可以簡單的過濾掉要檢測視窗的一半。

這個級聯結構對每一個分類器的性能有著有趣的影響。由於每一個分類器是否使用完全取決於它的前驅，因此，整體的誤檢率是：

類似地，檢測率（detection rate）是：

因此，對於每一個分類器的檢測效果的要求是驚人的低。例如，對於一個32層的級聯分類器，為了達到

的誤檢率，每一個分類器只需要達到65%的誤檢率。同時，為了滿足系統的檢測率，對於單個分類器的檢測率要求很高。例如，為了達到整體90%的檢測率，每一個分類器的檢測率需要達到99.7%。

維奧拉-瓊斯目標檢測框架

基本介紹

框架的組成

特徵類型和進化

學習算法

級聯架構

相關詞條

熱門詞條