研究意義 視覺是人類認知世界的重要途徑之一,人類獲取外部信息的80%來自視覺系統。計算視覺就是在了解人類視覺基礎上,用成像系統代替人類視覺器官,用計算級代替人腦完成對輸入圖像的處理與理解。同時,隨著信息技術與智慧型科學的發展,計算機視覺是人工智慧領域熱門學科之一和物聯網感知層重要技術之一。
視覺跟蹤技術作為計算機視覺領域的熱門課題之一,是對連續的圖像序列進行運動目標檢測、提取特徵、分類識別、跟蹤濾波、行為識別,以獲得目標準確的運動信息參數(如位置、速度等),並對其進行相應的處理分析,實現對目標的行為理解。
視覺跟蹤是指對圖像序列中的運動目標進行檢測、提取、識別和跟蹤,獲得運動目標的運動參數,如位置、速度、加速度和運動軌跡等,從而進行下一步的處理與分析,實現對運動目標的行為理解,以完成更高一級的檢測任務。
國外在視頻目標檢測與跟蹤領域的研究起步較早,美國軍方及美國自然科學基金委員會都非常關注複雜環境下目標的檢測、跟蹤與識別算法研究與套用。1991年,美國國防高級研究項目署DARPA就資助卡內梅隆大學進行視覺信息在無人機中的套用研究。1997年,DARPA再次邀請多所美國高校參與了視頻監控系統重大項目VSAM(videosurveillance and monitoring)的研發工作。美國國防部DAPRA和JSG&CC聯合發起成立了自動識別工作組ATRWG。之後,國外知名大學與研究機構也對視頻目標的檢測與跟蹤算法進行深入研究,J.Davis等人提出了一種適用於人體檢測的背景相減算法,它首先採用傳統幀相減算法得到感興趣區域,之後通過梯度信息在感興趣區域中尋找目標輪廓,通過目標輪廓確定目標位置,S.Huwer等人深入研究了背景模型問題,提出了一種自適應的背景模型,該模型可以很好的解決光照變化等問題。
1999年後,國內一些高校和科研機構也開始視頻目標檢測與跟蹤方面的研究。中科院自動化所的模式識別國家重點實驗室圖像和視頻分析研究組研發的交通行為事件分析系統;2001年,清華大學開發的適用於野外環境的視覺偵查系統。
視覺跟蹤發展已經比較成熟,出現了許多方法。開始時,視覺跟蹤研究主要集中在目標運動模型研究,如kalman預測跟蹤,meanshift跟蹤,粒子濾波跟蹤等。視覺跟蹤更多集中在目標表現模型研究上,Tracking by detection 成為視覺跟蹤比較多的話題,如Ensemble Tracking、Support vectortracking、Incremental Leaningfor visual tracking及TLD等。
分類 (1)單攝像頭與多攝像頭
在視頻跟蹤的過程中,根據使用的攝像頭的數目,可將目標跟蹤方法分為單攝像頭跟蹤方法(Monocular camera)與多攝像頭跟蹤方法(Multiple cameras)。由於單攝像頭視野有限,大範圍場景下的目標跟蹤需要使用多攝像頭系統。基於多個攝像頭的跟蹤方法有利於解決遮擋問題,場景混亂、環境光照突變情況下的目標跟蹤問題。
(2)攝像頭靜止與攝像頭運動
在實際的目標跟蹤系統中,攝像頭可以是固定在某個位置,不發生變化,也可以是運動,不固定的。例如,對於大多數的視頻監視系統而言,都是在攝像機靜止狀態下,對特定關注區域進目標的識別跟蹤;而在視覺導航等的套用系統中,攝像頭往往隨著無人汽車、無人機等載體進行運動。
(3)單目標跟蹤與多目標跟蹤
根據跟蹤目標的數量可以將跟蹤算法分為單目標跟蹤與多目標跟蹤。相比單目標跟蹤而言,多目標跟蹤問題更加複雜和困難。多目標跟蹤問題需要考慮視頻序列中多個獨立目標的位置、大小等數據,多個目標各自外觀的變化、不同的運動方式、動態光照的影響以及多個目標之間相互遮擋、合併與分離等情況均是多目標跟蹤問題中的難點。
(4)剛體跟蹤與非剛體跟蹤
根據被跟蹤目標的結構屬性,可將跟蹤目標分為剛體與非剛體。所謂剛體,是指具備剛性結構、不易形變的物體,例如車輛等目標;非剛體通常指外形容易變形的物體,例如布料表面、衣服表面等。針對剛體目標的跟蹤一直得到廣泛深入的研究,而非剛體目標的跟蹤,由於目標發生變形以及出現自身遮擋等現象,不能直接套用基於剛體目標的跟蹤算法針對非剛體目標的跟蹤一直是非常困難並且具有挑戰性的課題。
(5)可見光與紅外圖像的目標跟蹤
根據感測器成像的類型不同,目標跟蹤還可以分為基於可見光圖像的跟蹤和基於紅外圖像的跟蹤。目標的紅外圖像和目標的可見光圖像不同,它不是人眼所能看到的可見光圖像,而是目標表面溫度分布的圖像。紅外圖像屬於被動式成像,無需各種光源照明,全天候工作,安全隱敝,使用方便;紅外光較之可見光的波長長得多,透煙霧性能較好,可在夜間工作。可見光圖像具有光譜信息豐富、解析度高、動態範圍大等優點,但在夜間和低能見度等條件下,成像效果差。
比較常用的目標跟蹤算法有以下幾種:基於目標運動特徵的跟蹤算法,如:幀差分法、基於光流的跟蹤方法等;基於視頻序列前後相關性的目標跟蹤算法,如:基於模板的相關跟蹤算法、基於特徵點的相關跟蹤算法等;基於目標特徵參數的跟蹤算法,如基於輪廓的跟蹤算法、基於特徵點的跟蹤算法等。另外,很多研究者將小波、人工智慧、神經網路等相關知識套用於目標跟蹤領域,並取得了很好的效果。以上這些算法各有其優缺點,應該根據套用場合進行選擇。
典型算法 (1)基於區域的跟蹤算法
基於區域的跟蹤算法基本思想是:將目標初始所在區域的圖像塊作為目標模板,將目標模板與候選圖像中所有可能的位置進行相關匹配,匹配度最高的地方即為目標所在的位置。最常用的相關匹配準則是差的平方和準則,(Sum of Square Difference,SSD)。
起初,基於區域的跟蹤算法中所用到的目標模板是固定的,如 Lucas 等人提出 Lucas-Kanade 方法,該方法利用灰度圖像的空間梯度信息尋找最佳匹配區域,確定目標位置。之後,更多的學者針對基於區域方法的缺點進行了不同的改進,如:Jepson 等人提出的基於紋理特徵的自適應目標外觀模型[18],該模型可以較好的解決目標遮擋的問題,且在跟蹤的過程中採用線上 EM 算法對目標模型進行更新;Comaniciu 等人[19]提出了基於核函式的機率密度估計的視頻目標跟蹤算法,該方法採用核直方圖表示目標,通過 Bhattacharya 係數計算目標模板與候選區域的相似度,通過均值漂移(MeanShift)算法快速定位目標位置。
基於區域的目標跟蹤算法採用了目標的全局信息,比如灰度信息、紋理特徵等,因此具有較高的可信度,即使目標發生較小的形變也不影響跟蹤效果,但是當目標發生較嚴重的遮擋時,很容易造成跟蹤失敗。
(2)基於特徵的跟蹤方法
基於特徵的目標跟蹤算法通常是利用目標的一些顯著特徵表示目標,並通過特徵匹配在圖像序列中跟蹤目標。該類算法不考慮目標的整體特徵,因此當目標被部分遮擋時,仍然可以利用另一部分可見特徵完成跟蹤任務,但是該算法不能有效處理全遮擋、重疊等問題。
基於特徵的跟蹤方法一般包括特徵提取和特徵匹配兩個過程:
a) 特徵提取
所謂特徵提取是指從目標所在圖像區域中提取合適的描繪性特徵。這些特徵不僅應該較好地區分目標和背景,而且應對目標尺度伸縮、目標形狀變化、目標遮擋等情況具有魯棒性。常用的目標特徵包括顏色特徵、灰度特徵、紋理特徵、輪廓、光流特徵、角點特徵等。D.G. Lowe 提出 SIFT(Scale Invariant Feature Transform)算法[20]是圖像特徵中效果較好的一種方法,該特徵對旋轉、尺度縮放、亮度變化具有不變性,對視角變化、仿射變換、噪聲也具有一定的穩定性。
b) 特徵匹配
特徵匹配就是採用一定的方式計算衡量候選區域與目標區域的相似性,並根據相似性確定目標位置、實現目標跟蹤。在計算機視覺領域中,常用的相似性度量準則包括加權距離、Bhattacharyya 係數、歐式距離、Hausdorff 距離等。其中,Bhattacharyya 係數和歐式距離最為常用。
Tissainayagam 等人提出了一種基於點特徵的目標跟蹤算法[21]。該算法首先在多個尺度空間中尋找局部曲率最大的角點作為關鍵點,然後利用提出的MHT-IMM 算法跟蹤這些關鍵點。這種跟蹤算法適用於具有簡單幾何形狀的目標,對於難以提取穩定角點的複雜目標,則跟蹤效果較差。
Zhu 等人提出的基於邊緣特徵的目標跟蹤算法[22],首先將參考圖像劃分為多個子區域,並將每個子區域的邊緣點均值作為目標的特徵點,然後利用類似光流的方法進行特徵點匹配,從而實現目標跟蹤。
(3)基於輪廓的跟蹤方法
基於輪廓的目標跟蹤方法需要在視頻第一幀中指定目標輪廓的位置,之後由微分方程遞歸求解,直到輪廓收斂到能量函式的局部極小值,其中,能量函式通常與圖像特徵和輪廓光滑度有關。與基於區域的跟蹤方法相比,基於輪廓的跟蹤方法的計算複雜度小,對目標的部分遮擋魯棒。但這種方法在跟蹤開始時需要初始化目標輪廓,因此對初始位置比較敏感,跟蹤精度也被限制在輪廓級。
Kass 等人[23]於 1987 年提出的活動輪廓模型(Active Contour Models,Snake),通過包括圖像力、內部力和外部約束力在內的三種力的共同作用控制輪廓的運動。內部力主要對輪廓進行局部的光滑性約束,圖像力則將曲線推向圖像的邊緣,而外部力可以由用戶指定,主要使輪廓向期望的局部極小值運動,。
Paragios 等人[24]提出了一種用水平集方法表示目標輪廓的目標檢測與跟蹤算法,該方法首先通過幀差法得到目標邊緣,然後通過機率邊緣檢測運算元得到目標的運動邊緣,通過將目標輪廓向目標運動邊緣演化實現目標跟蹤。
(4)基於模型的跟蹤方法[25]
在實際套用中,我們需要跟蹤的往往是一些特定的我們事先具有認識的目標,因此,基於模型的跟蹤方法首先根據自己的先驗知識離線的建立該目標的 3D 或2D 幾何模型,然後,通過匹配待選區域模型與目標模型實現目標跟蹤,進而在跟蹤過程中,根據場景中圖像的特徵,確定運動目標的各個尺寸參數、姿態參數以及運動參數。
Shu Wang 等人提出一種基於超像素的跟蹤方法[26],該方法在超像素基礎上建立目標的外觀模板,之後通過計算目標和背景的置信圖確定目標的位置,在這個過程中,該方法不斷通過分割和顏色聚類防止目標的模板漂移。
(5)基於檢測的跟蹤算法
基於檢測的跟蹤算法越來越流行。一般情況下,基於檢測的跟蹤算法都採用一點學習方式產生特定目標的檢測器,即只用第一幀中人工標記的樣本信息訓練檢測器。這類算法將跟蹤問題簡化為簡單的將背景和目標分離的分類問題,因此這類算法的速度快且效果理想。這類算法為了適應目標外表的變化,一般都會採用線上學習方式進行自更新,即根據自身的跟蹤結果對檢測器進行更新。
面臨的挑戰 視頻目標跟蹤技術理論研究雖然已經取得了很大的發展,並且已經有部分成果進入實用化階段,但是當前仍然面臨著巨大的挑戰,還有許多問題有待進一步解決,對此本節從以下幾個方面進行闡述:
1、跟蹤目標的多樣性
根據套用需求的不同,視頻跟蹤的對象多種多樣,從而導致跟蹤算法的設計複雜多樣。視頻跟蹤的對象可能是不同外觀的行人、或人的臉部、眼部等局部區域,也可能是具有不同形狀、顏色的車輛或車輛的局部區域等等。針對不同的跟蹤目標,需要建立不同的描述目標外觀的特徵模型。例如,在跟蹤車輛這類剛體目標時所採用的描述目標的特徵模型,往往不能夠直接用於跟蹤例如衣物等變形表面這類非剛體目標;其次,通常的跟蹤對象的運動具有不確定性,例如車輛的行駛過程,可能是勻速運動,也可能是加、減速運動,或是直線運動,或是轉向等等,針對不同的跟蹤對象要設計合適的運動預測模型;另外,在目標運動過程中,目標運動本身會造成跟蹤對象外觀特徵發生變化,例如在頭部跟蹤過程中,頭部的旋轉會造成頭部區域的顏色分布發生變化,此時會導致目標有些特徵地消失,新特徵出現;當然,還有跟蹤目標之間可能存在遮擋現象,在單一目標跟蹤中,目標本身可能會發生自遮擋情況,例如行人的部分區域,在多目標中,目標之間也可能發生相互遮擋,這些情況都增加了跟蹤難度。以上描述的跟蹤目標的多樣性都需要對跟蹤算法進行合理的設計和建模描述,從而有效應對目標的變化。
2、跟蹤環境的複雜性
實際套用當中,室內外環境要素的變化對於目標跟蹤算法有很大的影響。室內外的光照變化,能夠影響到可見光圖像數據,進而影響跟蹤目標的外觀特徵。例如在室內黑暗的環境當中,開關燈會嚴重影響目標與周圍環境的對比度;室外環境光照的變化、雨雪天氣等的影響,也會對跟蹤目標造成嚴重干擾。此外,實際的環境當中,不斷變化的背景要素也會對跟蹤目標造成影響。例如,在室外密集的人流或車流當中,周圍不斷運動的人或車會對指定的目標行人或車輛造成嚴重的影響,道路兩旁的樹木、建築等同樣會對跟蹤目標造成干擾。還有捕獲數據的攝像頭設備,在室內外的環境中都可能受到干擾,例如有些場景會發生攝像頭抖動問題:如在小區監控中,由於周圍車輛的行使、颳風等因素都可能會導致攝像頭晃動、移位等;攝像頭出現視野模糊現象:在長期在惡劣情況下使用,導致攝像頭老化,焦距產生漂移,或者攝像頭落上大量灰塵等情況下,都可能導致視野模糊的問題。為此,如何在種種複雜干擾的條件下準確可靠地提取目標,是衡量跟蹤算法性能的一項重要指標。
3、套用需求的多樣性
視頻目標跟蹤算法是諸多視覺套用的基礎,而各類套用對目標跟蹤算法各類性能指標的要求不盡相同。跟蹤算法的主要指標包括跟蹤的準確性、穩定性、抗干擾性以及計算的實時性等。對於視頻監控系統等套用,需要算法能夠在各種複雜的外界環境條件下(如捷運站、火車站等公共運輸系統中),準確地分析目標行為,甚至能準確報警並儘可能減少虛警誤警,這類套用對跟蹤算法的抗干擾性以及計算實時性要求很高;對於網路智慧型互動等套用,例如網路視頻會議等,需要跟蹤算法準確提取目標的全部區域,對算法跟蹤的準確性有很高的要求,而由於網路傳輸可能出現的延時等情況,算法的實時性可以有所折中。各類視頻套用系統通常來說涉及的方面比較多且複雜,對於目標跟蹤算法需要在跟蹤精度、運行速度以及其他性能指標之間進行權衡,是跟蹤算法研究需要考慮的一個重要內容。許多跟蹤算法複雜度高、跟蹤精度受參數設定的影響嚴重,適應性和抗干擾性有局限性,如何將視頻跟蹤算法在實際環境中可靠穩定運行,需要進一步的研究。
如今,雖然已提出了多種視頻目標跟蹤算法,但是大多數算法一般只適用於一些特定的目標、特定的環境或者具有其它一些套用約束條件,並且存在著這樣或那樣的不足有待進一步最佳化和完善,而一些更為優秀的無環境約束下的視頻目標跟蹤算法也有待去進一步研究開發。