概念介紹
目標跟蹤技術一直是
計算機視覺研究領域中的熱點之一,其在軍事偵察、精確制導、火力打擊、戰場評估以及安防監控等諸多方面均有廣泛的套用前景。目標的不定向運動改變了目標和場景的外觀模式、非剛性目標結構、目標間及目標與場景間的遮擋、攝像機的運動等情況使目標跟蹤任務變得更加困難。跟蹤常套用於那些需要了解目標每幀的位置及形狀的套用環境中, 並常用假設來約束特定套用環境中的跟蹤問題。
跟蹤可簡單地定義為估計物體圍繞一個場景運動時在
圖像平面中軌跡, 即一個跟蹤系統給同一個視頻中不同幀的跟蹤目標分配相一致的標籤。目標跟蹤是一個頗具挑戰性的問題。在計算機視覺領域目標跟蹤是一項重要工作。隨著高性能計算機的增多,物美價廉攝影機的普及,對自動視頻分析與日俱增的需求引起人們對目標跟蹤算法濃厚興趣。
套用
目標跟蹤套用於以下相關工作中:
(1)
智慧型視頻監控:基於運動識別(基於步法的人類識別, 自動物體檢測等) , 自動化監測(監視一個場景以檢測可疑行為);交通監視(實時收集交通數據用來指揮交通流動)。
(2)
人機互動:傳統人機互動是通過
計算機鍵盤和滑鼠進行的。而人們期望計算機更智慧型地以自然方式與人交流。實現這一目標的方式之一是使計算機具有識別和理解人的姿態、動作、手勢等能力,跟蹤是完成這些任務的關鍵一步。
(3)機器人視覺導航:
視覺感測器是
智慧型機器人一種重要的信息源,為能自主運動,智慧型機器人須認識和跟蹤環境中的物體。在機器人手眼套用中,跟蹤技術用安裝在機器人手上的攝像機拍攝物體, 計算其運動軌跡, 選擇最佳姿態抓取物體。
(4)
虛擬現實:虛擬環境中
3D互動和虛擬角色動作模擬直接得益於視頻人體運動分析的研究成果,可給參與者提供更加豐富的互動形式。從視頻中獲取人體運動數據, 用新的虛擬人物或具有類似關節模型的物體替換原視頻中的人物, 以得到意想不到的特殊效果。其關鍵技術是人體運動跟蹤分析。
(5)醫學診斷:
超音波和
核磁共振技術已被廣泛套用於病情診斷。跟蹤技術在超音波和核磁序列圖像的自動分析中有廣泛套用。由於超音波圖像中的
噪聲經常會淹沒單幀圖像有用信息, 使靜態分析十分困難, 如果利用序列圖像中目標在幾何上的連續性和時間上的相關性, 則得到的結果將更加準確。
研究現狀
目標跟蹤的目的是定位目標在每幀視頻圖像中的位置, 產生目標運動軌跡。跟蹤器能得到目標在每幀中的圖像區域。目標跟蹤可以依據目標類型分為點目標跟蹤和對於目標占有一定區域有紋理、輪廓等特徵的目標跟蹤兩種情況。
點目標跟蹤
跟蹤可以表述為不同幀中檢測目標間的通信。在目標阻塞、誤檢測、進入和退出情況下, 點通信是複雜問題。其可分為兩大類:
(1)通信的確定性方法
定性方法使用定性運動啟發法來約束
通信問題,其定義了用運動約束將 t - 1 幀中的目標與t 幀中的目標結合起來的成本。通信成本最小化是組合最佳化問題。Shafique提出了一種多幀方法來保持速度和位置的當前一致性, 將通信表示成一個用曲線圖表示的理論問題。多幀通信是為了發現到達每個點最好的唯一路徑。對於誤檢測或阻塞目標, 路徑將包含相應幀的失蹤位置。產生定向圖表, 然後通過貪婪算法建立通信。
(2)通信的統計學方法
機率統計方法進行目標測量, 其通過在目標狀態估計中考慮測量和模型不確定性來解決跟蹤問題。
統計學通信方法使用狀態空間方法對目標性能(如位置、速度和加速度)進行建模。對於單個目標且初始狀態和噪音是高斯分布, 則可以用濾波器進行理想狀態估算。濾波分預測和改正。如果不是
線性函式, 可用 Taylor 展開來得到擴展
濾波器,從而使其線性化。當使用卡爾曼或質點濾波器跟蹤多重目標時, 須將特定目標最可能的測量與目標狀態連線起來, 即在這些濾波器套用前需解決通信問題。但是如果目標彼此距離太近,往往會導致通信不準確。聯合機率數據關聯(JPDAF)和多假設跟蹤(MHT)是兩種廣泛套用於數據關聯技術的方法。
基於幀差法
通過找出構造的背景模型中每幀差異進行跟蹤。背景模型中圖像區域的任何顯著變化都可能是運動物體。為進一步處理, 對區域中正在變化的像素點做標記, 用相關聯算法來獲得與目標相一致的關聯區域,這個過程為背景減法。Wren用 3D(YUV 空間)
高斯算法對靜態背景中各像素點顏色建模。標記背景模型中偏離的像素點為顯
著像素點。但單
高斯分布不適合用於戶外場景,因為在某一坐標點上由於重複的物體運動、陰影或反射可能會觀察到多重顏色。通過使用多統計模型來描述每個像素的背景顏色使背景模型獲得很大改善。
Elgammal使用無參數核心密度估計來對各像素背景建模。減法過程中當前像素點不僅與背景模型中相應像素點匹配, 還和鄰近
像素坐標位置相匹配,可以處理背景中的照相機抖動或微小運動。Rittscher用隱式
馬爾科夫模型( HMM) 按照像素屬於背景、前景或陰影進行圖像分塊。Stenger使用 HMMs 對光源時亮時暗的事物進行背景相減。HMMs 優勢是用訓練樣本獲得某些用無監督背景建模方法很難精確建模的事物。Oliver不是根據單個像素的差值建模, 而提出使用特徵空間分解的一種整體方法。背景由
特徵矢量描述,實現視角( FOV) 中所有可能的光照。因此,該方法對光照更不敏感。通過當前圖像到特徵空間並發現重建圖像和實際圖像的不同來檢測前景目標。
Monnet和 Zhong提出的方法可處理隨時間變化的背景, 其圖像區域採用自回歸運動平均( ARMA) 進行建模, 可以預測場景中的運動模式。
基於分割思想
圖像分割算法的目的是有感知地將圖像分成相似的區域。每個分割算法都強調了一個好的分割標準和獲得有效分割的方法。本文在這個部分將討論近代與目標跟蹤相關的分割技術。
(1)Mean-Shift 聚集
對於圖像分割問題, Comaniciu提出 meanshift方法用以發現空間和顏色交接點的空間中的簇[l,u,v,x,y],其中[l,u,v]表示顏色,[x,y]表示空間位置。mean-shift 矢量疊代計算直到簇中心的位置不再改變。在 mean-shift 疊代期間, 一些
簇可能發生合併。基於分割的 Mean-shift 算法各參數(如顏色選擇、空間核心頻寬和區域最小化閾值)對分割結果有很大影響。
(2)使用Graph-Cuts 的圖像分割
圖像分割也可表達成一個圖表分割問題, 通過修剪圖表
權重邊緣將其分解成N個分離子圖表。兩個子圖之間的修剪邊緣權重總和成為切口。權重通過兩個節點間的顏色、亮度或紋理相似性計算出。使用最小化切口標準實現切口最小分割方式。最小化切口的局限性在於它的斜紋朝向圖像切割的上部分。這種效果是因為隨著橫跨兩個切割塊的邊緣的增加,切口的成本增加。
(3)主動輪廓
該結構中,可通過將封閉輪廓演變成目標邊界, 將輪廓緊緊圍繞目標區域, 從而獲得目標分割。輪廓演變由輪廓對於假定目標區域的合適性決定。
基於輪廓方法的一個重要問題是輪廓
初始化;另一個是選擇正確輪廓表示法。目標輪廓 Γ可明確地用控制點 V 或含蓄地用等值面
表示。明確表示法, 控制點間的關係定義成曲線等式。含蓄法定義成等值面格線的 0 交叉口。含蓄法比明確法的優勢是能靈活適應拓撲變化(分離和合併)。
發展方向
近年來目標跟蹤技術發展取得了很大進步。研發出了多個性能優良的
跟蹤器, 可以在簡單場景中實時跟蹤目標。套用假設可以使跟蹤的問題簡單化(如平滑的運動、少量阻塞、光照恆定性、高對比度背景等), 但這些假設在現實場景中是不存在的, 限制了其在自動化監控、人機互動、視頻檢索、交通監控、車輛導航等套用領域的
套用。跟蹤的難點在於:
(1)目標外觀隨時間而變化, 如尺度變化、旋轉、超平面旋轉、光照變化引起的目標顏色劇烈及不均勻變化、非剛體形變、視角變化引起的外觀變化等;
(2)背景複雜多變, 使
建模難度增加且目標容易淹沒在背景中;
(4)由於相機不穩、相機幀頻、感測器等原因造成高速運動目標的模糊;
(5)完全遮擋或丟失後造成的時間不連續,而後目標重新出現;
發展不受約束、長期穩定的目標跟蹤算法是未來的發展趨勢也是挑戰。因此, 研究更有效的目標表示方法以及目標相似性度量方法以適應目標的外觀變化是重要的研究方向。同時對於基於學習的
智慧型算法仍需研究並引入以應對目標隨時間的變化,監督學習需要大量人工干預,半監督學習近年來已被眾多學者所研究並在目標跟蹤方面有很高的研究和套用價值。另外, 無論是基於檢測思想的還是基於時間關聯性跟蹤的方法, 對於目標的有效搜尋都是一個關鍵問題, 基於
粒子濾波、
均值漂移、金字塔搜尋等跟蹤算法仍有進一步研究的價值,同時對於其他學科中 np 問題的解法等也可以引入跟蹤搜尋, 以提高算法效率和執行速度,針對特定的場景利用一些附加信息,進行上下情景信息的融合,可以使跟蹤更有效。