基於時空上下文的主觀視角行為識別方法研究

項目摘要

本申請對主觀視角視頻的行為識別方法展開研究，建立能夠通過視頻內容判斷觀測者自身行為的理論和方法，擬解決該領域的三個關鍵問題：圖像特徵提取、行為特徵表示與行為模型的學習。申請人擬從以下方面著手開展研究。首先，研究基於全局可靠性的圖像特徵演化模型，保證圖像特徵在整個行為進程中的有效性和完整性；其次，研究基於環境信息與時序信息的行為特徵表達方法，實現行為特徵的表達；最後，研究環境信息、時序信息與行為之間的上下文關係，建立基於時空上下文的行為識別模型。上述關鍵問題的解決將使海量的視頻資源得到更有效的利用，實現基於視頻數據的智慧型化分析與決策。

結題摘要

伴隨著可穿戴設備的成熟，越來越多的視頻數據以主觀視角的形式出現。相對於研究主體出現在視頻中的客觀視角視頻，主觀視角視頻適用範圍更廣，拍攝限制更少，成為機器視覺領域行為分析與識別的重要研究對象。本課題對基於時空上下文的主觀視角行為識別方法展開研究，重點探索了本領域內的三個關鍵科學問題，即圖像特徵提取、行為特徵表達與行為模型。首先，在圖像特徵提取方面，課題組對基於全局可靠性的圖像特徵演化模型進行了研究，提出了基於度量學習的多目標相似性特徵匹配方法，克服了圖像特徵匹配中的混淆問題，在實踐中取得了好的效果。其次，在行為特徵表達方面，課題組提出了針對動態非剛性目標的馬爾可夫特徵描述子，利用多幀圖像對行為特徵進行建模，綜合使用3D描述子、馬爾科夫形變動態模型、運動姿態運動直方圖，並通過極限學習機（ELM）模型來綜合各種特徵描述子得到行為特徵，並通過綜合利用頻域特徵和空域特徵，克服了在特殊遮擋條件下的目標丟失問題，實現了行為特徵的一致性表達。在最重要的行為模型建模方面，課題組研究了利用深度強化學習模型來獲取上下文目標之間關係的方法，通過在大規模目標檢測資料庫上訓練得到每個實體的特徵、以及實體之間的相互關係，通過訓練不斷最佳化上下文目標關係網路，實現模型的更新和最佳化；此外，在行為識別方面，課題組針對主觀視角視頻目標尺度大範圍變化的特性，設計了長短時間對稱變換神經網路，充分利用自底向上算法的特點，一次性處理視頻段中所有尺度的目標特徵；並提出了一種遞歸的時域稀疏自編碼（RTSAE）模型，它能夠在獲取稀疏關鍵幀信息的同時保留對視頻特徵的分辨能力，從而在剔除視頻冗餘信息的同時保護了可從視頻中推斷行為的能力。通過利用上述一系列方法的組合，我們極大提升了雙向循環神經網路在標準行為數據集上的精度和速度，為解決主觀視角視頻行為識別的難題提出了一種有效途徑。

基於時空上下文的主觀視角行為識別方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條