融合多視覺對象的行為分析與語義描述

項目摘要

人的行為分析與語義描述是計算機視覺研究的前瞻性方向。傳統的行為分析方法主要關注於單一視覺對象（即人體）的表觀與運動特徵，而較少考慮周圍場景和互動物體等信息，缺乏較為完善的將人體、場景、物體等多種視覺對象統一建模的行為分析理論與計算框架，以及相應的模式表達和分析算法。本項目突破傳統方法的局限性，以獲取人處於哪種環境、在做什麼、怎么做的語義描述為目標，研究構建融合人、物、景多種視覺對象、在底層視覺、中層屬性、高層語義多層次進行行為分析與描述的計算框架。在該框架下，具體探討視頻中多視覺對象的聯合檢測與分割，以及相應底層視覺特徵的提取與表示。進而探索不同視覺對象、不同屬性之間的關聯模型，並基於此研究中層屬性特徵的學習與表示。最後基於多視覺對象的各層特徵表達，研究嵌入多層間信息傳遞映射及高層語義相關模型的行為語義推理。本項目對推動行為分析與語義描述的理論發展以及擴展其套用具有重要的意義。

結題摘要

行為分析與語義描述，是指要讓計算機像人類一樣通過視覺感知外部環境，自動對場景中發生的行為進行分析理解，從而幫助或輔助人類完成許多重要的任務，在智慧型視頻監控、智慧型環境構建、高級人機互動等領域有廣闊的套用前景，對於推動社會進步和生產力發展、保障公共和個人安全都具有重要的實際意義。關於行為分析的研究目前大多針對簡單場景下的行為，且僅局限於人體本身的運動信息和表觀特徵，而忽略了與之相關的周圍場景和互動物體等上下文信息，對於複雜場景中的行為分析理解缺乏魯棒性和準確性。本項目突破現有方法的局限性，主要研究：（1）構建融合多視覺對象的多層次計算框架，將傳統的動作識別、物體識別和場景理解有機地融合在一起，並在視覺特徵層和語義描述層之間引入中間特徵層；（2）視覺對象的檢測及其底層視覺特徵的提取與表示；（3）中層屬性特徵的學習及其關聯建模；（4）高層語義的相關性建模以及語義描述的生成。本項目的主要研究成果如下：（1）使用含有隱變數的結構化支持向量機判別模型，將動作分類、物體檢測與分類、以及場景分類嵌入於統一框架，通過類別同現關係模型挖掘動作、物體與場景之間的上下文信息。（2）針對視覺對象的檢測問題，提出了一種弱監督的人動作定位與識別方法，利用只標註動作類別的視頻和少量標註人動作區域的網際網路圖像，來訓練預測判別模型，用於人動作的時空檢測與定位。（3）提出了基於局部興趣點的時空分布特徵和表觀特徵，分別描述人的運動和表觀信息。利用高斯混合模型統計建模時空分布描述子和表觀描述子，將高斯混合模型的參數量化後得到特徵向量。（4）利用不同動作、物體、場景之間的模式相關性，設計了一種比視覺特徵更具判別力、比語義類別更具描述性的類相關中層特徵。為了有效融合多種底層特徵，提出了基於隨機森林的中層特徵學習算法。（5）針對行為發生在不同的視角問題，提出了一種跨視角行為識別方法，利用遷移學習，將已有視角的識別模型遷移到當前視角進行識別。（6）針對行為內容的定義與標註問題，提出了基於知識遷移的視頻中行為內容的標註方法。藉助現有豐富的網際網路資源，通過收集帶有標註的網際網路圖像並學習圖像集上的標註模型，最後將習得的標註模型有效地遷移到視頻域上。本項目的研究對推動行為分析與語義描述的理論發展以及擴展其套用具有重要的意義。

融合多視覺對象的行為分析與語義描述

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條