視覺注意模型在語義視頻搜尋中的套用

項目摘要

語義視頻搜尋是在視頻內容理解基礎上實現的視頻快速搜尋過程。在當前視頻資源爆炸式增長的形勢下，從語義層次上實現有效的視頻搜尋變得越來越重要，也有利於海量視頻內容的監管和安全。但由於語義鴻溝的存在，滿足這種需求仍然是一個極具挑戰性的課題。在底層特徵和高層認知之間增加一個語義概念層能夠間接地建立起底層特徵與高層認知間的聯繫，從而縮小語義鴻溝。但現有算法存在認知模型不夠完善、視頻內容表示不夠理想、協同訓練不夠有效等不足。本項目將深入研究視覺的認知機理，特別是選擇性注意機制，在此基礎上構建新的結合what-where信息的視覺注意模型；基於新的注意模型，從視頻概念的協同訓練、音視頻概念融合、概念的擴展性等方面提高視頻搜尋的準確率，為跨越語義鴻溝提供一條可行途徑。

結題摘要

項目組成員來自從事視覺生理心理研究和計算機視覺研究的兩個領域，積極尋找學科交叉點，根據項目原定目標，在深入研究視覺認知機理的基礎上，對語義視頻搜尋的幾個關鍵問題進行了深入的研究，取得了重要的進展。首先，在視頻檢索任務導向下，對視覺注意進行了一系列的特定條件下的眼動實驗，獲得了若干心理學方面的成果；同時建立了具有自由觀看和有正確和錯誤指導語3種範式的視頻眼動數據集，對推動國內外視覺注意和視頻搜尋等方面的研究有著積極的作用。其次，在視覺認知機理研究的驅動下，提出了將自下而上和自上而下兩通路結合的視覺注意模型引入語義視頻搜尋框架的新思想和實現方法，實現了自然語言理解、視頻內容理解和視頻搜尋的有機結合；同時提出了幾個適合於視頻搜尋的視覺顯著性計算模型，例如模擬視覺長期和短期記憶的適用於圖像和視頻的注意模型，這些模型相較於現有模型更符合眼動儀記錄的真實的眼動數據。在TRECVID視頻搜尋任務數據集上驗證了所提框架和方法的有效性。最後，除了視頻分析所涉及的視覺注意，項目組在語義概念提取、不變性特徵提取、目標檢測、行人再辨識、以及多媒體協同處理等方面也進行了研究，並提出了一系列新的或改進的算法，取得了若干有益的研究成果。本項目總計在“套用心理學”刊物上發表論文1篇，在IEEE Signal Processing Letters發表SCI檢索論文1篇、其他EI刊物 4 篇、ICPR、ICIP、ICME、VCIP、BTAS等重要國際會議15篇、其他 EI 國際會議 8篇。申請國內技術專利2項。

視覺注意模型在語義視頻搜尋中的套用

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條