視頻選擇性注意機理與語義特徵提取

項目摘要

當前，數以億計存儲的視頻資源和爆炸式增長的網路視頻服務，使得在語義層次上實現視頻查詢和檢索變得越來越重要；視頻的自動標註對海量視頻內容的監管和安全更有著極為現實的意義，但語義鴻溝使得這種需求矛盾變得日益突出。近年來的研究表明，建立起音視頻底層特徵與人類高層認知之間的聯繫能夠縮小語義鴻溝，其中一個較有潛力的方法是在底層特徵和高層認知之間增加一個語義概念層。但現有算法存在認知模型不夠完善、圖像內容表示和概念融合不夠理想、模型訓練不夠有效等不足。本項目將深入研究視覺的認知機理，特別是選擇性注意和視覺不變性的成因和機制，在此基礎上構建新的注意計算模型；根據所得到的注意模型，從顯著區域及不變性特徵的提取、概念融合、並行訓練等方面對跨越語義鴻溝提供一條可行途徑。

結題摘要

項目組從事視覺生理心理研究和計算機視覺研究的兩方面人員緊密合作，積極尋找學科交叉點，根據項目原定目標，在深入研究視覺認知機理的基礎上，對視頻內容理解的幾個關鍵問題進行了深入的研究，取得了重要的進展。首先，在視頻檢索任務導向下，對視覺注意進行了一系列的特定條件下的眼動實驗，獲得了若干心理學方面的成果；同時建立了首個具有自由觀看和有正確和錯誤指導語3種範式的視頻眼動數據集，並籌備將其公開至網際網路上，這對推動國內外視覺注意和視頻搜尋等方面的研究有著積極的作用。其次，在視覺認知機理研究的驅動下，提出了將自下而上和自上而下兩通路結合的視覺注意模型引入語義視頻搜尋框架的新思想和實現方法，實現了自然語言理解、視頻內容理解和視頻搜尋的有機結合；同時提出了幾個適合於視頻搜尋的顯著性注意計算模型，例如模擬視覺長期和短期記憶的適用於圖像和視頻的注意模型，這些模型相較於現有模型更符合眼動儀記錄的真實的眼動數據。連續2年在TRECVID視頻搜尋任務的國際評測中檢驗了所提框架和方法的有效性，其搜尋準確率的逐年上升並達到與文字檢索可以相比較的程度，顯示了所提方法具備一定的突破當前語義視頻搜尋技術瓶頸的潛力。最後，除了視頻分析所涉及的視覺注意，在語義概念提取、目標檢測、以及多媒體協同處理等方面也進行了研究，並提出了一系列新的或改進的算法，尤其在特徵稀疏表達方面取得了若干有益的研究成果。本項目總計在“心理學報”等心理學刊物上發表論文3篇，在 IEEE Trans. 發表論文1篇、其他 SCI/EI 刊物 4 篇、ICPR、ICIP、ICME、ACM MM、BTAS等重要國際會議11篇、其他 EI 國際會議 24 篇。

視頻選擇性注意機理與語義特徵提取

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條