海量網路視頻中的複雜事件檢測技術研究

項目摘要

本項目針對當前海量網路視頻內容分析這一重大需求，提出一套完整的視頻事件檢測技術，包括視頻事件訓練數據的自動採集、多模態視頻特徵表示和基於上下文分析的事件學習算法。在訓練數據採集方面，擬提出一種基於多重文本相似度的度量方法，對網路關鍵字檢索結果進行過濾，進而得到高精度的事件標註；在多模態視頻特徵表示方面，採用圖聚類方式生成視音頻聯合詞袋，深入探索模態間的關聯關係；此外，本項目將設計事件檢測的上下文分析算法，利用基本概念（如目標、場景）的檢測結果提高複雜事件的檢測精度。該算法採用有向圖來對事件-概念關係建模，以充分發掘事件-概念間的因果及共生關係。本項目的研究成果將為網路視頻內容分析奠定一定的理論基礎，並為網路視頻檢索、內容監管等一系列重要套用提供系統化解決思路。研究的成果也將通過國際權威視頻分析評測活動檢驗其性能（如美國國家標準局的視頻檢索評測TRECVID）。

結題摘要

通過三年的工作，課題組已按計畫完成本項目的研究。針對當前海量網路視頻內容分析這一關鍵問題，課題組設計並實現了一套完整的視頻事件檢測技術，包括建立視頻事件類別數據集、多模態視頻特徵表示和基於上下文分析的事件學習算法。首先，我們建立了一個含有91223個視頻共239類的視頻事件類別數據集；其次，我們提出一種正則化的深度神經網路以充分利用特徵之間的關係，逐步設計並實現了視聽雙模態特徵表示、視覺與動作雙模態特徵表示以及視頻多模態特徵的時序表示；與此同時，我們通過使用跨類別的共性模式進行正則化，成功地把上下文關係融入到表示多模態特徵的神經網路中。我們所提出的正則化的深度網路在GPU上實現，並在簡單的動作識別及複雜的事件識別等數據集上做了大量的測試。通過大量的實驗，我們證明所提出的算法優於其他較新的方法。另外，為了測試本項目提出的算法是否能快速高效地完成視頻複雜事件檢測任務，我們參加了MediaEval的暴力事件檢測比賽，連續在2013-2015年得到了第一名的成績，以及2014年IEEE ICME大會上華為舉辦的手機視頻快速標註大賽，得到了“最佳精度獎”。

海量網路視頻中的複雜事件檢測技術研究

基本介紹

項目摘要

結題摘要

熱門詞條