音視頻知識獲取

面向視音頻的知識獲取涉及到視音頻的表示、視音頻與語言的關聯兩個方面的內容。得到視音頻的語言描述後，可以進一步基於文本的信息進行結構化的抽取。

在視音頻的表示研究方面。數據表示是視音頻分析、識別、理解與搜尋等任務的基礎性核心問題，長期以來受到廣泛的關注和重視。相關工作主要從兩個方面開展。傳統的方法依然是基於人工設計的特徵表示,包括主要包括基於局部SIFT的、基於直方圖HOG的和基於全局GIST的方法等。從另一個方面來講，視音頻的表示具有複雜的語義屬性，包括物體[1]，場景[2]和事件[3]等。近年來，在基於深度學習的自動表示方面取得了較多成果。2015年《自然》、《科學》相繼出版了“深度學習”相關專輯，探討機器智慧型的動態與未來[4] [5]。近年來深度學習也引領了視音頻的特徵表示與概念識別研究方向，得到了研究者們的廣泛關注，包括面向CNN[6][7][8][9]和LSTM [10]的方法。

在視音頻與語言的關聯方面。在視音頻有效表示的基礎上，接下來通過視音頻和語言的關聯獲取視音頻的知識。涉及到基於單個句子的視音頻描述和基於多句子的視音頻描述。傳統的方法對於基於單句的視音頻描述，近來主要採用基於神經網路的編解碼框架進行實現。

音視頻知識獲取

基本介紹

相關詞條

熱門詞條