基於深層神經網路的多模態快速稀疏表征器

中文摘要

從多媒體數據中提取具有稀疏特性的特徵表達儘管能夠取得較好的語義分析效果，其仍具有計算量過大、難以支持多模態聯合表征兩個主要困難。由於求解稀疏約束條件的高度非線性，開發新的數學最佳化與融合算法突破上述限制變得越來越困難。課題組擬結合人類視覺系統在對自然圖像信息表達過程中具有稀疏性這一生理學基礎，採用人工深層神經網路模型開發快速稀疏表征器。該表征器支持以前饋方式直接快速計算輸入信號的稀疏編碼，實現特徵提取速度超過一個數量級的提高。同時允許從多模態數據中進行跨模態對齊的稀疏表征，能夠支持包括靜態圖像到動態視音頻的大規模多媒體數據中常見的模態缺失、不同步、時空解析度不匹配等複雜情況下的有效特徵表達。在此基礎上，衍生出一系列新穎的套用，包括對模態缺失狀況的最最佳化處理、數據的模態無關性本徵表達、抽象特徵的可視化等功能，從而極大促進稀疏表征方法面向大規模複雜多模態數據的廣泛套用。

結題摘要

從多媒體數據中提取具有稀疏特性的特徵表達儘管能夠取得較好的語義分析效果，其仍具有計算量過大、難以支持多模態聯合表征兩個主要困難。在本課題中，我們深入研究了如何在現有的深度網路中添加稀疏約束條件，構建了一種非卷機操作的深度網路模型，並在此基礎上進一步研究了如何使用聯合最佳化的方式，找到多個模型的聯合特徵表達方式。首先，我們提出了一種利用深度網路對L1稀疏編碼的快速逼近方法，並以此為基礎，採用線性編碼操作替代了卷積操作，構建了一種新型的深度網路模型，在多個學術數據集上取得了顯著的性能提升。在此基礎上，我們研究了如何對多個模型進行有效的特徵融合，提出了多種多模型融合策略，均取得了優於簡單疊加多個模型的性能，並且進一步套用於跨攝像頭重識別等問題，在極大地減少訓練樣本規模的同時，獲得了不遜於全監督條件下所能達到的性能。這些理論成果，為後續的研究提供了新的參考和可行性。項目資助發表核心期刊論文14篇，頂級國際會議論文15篇。項目培養了碩士生8名（4名已畢業），博士生2名。項目投入經費82萬元，支出80萬元，剩餘經費2萬元，各項費用基本與預算相符合。剩餘經費計畫用於本項目研究後續支出。

基於深層神經網路的多模態快速稀疏表征器

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條