基於情境建模的高效視覺匹配方法及其套用研究

中文摘要

高效視覺匹配是實現基於內容的網路圖像檢索的關鍵。語義鴻溝的存在使得一般圖像上的視覺匹配變得異常困難。與之相比，局部重複性圖像具有特徵的可重複性、局部一致性和結構性等特點，有效利用這些特點有望實現高效的視覺匹配。現有方法仍存在一定的片面性和不足之處，其效率和準確性尚不能滿足實際套用需求。對此，本課題從情境建模這一新的角度出發，全面、綜合考慮圖像、特徵的內容及其情境信息表達，以實現高效的視覺匹配。研究包括：（1）基於情境建模的視覺碼本構建。通過空間情境分析獲得結構性的特徵表達；並設計新穎的多層正交碼本實現高效的量化編碼；（2）基於空間情境的幾何驗證。利用空間直方圖充分描述特徵的情境信息，並結合幾何驗證估計特徵匹配的一致性，提高檢索精度；進一步設計基於多劃分的情境編碼方法，提高驗證效率。通過上述研究，將加深對基於情境建模的視覺匹配方法理解，為局部重複性的網路圖像檢索實用化提供理論和技術上的支持。

結題摘要

本課題從情境建模這一新的角度出發，對視覺匹配方法進行研究，內容主要包括：（1）基於情境建模的視覺碼本構建，如多層視覺碼本構建方法、視覺碼本的擴展以及基於視覺匹配核的視覺碼本等。這些方法通過綜合考慮圖像、特徵的內容表達及情境信息以獲得結構性的特徵表達, 從而提高視覺碼本的有效性，實現高效的視覺匹配。以上述方法為基礎，我們實現了一個實時的高效重複性網路圖像檢索系統。相對於現有的方法，如基於Vocabulary Tree，Bundled Feature和Hamming Embedding等，其檢索效率和準確率提高了約40%左右。（2）基於空間情境的幾何驗證。在圖像特徵表示的基礎上，利用空間直方圖以及不同的空間劃分方式對特徵之間的幾何對應關係進行建模，實現高效的圖像檢索。由於近年來深度神經網路如CNN，DNN在圖像分類、檢索中的成功套用，我們進一步研究了利用深層神經網路結構進行空間相關情境建模的方法。另外考慮深度神經網路的計算複雜度問題，對模型壓縮和快速訓練的方面也進行了一定的研究。研究主要內容包括: 深度卷積神經網路的並行訓練、識別方法，利用數據的劃分實現多個GPU並行訓練和識別方法；利用遷移學習方法實現了神經網路模型壓縮；基於深度瓶頸特徵的圖像分類和檢索方法，類比於傳統基於局部特徵的匹配方法，採用深度卷積網路中的瓶頸層特徵輸出作為中間層特徵，並結合前面的視覺碼本構建方法實現圖像的分類和檢索。最後在套用研究中，我們將情境建模方法套用於機器聽覺、說話人分割、聚類和語種識別等領域，通過挖掘深層神經網路中不同層次輸出的情境信息，得到有效的語音段表示。相對於現有的方法，分類的準確性均有顯著的提高，以語種識別為例，採用層間情境建模方法，識別性能提高了50%以上。情境建模方法與目前深度神經網路結構存在著某種必然的聯繫，其本質是綜合考慮對對象內容及其情境信息以得到對象的結構性表達。本項目的研究表明，情境建模方法在視、聽覺相關的套用領域中均能有效提高匹配的準確性，具有廣泛的套用價值和科學意義。

基於情境建模的高效視覺匹配方法及其套用研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條