基於視覺感知模型的視頻編碼關鍵技術研究

《基於視覺感知模型的視頻編碼關鍵技術研究》是依託北京航空航天大學,由徐邁擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於視覺感知模型的視頻編碼關鍵技術研究
  • 依託單位:北京航空航天大學
  • 項目負責人:徐邁
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

近年來,隨著智慧型終端的發展以及線上視頻等新型業務的普及,網路中所傳輸的視頻數據量呈爆炸式增長的趨勢,網路頻寬供求矛盾日益尖銳。視頻編碼理論是突破網路頻寬瓶頸的重要途徑之一。傳統編碼理論一直沿著數位訊號處理的思路演進,難以突破“邊際效應”。事實上,當前終端計算能力飛速發展,為解決頻寬供求矛盾提供了契機。因此,另一種新的研究思路是從人類視覺認知角度出發,利用機器學習的計算工具,構建人類視覺感知模型,研究基於視覺感知模型的視頻編碼關鍵技術,以智慧型計算換取頻寬;該工作在國內外尚處於起步階段。本項目將利用已有研究基礎,以提高視頻壓縮效率為目標,重點開展認知、計算與信號處理交叉理論研究,研究內容包括三方面關鍵技術:(1)基於紋理字典線上學習的圖像稀疏表示;(2)基於深度學習的不同失真下視頻的視覺注意模型;(3)視覺感知模型下的率-複雜度-感知失真最佳化。本項目將為視頻編碼理論提供新的理論依據與技術支持。

結題摘要

本項目為突破視頻通信的網路頻寬受限的瓶頸難題,從視覺感知角度出發,利用機器學習的計算工具,構建視覺感知模型,研究基於視覺感知的視頻編碼關鍵技術,以智慧型計算換取視頻傳輸頻寬,在視頻感知與壓縮方面取得了理論和技術突破,解決了傳統率-失真理論無法最佳化用戶體驗的難題,成倍提升了視頻壓縮效率,達到了預期的研究目標。取得的主要創新成果如下。1、針對視頻表徵效率低的問題,提出了基於紋理字典線上學習的圖像稀疏表示模型,並將稀疏表示模型套用於圖像與視頻表征中,顯著提升了表徵效率、降低了表征數據量。實驗結果表明:本項目模型同時提高了圖像重構質量與識別精度,突破現有結構化表征方法在多處理任務上的泛化能力。2、為模擬人類視覺注意機制,建立了大規模視頻關注點資料庫,提出一系列圖像/視頻顯著性預測方法,構建數據驅動下的人類視覺注意模型,預測人類觀看圖像/視頻的關注點。實驗結果表明:與現有工作相比,本項目的方法在多個測試庫上均大幅提高了視頻顯著性檢測精度,CC精度平均提升高達63%。3、在稀疏表示模型與視覺注意模型基礎上,研究了感知模型下的率-複雜度-感知失真最佳化。建立了感知失真度量準則,設計了率-感知失真最佳化方程,解決了傳統方法無法實現最優碼率分配的難題,在滿足目標碼率的前提下,使視頻壓縮後感知失真最小;構建了面向四叉樹分割的深度學習模型,實現了感知失真最佳化下視頻壓縮編解碼複雜度控制。實驗結果表明:相同用戶體驗前提下,可將HEVC壓縮碼率減少約50%、計算複雜度節省約70%。在IEEE TPAMI、TIP、TCSVT等發表SCI期刊論文XXX篇,在ICCV、CVPR、ECCV、DCC、AAAI等發表EI會議論文XXX篇;獲授權發明專利XXX項、軟體著作權XXX項;獲得中國人工智慧學會技術發明獎。項目負責人獲得國家自然科學基金優秀青年基金資助,入選教育部青年長江學者,獲中國電子學會優秀科技工作者榮譽;培養的學生於2018年、2019妮娜獲得連續2年獲得中國電子學會優秀碩士論文獎,並獲得2017年中國電子學會優秀碩士論文提名獎。

相關詞條

熱門詞條

聯絡我們