基於深度學習的大規模網路視頻拷貝檢測方法

《基於深度學習的大規模網路視頻拷貝檢測方法》是依託復旦大學,由薛向陽擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於深度學習的大規模網路視頻拷貝檢測方法
  • 依託單位:復旦大學
  • 項目類別:面上項目
  • 項目負責人:薛向陽
項目摘要,結題摘要,

項目摘要

視頻內容的自動拷貝檢測可以套用於網路內容監控監管、著作權保護、檢索結果最佳化等很多實際問題。面對拷貝視頻間複雜的內容變換(如光照、尺度、遮擋等),現有技術在精度、速度方面均不足以應對實際需求。圍繞大規模視頻拷貝檢測問題,本項目擬開展以下五個方面的研究:(1)真實拷貝視頻數據集的建立;(2)深度特徵學習;(3)基於神經網路的多特徵融合技術;(4)哈希索引技術;(5)基於視頻時間序列的匹配技術。其中,數據集構建支撐算法研究,深度特徵學習、多特徵融合和時間序列匹配技術主要解決檢測精度問題,而哈希索引技術則專注於提升檢測速度。本項目採用了深度學習技術,並針對拷貝檢測問題的特點設計了新的局部特徵學習方法。成果將發表在知名國際期刊和頂級學術會議上,並通過開發套用系統進行展示和推廣。

結題摘要

隨著YouTube、優酷、抖音等視頻分享網站與套用的興起,在網際網路上用戶上傳視頻呈現爆炸式增長。如何實時監控網路上出現的有害視頻內容,例如涉暴、涉黃的內容,營造良好的網路環境,變得十分迫切。研究視頻拷貝檢測技術就是在海量視頻中發現經過“拷貝變換”而產生的視頻,這些經拷貝變換後的視頻,其語義內容沒有被實質性改變,但是數據已經被改變了,傳統的基於MD5和SHA1等數據校驗算法在拷貝檢測時完全失去了作用。當前,視頻拷貝變換的手段也越來越多樣化,除了視頻轉碼、視頻幀的添加及刪除、視頻主色調及對比度調整、在視頻幀中局部區域貼圖和疊加彈幕文字等常見拷貝變換操作之外,在深度神經網路模型支撐下,還可能通過變換產生視頻畫面風格遷移、從二維視頻圖像重構三維物體等等新型拷貝變換形式,這些變換可能會影響整個視頻的數據甚至某些內容(如畫面風格改變),也可能會影響視頻幀中部分區域中出現的物體。在本項目中,我們將深度學習方法套用到視頻拷貝檢測算法研究中,以應對各種可能的拷貝變換。在研究過程中,我們將研究重點放在視頻場景表征學習這個基本科學問題上,基本思路是將視頻圖像幀看成是由很多物體組合構成的具有時空維度的場景,對視頻場景中出現物體進行更加精細的語義分析,特別研究了視頻中最常見物體(如人臉、行人、文字等)的檢測與識別,從而利用精細語義分析結果綜合推斷最可能的拷貝變換操作。為了更加深入的探索場景中的物體組合構成,我們研究了無監督條件下視覺場景解析等基礎性研究問題,為下一步視頻拷貝檢測研究在視覺場景表征方面進行積極探索。在項目資助下,我們在視頻場景表征學習、常見物體的檢測與識別等研究方面提出了一系列創新的算法模型,較好完成了研究任務,取得了不錯的研究成果,共發表了學術論文21篇,其中包括IEEE TPAMI長文2篇及IEEE TMM長文2篇,中國計算機學會(CCF)推薦A區會議長文11篇(即CVPR 2篇、 ICCV 1篇、 IJCAI 2篇、 ICML 1篇、 AAAI 2篇、 ACM MM 3篇),部分論文得到了在較短時間內就實現了較多引用。據谷歌學術搜尋統計,發表論文的總引用為950餘次。申請發明專利5項。1位博士生(沈志強)獲得中國圖像圖形學學會2019年優秀博士學位論文獎。1篇國際會議論文獲ICME 2017優秀論文獎(Platinum Best Paper)。

相關詞條

熱門詞條

聯絡我們