《視覺語義的Web統計模型及理解深化》是依託哈爾濱工業大學,由姚鴻勛擔任項目負責人的面上項目。
基本介紹
- 中文名:視覺語義的Web統計模型及理解深化
- 依託單位:哈爾濱工業大學
- 項目類別:面上項目
- 項目負責人:姚鴻勛
項目摘要,結題摘要,
項目摘要
針對目前對Web知識利用的局限性,建立一套基於Web知識的視覺計算學理論,指引探索和解決大數據背景下視覺語義計算中存在的科學問題。本項目將從Web知識的起源出發,對Web視覺媒體數據的統計分布特性展開探索,建立面向大規模統計分析的視覺媒體特徵表達、獨立空間機率密度估計和語義計算的基礎理論框架,揭示Web媒體數據中視覺語義的形成、關聯和傳播原理,探索Web視覺媒體在語義特徵空間的分布規律,將數據自身的分布特點、語義實體的上下文關係以及人類認知的相關啟發式假設有機結合起來,逐步構建基於Web數據的視覺語義挖掘理論以及語義的廣義計算模型,實現大數據背景下帶有語義約束的Web視覺知識抓取,進而突破基於Web的視覺語義的定位和協同分割、圖像補充及超解析度、圖像檢索重排等關鍵技術,建立一套Web視覺語義挖掘及智慧型化視覺信息分析和處理的視覺計算學理論與技術體系,實現Web視覺語義計算的深化理解和套用。
結題摘要
本項目針對大規模Web視覺媒體數據的語義理解的重要需求,利用Web數據中的語義先驗知識,建立了Web多模態視覺媒體數據的分布預測及深度解析理論與方法,實現了Web數據理解中的圖像情感感知預測、圖像語義檢索、視頻目標跟蹤和動作識別等多種十分重要的任務,為解決傳統視覺套用問題提供了大規模、自動化的解決方案。本項目有以下兩個方面的貢獻:1、在Web圖片媒體數據的統計分布及深度感知方面,提出了基於疊代多任務超圖學習和多任務共享稀疏回歸的社交圖像情感感知和分布預測方法、基於多任務學習和多模態圖學習的Web數據分類及檢索方法、基於卷積神經網路和特徵金字塔的圖像語義匹配方法。2、在Web視頻媒體數據的語義理解及自動挖掘方面,提出了基於核相關濾波器和生物啟發表觀模型等視覺目標跟蹤的方法;定義了視頻的舞蹈風格問題,並首次提出了基於風格的舞蹈視頻推薦算法;面向視頻數據中的動作理解和評價問題,提出了基於草圖的動作表示方法、基於代表性動作挖掘的視頻角色識別方法和基於姿態估計和對齊的動作評價方法。通過大量的理論分析和實踐驗證,揭示了Web數據統計分布的一般規律,並從理論、套用兩個層面證明了Web知識的存在性和可用性,同時基於若干實際套用問題給出了對Web知識進行挖掘利用的具體方案,證明了Web知識的套用價值。課題組的研究成果均已發表在重要國際期刊和會議上,發表(含接收)學術論文72篇,其中國際期刊文章33篇,影響因子大於2.0的國際期刊20篇(IEEE/ACM Transactions 6篇,PR 等其他期刊文章14篇);國際會議文章39篇,其中發表在CCF A 類的會議論文8篇;申請專利2項。項目已培養畢業博士8人,碩士6人。其中1人獲得中國圖象圖形學學會優秀博士學位論文獎,該獲獎論文題目為《圖像情感感知的計算與套用研究》。獲黑龍江省高校科學技術獎一等獎1 項,黑龍江省科學技術獎(自然)二等獎1項。組內老師和學生多次參加CVPR、AAAI、MM等頂級國際會議,出版了IEEE Transactions on CSVT 專刊,擴大了Web媒體數據理解相關理論和方法的國際影響力。