《基於多源異構特徵表達的跨媒體問答研究》是依託浙江大學,由趙洲擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於多源異構特徵表達的跨媒體問答研究
- 依託單位:浙江大學
- 項目負責人:趙洲
- 項目類別:青年科學基金項目
項目摘要,結題摘要,
項目摘要
隨著網際網路海量數據類型愈加豐富,多媒體問答正成為工業界和學術界共同關注的研究重點。傳統問答技術主要基於文本數據展開,是一種多模態檢索方法,很難直接套用於多媒體問答檢索任務。本項目擬採用跨媒體計算基本理論和方法,對多源異構數據學習得到一致表達,進而挖掘其關聯模式,從而用戶查詢語義意圖和被檢索數據底層特徵之間存在的“語義鴻溝”在多媒體問答中實現對不同媒體類型之間的內容跨越。本項目擬基於網際網路海量圖像數據作為數據對象,通過對多模態數據特徵的魯棒學習,基於弱監督學習的圖像目標語義解析和不同粒度層次上的異構特徵融合表示開展研究,從而實現更精準的跨媒體問答服務。本項目提出多模態正則化魯棒字典學習,基於深度多示例學習的圖像目標語義解析此外和多粒度異構特徵融合的跨媒體問答的研究方案。此外,本項目基於上述研究開發原型系統及開展實證測試,既為媒體大數據提供問答檢索平台,又為跨媒體檢索發展提供理論和技術支持。
結題摘要
隨著網際網路中海量數據類型愈加豐富,主題或事件通常由不同類型的媒體數據來表達,跨媒體問答技術正成為工業界和學術界共同關注的研究重點。 多源異構特徵融合和視頻問答與定位是跨媒體問答研究中的兩個難點問題。 本項目基於多源異構數據(如圖像、視頻、文本和社交網路),結合自然語言理解技術與計算機視覺技術,圍繞異構數據統一表示方法和視頻問答與定位算法框架這兩個問題,提出:(1)異構數據融合方法,學習不同模態數據語義的互補性,從而提高任務的準確度。在視覺與文本特徵融合方面,提出多角度排序模型,用於多媒體推薦系統。針對異構圖和文本特徵融合方面,提出子圖增強嵌入方法,用於異構圖搜尋套用。(2)基於結構化編碼的視頻問答與定位方法,學習視頻內容中物體之間空間和時序的依賴關係。提出基於視頻問答的視頻序列表示任務,以問答作為監督訓練,從而學習視頻語義表示。提出基於靜態物體空間表示和動態動作時序關係表示的雙通道視頻推理問答表示基本框架、關係檢測與推理的複雜視頻問答表示方法和層級聚焦的長視頻問答表示。相關成果發表於ACM/IEEE刊物5篇(其中包括3篇IEEE TIP、 1篇IEEE TMM和1篇ACM TOMM)、 中國計算機學會CCF-A類會議論文22篇(其中包括3篇AAAI、8篇IJCAI、4篇SIGIR、3篇ACM MM、 2篇WWW、 1篇KDD和1篇NeurIPS)、相關專利受理19項。項目工作所形成的數據集ActivityNet-QA正成為業界ground-truth數據集,也成為2018年之江實驗室比賽的基準數據。圍繞視頻問答任務,設定之江實驗室“之江杯-視頻問答比賽”賽題。基於ActivityNet-QA的跨媒體問答技術與華為公司合作研發新型驗證碼系統。通過基於半監督學習自動生成海量VQA問答對,用於人機驗證。基於項目所研究成果,獲得浙江省自然科學基金傑出青年基金資助“跨媒體知識網路構建和視頻語義理解關鍵技術研究”(2018年)和國家自然基金委重點項目課題“基於大規模跨媒體知識網路的複雜視頻問答方法研究”資助(2019年-2023年)。