基於內容的跨媒體檢索研究

《基於內容的跨媒體檢索研究》是依託北京大學,由彭宇新擔任負責人的面上項目。

基本介紹

  • 中文名:基於內容的跨媒體檢索研究
  • 項目負責人:彭宇新
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

隨著網際網路多種媒體內容的快速增長,如何實現跨媒體檢索成為了研究和套用的關鍵問題。目前常用的檢索方式是單媒體檢索,如以文搜文、以圖搜圖等。但媒體內容種類多樣,一般包括文本、圖片、視頻、音頻等。跨媒體檢索是指用戶任意給定一種或幾種媒體查詢,系統自動檢索出與查詢主題相關的所有媒體內容。更為重要的是,這是一種基於內容的跨媒體檢索,關鍵問題在於如何度量不同媒體的內容相似性。本項目研究了跨媒體統一表示和跨媒體相似性度量這兩個重要問題:在跨媒體統一表示上,我們主要研究基於跨媒體結構單元的特徵表示和統一表示學習,這樣能夠有效映射不同的媒體內容到統一的特徵空間上。在跨媒體相似性度量上,我們主要研究跨媒體約束傳遞和基於學習的跨媒體相似性計算方法,這樣能夠度量不同媒體的內容相似性。本項目的研究,對於推動目前從單媒體檢索到基於內容的跨媒體檢索具有重要意義,能夠為下一代多媒體搜尋引擎提供關鍵技術支撐。

結題摘要

隨著多媒體、計算機視覺和網路技術的迅猛發展,信息的傳播已經從單一媒體形態發展到包括視頻、圖像、文本、音頻等的跨媒體形態。跨媒體檢索旨在實現跨越不同媒體類型的信息檢索,克服傳統單媒體檢索信息有限、媒體類型單一的不足,也更加符合人腦的多模態感知與認知方式,對於提高用戶搜尋結果的廣度和深度具有重要意義。然而,由於不同媒體之間存在“異構鴻溝”,導致跨媒體相似性無法直接度量,使得跨媒體檢索麵臨重要挑戰。針對上述問題,本項目針對基於內容的跨媒體檢索問題,根據申請書計畫從跨媒體統一表征、跨媒體相似性度量、跨媒體基礎數據集構造三個方面展開研究,克服了現有方法只能進行2種媒體統一表征的局限性,實現了交叉檢索的媒體類型從2種到5種(圖像、文本、視頻、音頻、圖形)的突破。構造了跨媒體基礎數據集XMedia和XMediaNet,克服了現有數據集規模小、媒體類型少、評測標準不一致的局限性,推動了跨媒體檢索的進一步研究。此外,本項目還根據需要進行了“圖像細粒度分類”和“視覺對象檢測”的擴展研究,首次實現了無對象標註的圖像細粒度分類,並解決了遮擋、低解析度等複雜條件下的視覺對象檢測難題。 基於上述研究成果,發表學術論文38篇,包括IEEE Trans.和CCF A類論文21篇(IEEE TIP, TCSVT, TMM, ACM MM, CVPR, AAAI, IJCAI),部分工作被國際學者評價為首創工作、巨大進展等。申請發明專利19項,授權3項。在國際評測上,本項目組連續四年(2014-2017)參加了由美國國家標準技術局NIST舉辦的視頻檢索領域的權威國際評測TRECVID,均獲得第一名。在國內評測上,項目組2014年參加了由中央網信辦、國家自然科學基金委、科技部聯合舉辦的第一屆特定音視頻分析系統評測資格大賽。因為在評測中的優異表現,受國家網信辦邀請提供關鍵技術和系統投入實際套用。同時也因技術優勢,成為受公安部第三研究所邀請進行網際網路視頻圖像識別與檢索套用的唯一入選隊伍。研究成果“網際網路多模態內容分析與識別關鍵技術及套用”獲2016年北京市科學技術獎一等獎(項目負責人為第一完成人),成功套用於國家網信辦、公安部、國家新聞出版廣電總局、西藏網信辦等重要單位。

相關詞條

熱門詞條

聯絡我們