定義
多模態認知計算模擬人類“聯覺”(Synaesthesia),探索圖像、視頻、文本、語音等多模態輸入的高效感知與綜合理解手段,是人工智慧領域的重要研究內容,在認知科學的啟發下,結合“信容”(Information Capacity)概念,提高機器的信息提取能力。
發展歷程
多模態認知計算的研究開始於21世紀初。為構建模擬人類認知模式的智慧型系統,李學龍於2003年將“
認知計算”(Cognitive Computing)的概念引入信息科學領域,並開設了“認知計算”課程。2008年,以“聯覺”(Synaesthesia)為關鍵字正式發表研究工作“Visual Music and Musical Vision”。同年,經過各級審批,IEEE SMC的認知計算技術委員會終於正式獲批成立,李學龍擔任創始主席。該技術委員會從成立伊始,就明確了“認知計算”的目標。
隨著人工智慧第三次發展高潮的影響逐漸深化,多模態認知計算迎來了新的發展機遇,成為航空航天、智慧型製造、醫療健康等重大領域共同關注的研究課題。2008年,國家自然科學基金委員會設立的重大研究計畫“視聽覺信息的認知計算”,實施以來取得了豐碩成果。2017年,國務院印發了《新一代人工智慧發展規劃》,明確提出“建立大規模類腦智慧型計算的新模型和腦啟發的認知計算模型”,研究“以自然語言理解和圖像圖形為核心的認知計算理論和方法”。當前,多模態認知計算研究已從學術牽引轉化為需求牽引,在圖像、視頻、文本、語音等海量多模態數據和強大算力的支撐下,國內外各大知名企業與研究機構紛紛加入此項研究中。隨著多模態數據的海量爆發和算力的快速疊代,多模態認知計算已成為各行業共同關注的研究熱點,在臨地安防中發揮著重要作用。
西北工業大學李學龍教授於2020年獲騰訊“科學探索獎”,獲獎理由為“肯定他將聯覺引入信息領域的視聽覺分析,支持他在多模態認知計算方向深入探索”。
原理
人類具備多感官整合能力。當多種感官通道刺激同時發生,人類的注意力不會被分散。當同一事件引起多種感官的同步刺激時, 不同感官通道共享注意力, 人類可以感知更多信息。因此,多模態認知計算假設來自同一事件的不同模態數據共享注意力。假設事件空間
為感知模態
、空間
、時間上
的張量,
為第
個模態的信息量矩陣,
事件注意力矩陣,且所有事件的注意力總和為1,則機器從事件空間中提取的最大信息量為
。與信容(Information Capacity,單位數據量的信息提供能力)對應,機器的認知能力定義為從單位數據中獲取最大信息量的能力
。
因此,可從三方面提升機器認知能力,實現多模態認知計算:(1)最佳化
,使機器獲得更大信息量;(2)增大
,利用對於給定任務信息量更大的數據;(3)減小
,利用儘可能少的數據實現信息量的最大化。
套用
多模態認知計算在“
臨地安防”(Vicinagearth Security)中有廣闊的套用前景。在臨地安防的實際套用中,通常需要處理來自光學、聲學等不同感測器的大量多模態數據。以智慧型巡檢為例,需要對無人機採集的音頻與不同波段的圖像進行綜合研判,發現場景中存在的隱患。
特點
區別於傳統的人工智慧研究,多模態認知計算的特點有三層:
(1)強調多模態信息的綜合利用。多模態相比於單一模態能夠提供更大的信息量;
(2)明確認知計算的重要性。通過設計認知啟發的學習算法,探究多模態輸入的聯合分析方法;
(3)注重從數據中提取信息的能力。從單位數據量中提取更多信息,則代表機器具備更強的認知能力。
分類
多模態認知計算以“信容”(Information Capacity,信息量與數據量的比值,即單位數據量的信息提供能力)理論為依據,將機器的認知能力描述為從單位數據獲取最大信息量的能力。以提升機器認知能力為核心,多模態認知計算劃分為三個基本任務:
(1) 多模態關聯
通過挖掘不同子模態事件在空間、事件、語義層面的內在一致性,將子模態事件映射到統一的信息空間、實現多模態的對齊、感知與檢索識別。 通過多模態關聯,可以挖掘不同模態間的對應關係、以進一步提升認知能力。典型任務有視音理解(Audiovisual Learning)、跨膜態檢索(Cross-Modal Retrieval)等。
(2) 跨模態生成
將信息以模態為載體進行傳輸,利用不同模態的差異性,對已知信息進行跨模態的合成與轉換。在跨模態合成中,利用更加直觀,易於理解的模態對信息進行豐富和補充,增大信息量。在跨模態轉換中,尋找更加簡潔的表達形式,在保留信息的同時,減小數據量,以此提升信息獲取能力。典型任務有視頻摘要(Video Summarization)、語音識別(Speech Recognition)等。
(3) 多模態協同
利用不同模態間的關聯與互補,探究高效、合理的模態間聯合機制,最佳化注意力係數。通過學習以圖像、視頻、文本、語音為代表的多模態數據的一致性表達,實現信息的融合與增強以提升在指定任務上的性能。典型任務有多模態融合(Multi-Modal Fusion)、聯合學習(Joint Learning)等。