多模態融合的知識獲取是指從文本、圖片、視音頻等不同模態數據中交叉融合獲取知識的過程。其中,知識獲取是指從泛在網路空間數據中獲取本體知識的過程,其被首先定義在專家系統中 [1] 。
基本介紹
- 中文名:多模態融合知識獲取
- 外文名:Multi-modal Fusion Knowledge Acquisition
文本、圖片、視音頻等不同模態數據在不同程度上具有不同層次的知識表達性,需要研究不同模態信息的特徵表示和學習方法,實現多模態數據的協同表示。為了克服結構差異對多模態表示造成的影響,需要研究多模態信息及其內外部知識的嵌入式學習方法,建立認知數據支持的深度特徵學習與關聯表示模型,從而將語言和視聽覺等不同模態的信息投影到相互關聯的共同子空間中,實現知識層面的多模態數據協同表示,進一步支持多模態融合的知識獲取,為以後的網路空間搜尋服務提供技術支撐。
對不同模態的信息分別抽取語義特徵,具體來說,當前方法可以利用深度卷積神經網路提取圖片的視覺特徵,利用長短期記憶網路提取文本或者語音的特徵。然後當前方法主要利用注意力模型對各自的特徵進一步抽取顯著性特徵,基於多屬性注意力模型建模不同模態的特徵提取,屬性和語義特徵之間的關聯。在多模態注意網路研究的基礎上,研究不同的多模態池化方法,包括雙線性池化和緊緻雙線性池化方法,使得來自不同模態的顯著性特徵之間進行充分的互動,同時保證運算的高效性,實現不同模態特徵的有效融合。
在特徵融合的基礎上,當前方法可以採用深度學習的編解碼框架實現多模態信息和語言的關聯建模。當前方法將多模態特徵放入到雙向序列LSTM編碼器中,利用LSTM來順序編碼視頻流。前向序列編碼,將視頻幀按正向順序輸入到LSTM中,這樣LSTM在編碼視覺序列的同時可以隨著時間積累視覺信息。後向序列編碼將視頻按反向順序輸入到LSTM中,這部分主要目的是捕捉未來信息的上下文向量。同時引入了注意力機制,對於每一幀的輸出進行加權求和,作為最終輸出,這樣的目的是得到顯著性的信息。在語言生成模組採用了深度強化學習的方法,當前方法將視覺信息輸入到LSTM視覺解碼器中來產生預測句子。當前方法採取了隨機採樣和最大值採樣兩種採樣方式。隨機採樣是從預測詞中隨機選取作為下一次的輸入。最大值採樣是指在產生預測詞中選取機率最大的一個作為下一次輸入。通過對比兩個預測輸出句子在基準上的Reward得分,並根據Reward調節函式來調整語言生成模型的行為方式,以產生更加合理的句子。通過該模型,當前方法可以得到多模態信息的語言描述,然後進一步提取結構化的知識,實現面向多模態融合的知識獲取。