圖像自動標註是由計算機系統自動通過圖片說明或關鍵字的形式分配元數據給一張數字圖像的過程。這個計算機視覺技術的套用被用在圖像檢索系統來對資料庫組織和定位感興趣的圖像。
基本介紹
- 中文名:圖像自動標註
- 外文名:Automatic Image Annotation
- 學科:計算機視覺
簡介,基於分類思想的圖像標註方法,多示例多標記標註,多分類標註,相關模型圖像自動標註,半監督模型圖像自動標註,圖像標註方法比較,
簡介
圖像自動標註是指針對圖像的視覺內容,通過機器學習的方法自動給圖像添加反應其內容的文本特徵信息的過程。基本思想是: 利用已標註圖像集或其他可獲得的信息,自動學習語義概念空間與視覺特徵空間的潛在關聯或者映射關係,給未知圖像添加文本關鍵字。經過圖像自動標註技術的處理,圖像信息問題可以轉化為技術已經相對較成熟的文本信息處理問題。
基於分類思想的圖像標註方法
基於分類的圖像標註模型是一種有監督的機器學習方法。分類器訓練過程會不斷地通過反饋信息調整分類器,使得分類器達到某個精度。分類模型的基本思想是: 先對圖像進行分割,過濾噪聲和過分割部分,把每一個語義概念當作一個類別,對分割後的圖像進行分類。圖像的自動標註實際上可以看作圖像分類問題來處理。
多示例多標記標註
一幅圖像由多個區域組成,不同的區域對應不同的語義關鍵字。比如一幅圖像中有藍天、白雲、草坪,馬等語義,其中的任何一個語義只是存在於圖像中的某個區域,並不是圖的全局都包含這些語義。所以全局特徵不能很好的表示圖像的高層語義。多示例學習問題被引入解決圖像標註的有歧義問題。
Dietterich等人首先用多示例學習模型來研究藥物活性問題,通過訓練正包和反包生成模型,對未知圖像包進行標註。在此多示例圖像標註研究的基礎上,Yang C等人提出了多示例學習領域經典的多樣性密度 (Diverse Density) 算法來解決標註問題。算法的基本思想是如果特徵空間中某點最能表征某個給定關鍵字的語義,那么正包中應該至少存在一個示例靠近該點,而反包中的所有示例應該遠離該點。因此該點周圍應當密集分布屬於多個不同正包的示例,同時遠離所有反包中的示例。特徵空間中如果某點附近出現來自於不同正包中的示例越多,反包中的示例離得越遠,則該點表征了給定關鍵字語義的機率就越大。用多樣性密度來度量這種機率,具有最大機率的點即為要尋找的目標點。
多示例多標記的圖像標註方法,只是提供了圖像底層特徵與高層語義之間的更好的對應的新思路,對於提取出來的特徵向量仍然需要訓練分類模型進行分類。
多分類標註
為了進一步提高圖像標註的準確率,很多研究者提出了多分類模型。Carnerio提出了一種有監督的多分類標註方法 (Supervised Multiclass Labeling,簡稱SML),這種方法將每個關鍵字看作是一個類,通過機器學習中的多示例學習方法來為每個類生成對應的條件密度函式,並將訓練圖像看作是與它相關的標註關鍵字所對應的條件密度函式的一個高斯混合模型。路晶,金奕江等人提出了使用基於SVM的否定機率和法的圖像標註的方法,此標註方法的基本思想是: 先建立小規模圖像庫為訓練集,庫中每個圖像標有單一的語義標籤,再利用其底層特徵,以SVM為子分類器,“否定機率和”法為合成方法構建基於成對藕合方式 (PWC) 的多類分類器,並對未標註的圖像進行分類,結果以N維標註向量表示。
以上這幾種聚類方法,通常都是基於視覺特徵,將具有視覺特徵的區域劃分為同一類別,只要視覺特徵相同就可以歸為一類,不管其語義特徵是否相同,都用相同的關鍵字,所以這種分類方法的圖像標註的準確率不是特別高。
Hinton提出了深度信念網,它由一組受限玻爾茲曼機 (RBM) 組成,可以實現自主地進行特徵學習,這一發現促使了對深度學習領域的研究,並將這項技術套用於圖像分類標註領域中。2011年,Marc' Aurelio Ranzato等人利用深度學習的思想,設計實現了深度生成模型完成特徵學習,並將該模型套用於圖像識別和分類工作中。深度學習的興起,促進了基於圖像分類的圖像標註領域的進一步完善。
相關模型圖像自動標註
相關模型圖像自動標註方法是基於早期的機率關聯模型而來,不同於機率關聯模型的地方是它不僅僅簡單地統計圖像區域與關鍵字出現的共生機率,而是建立圖像與語義關鍵字之間的機率相關模型。通過關聯模型,給待標註圖像找到與其相關性機率最大的一組語義關鍵字來標註圖像。
2003年Lavrenko在CMRM模型的基礎上改進並提出了連續特徵相關模型 (Continuous - space Relevance Model,簡寫CRM)。隨後,Feng S,Lavrenko等人又在CMRM和CRM模型的基礎上改進而形成了多伯努利相關模型(Multiple - Bernoulli Relevance Model,簡寫MBRM),此模型仍然採用規則的格線劃分圖像,但是標註關鍵字的機率分布是通過MBRM來估計的。Pan等人採用了EM算法來估計圖像區域與關鍵字的關係。
以上相關模型的自動圖像標註方法,都是先對圖像進行分割,對分割後的圖像子區域與特徵關鍵字利用關聯模型求聯合機率,然後對圖像進行標註。
半監督模型圖像自動標註
半監督模型圖像自動標註是一種重要的機器學習方法,已經標註的圖像信息和未被標註的圖像信息都要參與到機器的學習過程中,與前面提到的基於分類的有監督機器學習方法不同,在學習過程中可以利用的圖像信息更多,對信息的了解更加清楚,它適用於圖像信息總量大,而已被標註的圖像信息很少的情形。這種圖像標註方法在大數據環境下可以得到很好地推廣。
半監督模型方法
Pan首先將圖學習模型套用於圖像標註領域,提出了一種基於圖模型的自動圖像標註方法 (Graph - based Auto-matic Caption,GCap),該方法的主要思想是: 將圖像、圖像區域以及標註詞分別作為3種不同類型的圖的節點,並根據它們之間的相關性來連線構造圖。這種方法初步提出了圖模型標註的基本思想,對於圖像節點之間的權值問題以及標註詞與標註詞、圖像與圖像之間的相關性問題考慮的較少。圖像標註結果不理想。
在Pan提出的圖像標註方法基礎上,還有其他一些改進方法,如Liu提出了一種自適應的基於圖模型的圖像標註 方 法 (Adaptive Graph - based Annotation method,AGAnn),該方法綜合考慮了圖像與圖像之間的關係、圖像與標註詞之間的關係以及標註詞與標註詞之間的關係,並提出了用Word Net獲得詞間的關係來為圖剪枝,設計了基於流形排序算法 (Manifold - Ranking) 的自適應相似圖來對這些信息進行傳播,最終實現圖像標註。
圖像標註方法比較
基於分類的圖像標註,國內外學者提出很多方法,一大部分是通過先提取訓練圖像的底層特徵,然後在底層特徵和關鍵字分類器之間建立分類模型,再對未標註的圖像集運用這個模型進行分類,完成圖像標註。早期的分類器只能實現圖像與關鍵字之間的一對一標註,後來經過對分類器的改進,可以實現一對多的分類。但是基於分類的圖像標註,無論是一對一的分類方式還是一對多的分類方法,都在不同程度上受到分類器個數的約束和限制,對於大數據環境下的圖像或者大量關鍵字的標註情況不適用。但是,基於分類模型的圖像標註在圖像識別和檢索方面有很明顯的優越性。
相關模型的圖像標註方法是通過構建一個機率統計模型來計算圖像內容和標註關鍵字之間的聯合機率。圖像底層特徵與標註關鍵字之間不是一一對應的,聯繫不是太緊密。但是要想準確得到圖像內容與標註詞之間的聯合機率,就要分析語義關鍵字之間存在的共生機率關係,語義關鍵字之間的不獨立性,會造成計算得到聯合機率不準確,而影響標註結果。
基於半監督模型圖像標註方法的優點是在學習階段可以利用更多的數據,更加適合於已標註的訓練數據量相對較小、總數據量較大的情況。這種圖像標註方法在大數據環境下可以得到很好地推廣。但是該種標註方法也有缺點,在標註的過程中必須考慮圖像間的權值問題,以及圖像與圖像之間,詞與詞之間,圖像與詞語之間的相關性問題,而這些問題也是基於圖像標註過程中的關鍵點與難點。