Image Caption是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,它類似於翻譯一副圖片為一段描述文字。該任務對於人類來說非常容易,但是對於機器卻非常具有挑戰性,它不僅需要利用模型去理解圖片的內容並且還需要用自然語言去表達它們之間的關係。
基本介紹
- 中文名:圖片標題生成
- 外文名:Image Caption Generation
概述,套用,
概述
Image Caption是一個融合計算機視覺、自然語言處理和機器學習的綜合問題,它類似於翻譯一副圖片為一段描述文字。該任務對於人類來說非常容易,但是對於機器卻非常具有挑戰性,它不僅需要利用模型去理解圖片的內容並且還需要用自然語言去表達它們之間的關係。
圖片分類就是給定一張圖片,讓計算機告訴我們它是一隻貓還是一隻狗;而圖片定位除了告訴我們這是一張狗的圖片,還需要用用一個矩形框把狗的位置標識出來。當然還有要求更高的Image Segmentation,需要告訴我們哪一些像素屬於狗,而另外一些屬於背景。而Image Caption Generation任務是給定一張圖片,需要讓計算機用一句話來描述這張圖片。
套用
從實際的套用來說,這個任務也是很有用處的。比如一個手機拍完照片之後,我們可以用這個方法生成一句話來描述這個圖片,方便分享和以後查找。而從理論研究的角度來說,Caption Generation相對於之前的task來說需要更加深入“理解”圖片中物體之間的關係,甚至包括一些抽象的概念。它把一幅信息量極大的圖片壓縮成短短一句話。