簡介
ImageNet就像一個網路一樣,擁有多個Node(節點)。每一個node相當於一個item或者subcategory。據官網訊息,一個node含有至少500個對應物體的可供訓練的圖片/圖像。它實際上就是一個巨大的可供圖像/視覺訓練的圖片庫。
ImageNet的結構基本上是金字塔型:目錄->子目錄->圖片集。
該資料庫首次作為一個海報在
普林斯頓大學計算機科學系的研究人員在佛羅里達州舉行的2009年計算機視覺與模式識別(CVPR)會議上發布。
數據集
ImageNet對其注釋過程進行了眾包。 圖像級注釋表示圖像中存在或不存在對象類,例如“此圖像中有老虎”或“此圖像中沒有老虎”。 對象級注釋提供了指定對象(的可見部分)周圍的邊界框。 ImageNet使用廣泛的WordNet架構的變體來對對象進行分類,增加了120種類別的狗品種以展示細粒度的分類。WordNet使用的一個缺點是這些類別可能比ImageNet最適合的“提升”:“大多數人對Lady Gaga或iPod Mini比對這種罕見的雙龍座更感興趣。” 2012年,ImageNet是Mechanical Turk的全球最大學術用戶。 普通工人每分鐘識別50張圖像。
ImageNet挑戰
自2010年以來,每年度ImageNet大規模視覺識別挑戰賽(ILSVRC),研究團隊在給定的數據集上評估其算法,並在幾項視覺識別任務中爭奪更高的準確性。 ILSVRC旨在“追蹤2005年建立的規模較小的PASCAL VOC挑戰”,該挑戰僅包含大約20000個圖像和20個目標類別。 ILSVRC使用僅包含1000個圖像類別或“類別”的“修剪”列表,其中120個品種中有90個由完整的ImageNet架構分類。 2010年在圖像處理方面取得了顯著進展。 2011年左右,ILSVRC分類錯誤率為25%。 2012年,深卷積神經網路達到了16%;在接下來的幾年中,錯誤率下降到幾個百分點。雖然2012年的突破是“前所未有的組合”,但大幅量化的改進標誌著全行業人工智慧繁榮的開始。到2015年,研究人員報告說,軟體在狹窄的ILSVRC任務中超出人類能力。然而,作為挑戰組織者之一的Olga Russakovsky在2015年指出,這些計畫只需將圖像識別為屬於千分之一的圖像;人類可以識別更多的類別,並且(不像程式)可以判斷圖像的上下文。
到2014年,超過50家機構參加了ILSVRC。2015年,百度科學家因使用不同帳戶而被禁止使用一年,大大超過每周兩次提交的指定限制。百度後來表示,它解僱了涉及的團隊領導,並建立了一個科學諮詢小組。
2017年,38個競爭團隊中有29個錯誤率低於5%。 2017年,ImageNet宣布將在2018年推出一項新的,更加困難的挑戰,其中涉及使用自然語言對3D對象進行分類。由於創建3D數據比注釋預先存在的2D圖像更昂貴,數據集預計會更小。這方面的進展套用範圍從機器人導航到增強現實。
2017年11月前後,谷歌的AutoML項目發展出新的神經網路拓撲結構,創建了NASNet,這是一個針對ImageNet和COCO最佳化的系統。 據Google稱,NASNet的性能超過了以前發布的所有ImageNet性能。