Genie(谷歌DeepMind團隊發布的AI模型)

Genie(谷歌DeepMind團隊發布的AI模型)

本詞條是多義詞,共11個義項
更多義項 ▼ 收起列表 ▲

Genie(全稱:Generative Interactive Environments,生成式互動環境),是谷歌DeepMind團隊發布的一個AI模型,於2024年2月26日發布(註:相關論文發表於2月23日)。Genie是從網際網路視頻中訓練出來的基礎世界模型,可根據合成圖像、照片、草圖生成動作可控的2D世界。

Genie擁有110億個參數,由三個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻tokenizer,用於將原始視頻幀轉換為離散token;一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。該模型從遊戲視頻中學習遊戲機制後,支持用戶通過提供一段文本或一張草圖等簡單提示來創建2D平台類遊戲。Genie不限於2D平台類遊戲,其模型方法適用於任何類型的領域,可以擴展到更大的網際網路數據集。

截至2024年2月,Genie仍是一個研究項目,而非最終產品,其訓練視頻採用160x90像素的超低解析度視頻,每秒只有10幀,生成的“遊戲”也同樣是低解析度,每秒只有1幀,因此尚不適用於實時可玩。Genie的發布,意味著谷歌定義了生成式AI的新範式,即生成式互動環境,DeepMind將Genie視為訓練未來通才AI智慧型體的催化劑。

基本介紹

  • 軟體名稱:Genie
  • 上線時間:2024年2月26日
  • 開發商:谷歌DeepMind團隊
  • 軟體全稱:Generative Interactive Environments 
產生背景,發展歷程,實現方法,基礎架構,核心組件,生產過程,套用示例,產品特性,研究團隊,產品評價,

產生背景

自2017年Vaswani等人提出里程碑式的Transformer語言模型,加之硬體方面的發展後,大數據模型得到極大發展。人們通過ChatGPT等預訓練語言模型,拉開了自然語言處理研究和套用的“預訓練+微調”時代。研究表明,生成式人工智慧可以通過語言、圖像甚至視頻生成創造性內容。

發展歷程

2024年2月26日,谷歌DeepMind團隊,發布了一種新的AI模型Genie,它可以接收文本提示、草圖或想法,將其變成一個可以互動和玩耍的虛擬世界(註:相關論文《Genie: Generative Interactive Environments》發表於2024年2月23日)。Genie的名字來源於阿拉伯神話故事中的燈神
截至2024年2月,Genie仍是一個研究項目,而非最終產品,其訓練視頻採用160x90像素的超低解析度視頻,每秒只有10幀,生成的“遊戲”也同樣是低解析度,每秒只有1幀,因此尚不適用於實時可玩。
Genie
Genie

實現方法

基礎架構

Genie架構中的關鍵組件是基於視覺Transformer(ViT)。Transformer的二次方記憶體成本對於視頻來說是一個極大挑戰,因為視頻中可以包含多達 𝑂(10^4) 個token,對此,Genie團隊採用了一個記憶體高效的ST-transformer架構,在所有模型組件中平衡模型容量與計算限制。
Genie
ST-transformer架構
與傳統的Transformer不同,Genie每個token都關注所有其他token,一個ST-transformer包含𝐿個時空塊,其中交錯有空間和時間注意力層,之後是一個標準注意力塊的前饋層(FFW)。空間層中的自注意力關注每個時間步內的1 × 𝐻 × 𝑊個token,而時間層關注𝑇 × 1 × 1個token跨越𝑇個時間步。與序列Transformer類似,時間層假設一個因果結構,帶有一個因果掩碼。Genie架構中計算複雜度的主導因素(即空間注意力層)與幀數的增長,呈線性關係而非二次方關係。這使得它對於視頻生成變得更加高效,能夠在延長的互動中保持一致的動態。此外,在ST塊中,Genie在空間和時間組件之後只包含一個FFW,省略了空間後的FFW,以便擴展模型的其他組件。

核心組件

Genie主要由三個部分組成:一個潛在動作模型,用於推斷每對幀之間的潛在動作;一個視頻分詞器tokenizer,用於將原始視頻幀轉換為離散token;一個動態模型,用於在給定潛在動作和過去幀token的情況下,預測視頻的下一幀。Genie架構中的多個組件基於Vision Transformer (ViT) 構建而成。由於Transformer的二次記憶體成本較高,因此視頻最多可以包含 𝑂(10^4 ) 個token。為此,谷歌在所有模型組件中採用記憶體高效的ST-transformer架構,以此平衡模型容量與計算約束。
潛在動作模型(Latent Action Model ,LAM),用於推理每對幀之間的潛在動作 𝒂,為了實現可控的視頻生成,谷歌DeepMind將前一幀所採取的動作作為未來幀預測的條件。由於此類動作標籤在網際網路的視頻中可用的很少,並且獲取動作注釋的成本很高。因此,Genie以完全無監督的方式學習潛在動作。即Genie的訓練使用了大量公開的網際網路視頻數據集,而沒有使用任何動作標籤數據。
Genie(谷歌DeepMind團隊發布的AI模型)
谷歌以完全無監督的方式學習潛在動作
視頻分詞器(Tokenizer),用於將原始視頻幀轉換為離散token 𝒛;在之前研究的基礎上,谷歌將視頻壓縮為離散token,以降低維度並實現更高質量的視頻生成,實現過程中,谷歌使用了VQ-VAE,其將視頻的 𝑇 幀𝒙1:𝑇 = (𝑥1, 𝑥2, · · · , 𝑥𝑇 ) ∈ ℝ𝑇×𝐻×𝑊×C作為輸入,從而為每個幀生成離散表示:𝒛1:𝑇 = (𝑧1, 𝑧2, · · · , 𝑧𝑇 ) ∈ 𝕀𝑇×𝐷,其中𝐷是離散潛在空間大小。分詞器在整個視頻序列上使用標準的VQ-VQAE進行訓練。
Genie(谷歌DeepMind團隊發布的AI模型)
谷歌將視頻壓縮為離散 token以降低維度並實現更高質量的視
動態模型,是一個僅解碼器的MaskGIT transformer,給定潛在動作和過去幀的token,用來預測視頻的下一幀。
Genie(谷歌DeepMind團隊發布的AI模型)
動態模型

生產過程

用戶首先用圖像𝑥1(作為初始幀)來提示模型。使用視頻編碼器對圖像進行標記,得到𝑧1。然後通過選擇[0, |𝐴|]內的任意整數,來指定要採取的離散潛在動作𝑎1。動態模型採用幀token 𝑧1和相應的潛在動作 ̃𝑎1(通過在VQ碼本中使用離散輸入𝑎1進行索引而獲得)來預測下一幀𝑧2。當動作繼續傳遞給模型,重複此過程以自回歸方式生成序列圖片的其餘部分,同時將token通過分詞器解碼為視頻幀圖片。
Genie(谷歌DeepMind團隊發布的AI模型)
Genie生產過程

套用示例

Genie可以根據合成圖像、照片甚至草圖生成各種各樣動作可控的2D世界,使人們能夠與他們想像的虛擬世界互動。
Genie根據圖片生成動作可控的2D世界
Genie(谷歌DeepMind團隊發布的AI模型)
原圖
Genie(谷歌DeepMind團隊發布的AI模型)
Genie根據人的畫作生成動作可控的2D世界
Genie(谷歌DeepMind團隊發布的AI模型)
Genie(谷歌DeepMind團隊發布的AI模型)

產品特性

Genie允許用戶通過潛在動作在生成的環境中進行互動。這些動作是通過一個因果動作模型學習得到的,這個模型允許用戶通過指定潛在動作來控制視頻的生成過程。用戶通過潛在動作與生成的環境進行互動,從而創造出新的、動態的視頻內容。這個特性,讓谷歌相信,Genie是實現通用Agent的基石之作。已有研究表明,遊戲環境可以成為開發AI Agent的有效測試平台,但實際情況中常常受到可用遊戲數量的限制。藉助 Genie,未來的AI Agent可以在新生成的世界中,進行永無休止的訓練。
作為一個基礎世界模型,Genie的數據集主要是大量公開的網際網路視頻,其中重點是2D遊戲與機器人視頻。但谷歌強調稱,其採用的方法是通用的,適用於任何類型領域,可以擴展到更大的網際網路數據集,且Genie是在沒有任何動作標註的情況下進行的訓練。Genie在這種情況下“自學成才”,可以專門從網上視頻中學習控制細粒度:它不僅可以了解觀察到哪些部分是可控的,還能推斷出在生成環境中的潛在動作,這種潛在動作甚至還可以轉移到真實的人類設計的環境中。
同時,Genie也可套用於機器人領域。谷歌研究人員們用來自RT1的無動作視頻訓練了一個較小的2.5B模型,證明Genie能夠學習一致的動作空間,可以幫助訓練機器人。谷歌還指出,Genie有助於實現“通用AI Agent”,有研究表明,對於AI Agent開發而言,遊戲環境是有效測試平台,但這種方法難免會受到可用遊戲數量的限制。Genie則可以幫助生成新世界,讓AI Agent不斷接受訓練。

研究團隊

Genie研究團隊的共同一作有六位,分別是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rocktäschel。其中,Yuge(Jimmy)Shi是華人,本科畢業於澳大利亞國立大學,2023年獲得牛津大學機器學習博士學位。
Genie(谷歌DeepMind團隊發布的AI模型)
Genie團隊成員和貢獻

產品評價

Genie引入了一個能從圖像或文本生成整個互動式世界的時代,它將成為訓練未來通才AI智慧型體的催化劑。(谷歌DeepMind團隊 評)
谷歌的新模型為人工智慧的發展套用開闢了新的領域,也為用戶帶來了更多的創造性和想像力。每日經濟新聞 評)
作為一個研究項目,Genie是否會成為真正的產品還不清楚。但重要的是其用於內容生成的潛在技術和新方法,包括通向開放世界的未標記學習。其帶來的另一個重大突破是對真實世界物理的更深入理解,這可以用於訓練機器人更有效地導航環境,或完成訓練中沒有經歷過的任務。(新浪科技 評)
與Sora呈現出來的高清晰度、高真實度相比,Genie似乎不那么強調畫面真實性,而是將重點放在潛在動作預測上。Genie只需一張圖像就能創建全新的互動環境,為生成和進入虛擬世界的各種新路徑開啟了大門。(第一財經 評)
Genie作為世界模型,是人類邁向AGI的旅途中非常重要的一步。(Genie團隊的負責人Tim Rocktäschel 評)
與Sora不同,Genie實際上是個能推斷動作、用正確動作驅動世界模型。(英偉達科學家Jim Fan 評)

相關詞條

熱門詞條

聯絡我們