Genie(谷歌DeepMind團隊發布的AI模型):產生背景,發展歷程,實現方法

Genie(谷歌DeepMind團隊發布的AI模型)

本詞條是多義詞，共11個義項

更多義項 ▼ 收起列表 ▲

Genie（全稱：Generative Interactive Environments，生成式互動環境），是谷歌DeepMind團隊發布的一個AI模型，於2024年2月26日發布（註：相關論文發表於2月23日）。Genie是從網際網路視頻中訓練出來的基礎世界模型，可根據合成圖像、照片、草圖生成動作可控的2D世界。

Genie擁有110億個參數，由三個部分組成：一個潛在動作模型，用於推斷每對幀之間的潛在動作；一個視頻tokenizer，用於將原始視頻幀轉換為離散token；一個動態模型，用於在給定潛在動作和過去幀token的情況下，預測視頻的下一幀。該模型從遊戲視頻中學習遊戲機制後，支持用戶通過提供一段文本或一張草圖等簡單提示來創建2D平台類遊戲。Genie不限於2D平台類遊戲，其模型方法適用於任何類型的領域，可以擴展到更大的網際網路數據集。

截至2024年2月，Genie仍是一個研究項目，而非最終產品，其訓練視頻採用160x90像素的超低解析度視頻，每秒只有10幀，生成的“遊戲”也同樣是低解析度，每秒只有1幀，因此尚不適用於實時可玩。Genie的發布，意味著谷歌定義了生成式AI的新範式，即生成式互動環境，DeepMind將Genie視為訓練未來通才AI智慧型體的催化劑。

基本介紹

軟體名稱：Genie
上線時間：2024年2月26日
開發商：谷歌DeepMind團隊
軟體全稱：Generative Interactive Environments

產生背景,發展歷程,實現方法,基礎架構,核心組件,生產過程,套用示例,產品特性,研究團隊,產品評價,

產生背景

自2017年Vaswani等人提出里程碑式的Transformer語言模型，加之硬體方面的發展後，大數據模型得到極大發展。人們通過ChatGPT等預訓練語言模型，拉開了自然語言處理研究和套用的“預訓練+微調”時代。研究表明，生成式人工智慧可以通過語言、圖像甚至視頻生成創造性內容。

發展歷程

2024年2月26日，谷歌DeepMind團隊，發布了一種新的AI模型Genie，它可以接收文本提示、草圖或想法，將其變成一個可以互動和玩耍的虛擬世界（註：相關論文《Genie: Generative Interactive Environments》發表於2024年2月23日）。Genie的名字來源於阿拉伯神話故事中的燈神。

截至2024年2月，Genie仍是一個研究項目，而非最終產品，其訓練視頻採用160x90像素的超低解析度視頻，每秒只有10幀，生成的“遊戲”也同樣是低解析度，每秒只有1幀，因此尚不適用於實時可玩。

Genie

實現方法

基礎架構

Genie架構中的關鍵組件是基於視覺Transformer（ViT）。Transformer的二次方記憶體成本對於視頻來說是一個極大挑戰，因為視頻中可以包含多達 𝑂(10^4) 個token，對此，Genie團隊採用了一個記憶體高效的ST-transformer架構，在所有模型組件中平衡模型容量與計算限制。

ST-transformer架構

與傳統的Transformer不同，Genie每個token都關注所有其他token，一個ST-transformer包含𝐿個時空塊，其中交錯有空間和時間注意力層，之後是一個標準注意力塊的前饋層（FFW）。空間層中的自注意力關注每個時間步內的1 × 𝐻 × 𝑊個token，而時間層關注𝑇 × 1 × 1個token跨越𝑇個時間步。與序列Transformer類似，時間層假設一個因果結構，帶有一個因果掩碼。Genie架構中計算複雜度的主導因素（即空間注意力層）與幀數的增長，呈線性關係而非二次方關係。這使得它對於視頻生成變得更加高效，能夠在延長的互動中保持一致的動態。此外，在ST塊中，Genie在空間和時間組件之後只包含一個FFW，省略了空間後的FFW，以便擴展模型的其他組件。

產品特性

Genie允許用戶通過潛在動作在生成的環境中進行互動。這些動作是通過一個因果動作模型學習得到的，這個模型允許用戶通過指定潛在動作來控制視頻的生成過程。用戶通過潛在動作與生成的環境進行互動，從而創造出新的、動態的視頻內容。這個特性，讓谷歌相信，Genie是實現通用Agent的基石之作。已有研究表明，遊戲環境可以成為開發AI Agent的有效測試平台，但實際情況中常常受到可用遊戲數量的限制。藉助 Genie，未來的AI Agent可以在新生成的世界中，進行永無休止的訓練。

作為一個基礎世界模型，Genie的數據集主要是大量公開的網際網路視頻，其中重點是2D遊戲與機器人視頻。但谷歌強調稱，其採用的方法是通用的，適用於任何類型領域，可以擴展到更大的網際網路數據集，且Genie是在沒有任何動作標註的情況下進行的訓練。Genie在這種情況下“自學成才”，可以專門從網上視頻中學習控制細粒度：它不僅可以了解觀察到哪些部分是可控的，還能推斷出在生成環境中的潛在動作，這種潛在動作甚至還可以轉移到真實的人類設計的環境中。

同時，Genie也可套用於機器人領域。谷歌研究人員們用來自RT1的無動作視頻訓練了一個較小的2.5B模型，證明Genie能夠學習一致的動作空間，可以幫助訓練機器人。谷歌還指出，Genie有助於實現“通用AI Agent”，有研究表明，對於AI Agent開發而言，遊戲環境是有效測試平台，但這種方法難免會受到可用遊戲數量的限制。Genie則可以幫助生成新世界，讓AI Agent不斷接受訓練。

研究團隊

Genie研究團隊的共同一作有六位，分別是Jake Bruce，Michael Dennis，Ashley Edwards，Jack Parker-Holder，Yuge（ Jimmy） Shi，以及Tim Rocktäschel。其中，Yuge（Jimmy）Shi是華人，本科畢業於澳大利亞國立大學，2023年獲得牛津大學機器學習博士學位。

Genie團隊成員和貢獻

產品評價

Genie引入了一個能從圖像或文本生成整個互動式世界的時代，它將成為訓練未來通才AI智慧型體的催化劑。（谷歌DeepMind團隊評）

谷歌的新模型為人工智慧的發展套用開闢了新的領域，也為用戶帶來了更多的創造性和想像力。（每日經濟新聞 評）

作為一個研究項目，Genie是否會成為真正的產品還不清楚。但重要的是其用於內容生成的潛在技術和新方法，包括通向開放世界的未標記學習。其帶來的另一個重大突破是對真實世界物理的更深入理解，這可以用於訓練機器人更有效地導航環境，或完成訓練中沒有經歷過的任務。（新浪科技評）

與Sora呈現出來的高清晰度、高真實度相比，Genie似乎不那么強調畫面真實性，而是將重點放在潛在動作預測上。Genie只需一張圖像就能創建全新的互動環境，為生成和進入虛擬世界的各種新路徑開啟了大門。（第一財經評）

Genie作為世界模型，是人類邁向AGI的旅途中非常重要的一步。（Genie團隊的負責人Tim Rocktäschel 評）

與Sora不同，Genie實際上是個能推斷動作、用正確動作驅動世界模型。（英偉達科學家Jim Fan 評）

Genie(谷歌DeepMind團隊發布的AI模型)

基本介紹

產生背景

發展歷程

實現方法

基礎架構

核心組件

生產過程

套用示例

產品特性

研究團隊

產品評價

相關詞條

熱門詞條

Genie根據圖片生成動作可控的2D世界
原圖
Genie根據人的畫作生成動作可控的2D世界