VideoPoet

VideoPoet是谷歌團隊發布的全新的視頻生成模型。

基本介紹

軟體名稱：VideoPoet
上線時間：2023年12月30日
開發商：谷歌

模型介紹,發展歷程,主要功能,

模型介紹

VideoPoet 主要包含以下幾個組件：

預訓練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer，能將不同長度的圖像、視頻和音頻剪輯轉換成統一辭彙表中的離散代碼序列。這些代碼與文本型語言模型兼容，便於與文本等其他模態進行結合。

自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態學習，並以自回歸方式預測序列中下一個視頻或音頻 token。

在大語言模型訓練框架中引入了多種多模態生成學習目標，包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復 / 擴展、視頻風格化和視頻到音頻等。此外，這些任務可以相互結合，實現額外的零樣本功能（例如，文本到音頻）。

VideoPoet

VideoPoet

發展歷程

2023年12月30日，谷歌團隊發布了一個全新的視頻生成模型 VideoPoet，而且無需特定數據便可生成視頻。

主要功能

VideoPoet一種大型語言模型（LLM），能夠執行各種視頻生成任務，包括文本到視頻、圖像到視頻、視頻風格化、視頻修復以及視頻轉音頻。

VideoPoet一次能夠生成10秒超長且連貫大動作視頻。

熱門詞條

聯絡我們