VideoPoet

VideoPoet是谷歌團隊發布的全新的視頻生成模型。

基本介紹

  • 軟體名稱:VideoPoet
  • 上線時間:2023年12月30日 
  • 開發商谷歌
模型介紹,發展歷程,主要功能,

模型介紹

VideoPoet 主要包含以下幾個組件:
預訓練的 MAGVIT V2 視頻 tokenizer 和 SoundStream 音頻 tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉換成統一辭彙表中的離散代碼序列。這些代碼與文本型語言模型兼容,便於與文本等其他模態進行結合。
自回歸語言模型可在視頻、圖像、音頻和文本之間進行跨模態學習,並以自回歸方式預測序列中下一個視頻或音頻 token。
在大語言模型訓練框架中引入了多種多模態生成學習目標,包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續、視頻修復 / 擴展、視頻風格化和視頻到音頻等。此外,這些任務可以相互結合,實現額外的零樣本功能(例如,文本到音頻)。
VideoPoet
VideoPoet

發展歷程

2023年12月30日,谷歌團隊發布了一個全新的視頻生成模型 VideoPoet,而且無需特定數據便可生成視頻。

主要功能

VideoPoet一種大型語言模型(LLM),能夠執行各種視頻生成任務,包括文本到視頻、圖像到視頻、視頻風格化、視頻修復以及視頻轉音頻。
VideoPoet一次能夠生成10秒超長且連貫大動作視頻。

熱門詞條

聯絡我們