Stable Video Diffusion

Stable Video Diffusion

Stable Video Diffusion是Stability AI發布的視頻生成大模型,於2023年11月正式發布。

基於Stability AI原有的Stable Diffusion文生圖模型,Stable Video Diffusion可實現文生視頻。

基本介紹

  • 外文名:Stable Video Diffusion
  • 研發公司:Stability AI
功能特色,技術特點,

功能特色

Stable Video Diffusion能夠適應各種下游任務,包括多視圖合成,Stability AI計畫擴展這個基礎,建立各種模型。該模型以兩種形式發布,可以生成14和25幀的視頻,幀率可定製。

技術特點

一、多階段訓練策略
Stable Video Diffusion採用了多階段的訓練策略,包括文本到圖像的預訓練、視頻預訓練以及高質量視頻微調。這種分階段的訓練方法使得模型能夠逐步學習到從文本到圖像,再到視頻的複雜映射關係,提高了生成視頻的質量和準確性。
二、強大的基礎模型
該技術在訓練過程中,藉助精心準備的大規模數據集和系統化的策劃流程,構建了一個強大的基礎模型。這個基礎模型不僅為下游任務提供了強大的運動表征,還具備多視圖3D先驗能力,為生成多個視圖的對象提供基礎。
三、高效的數據處理和過濾策略
Stable Video Diffusion在數據處理方面採用了多種策略,包括使用密集光流來注釋數據集、套用光學字元識別來清除包含大量文本的剪輯等。這些策略有效地提高了數據集的質量,去除了可能對模型性能產生負面影響的示例。同時,通過CLIP嵌入來注釋每個剪輯的關鍵幀,進一步豐富了數據集的信息量。
四、靈活的套用場景
由於Stable Video Diffusion提供了強大的多視圖3D先驗和運動表征能力,它可以廣泛套用於各種場景,包括文本到視頻的生成、圖像到視頻的生成以及對攝像機運動特定的適應性等。此外,該模型還可以以前饋方式生成對象的多個視圖,具有較小的算力需求和優於基於圖像方法的性能。
五、高質量的生成效果
通過多階段的訓練策略和精心準備的數據集,Stable Video Diffusion能夠生成高質量、動作連貫且時間一致的視頻內容。

相關詞條

熱門詞條

聯絡我們