Stable Video Diffusion

功能特色

Stable Video Diffusion能夠適應各種下游任務，包括多視圖合成，Stability AI計畫擴展這個基礎，建立各種模型。該模型以兩種形式發布，可以生成14和25幀的視頻，幀率可定製。

一、多階段訓練策略

Stable Video Diffusion採用了多階段的訓練策略，包括文本到圖像的預訓練、視頻預訓練以及高質量視頻微調。這種分階段的訓練方法使得模型能夠逐步學習到從文本到圖像，再到視頻的複雜映射關係，提高了生成視頻的質量和準確性。

二、強大的基礎模型

該技術在訓練過程中，藉助精心準備的大規模數據集和系統化的策劃流程，構建了一個強大的基礎模型。這個基礎模型不僅為下游任務提供了強大的運動表征，還具備多視圖3D先驗能力，為生成多個視圖的對象提供基礎。

三、高效的數據處理和過濾策略

Stable Video Diffusion在數據處理方面採用了多種策略，包括使用密集光流來注釋數據集、套用光學字元識別來清除包含大量文本的剪輯等。這些策略有效地提高了數據集的質量，去除了可能對模型性能產生負面影響的示例。同時，通過CLIP嵌入來注釋每個剪輯的關鍵幀，進一步豐富了數據集的信息量。

四、靈活的套用場景

由於Stable Video Diffusion提供了強大的多視圖3D先驗和運動表征能力，它可以廣泛套用於各種場景，包括文本到視頻的生成、圖像到視頻的生成以及對攝像機運動特定的適應性等。此外，該模型還可以以前饋方式生成對象的多個視圖，具有較小的算力需求和優於基於圖像方法的性能。

五、高質量的生成效果

通過多階段的訓練策略和精心準備的數據集，Stable Video Diffusion能夠生成高質量、動作連貫且時間一致的視頻內容。