Open Sora

Open Sora

Open Sora,北京大學兔展智慧型聯合發起的Sora復現計畫,旨在集結開源社區力量完成對Sora的復現,於2024年3月1日正式公開。

Open Sora項目由北京大學信息工程學院助理教授袁粒和北京大學計算機學院教授田永鴻等領銜帶隊,初始團隊成員包括13名碩士研究生。

Open Sora計畫採用動態掩碼策略等技術細節復現Sora,並已實現可變長寬比、可變解析度和可變時長等功能。雖然訓練資源有限,但該項目已經取得了一些初步成果,並公開了訓練代碼和demo。

基本介紹

  • 外文名:Open Sora
  • 發起者:北京大學、兔展智慧型
  • 發起時間:2024年3月1日
項目背景,歷史沿革,技術特點,整體綜述,可變長寬比,可變解析度,可變時長,實現功能,初步實現,未來規劃,研發人員,社會影響,

項目背景

2024年2月,OpenAI推出開創性的文生視頻模型Sora,這代表視頻生成技術的重大飛躍。Sora能夠將簡短的文本描述轉換成詳細的、高清的視頻片段,且片段最長可達一分鐘。Sora推進了AI技術, 並在視頻製作中提供了新的創造潛能。

歷史沿革

2024年3月1日,Open Sora計畫正式在GitHub公開。

技術特點

整體綜述

Open Sora團隊計畫復現Sora的技術架構主要由以下三部分組成:
  • Video VQ-VAE:用於視頻壓縮至潛在空間的模型,支持可變時長的處理。
  • Denoising Diffusion Transformer(去噪擴散型Transformer)核心的去噪和擴散模型,用於對批量潛變數進行去噪處理。
  • Condition Encoder(條件編碼器)用於添加額外條件信息,如類別、位置等,以指導生成過程。
Open Sora
Open Sora 的整體框架

可變長寬比

為復現Sora視頻的可變長寬比,Open Sora團隊採用了一種動態掩碼策略。該策略參考了上海AI Lab提出的FiT(Flexible Vision Transformer for Diffusion Model)方法,在並行批量訓練的同時保持靈活的長寬比。具體實施時,將高解析度視頻下採樣至最長邊為256像素,同時在右側和底部用零填充至一致的256x256解析度,便於模型的批量處理和注意力掩碼的套用。
Open Sora
Open Sora 的動態訓練策略

可變解析度

儘管模型在固定的256x256解析度上進行訓練,但在推理過程中,Open Sora團隊使用位置插值來實現可變解析度採樣。通過調整可變解析度噪聲潛變數的位置索引,使其與預訓練範圍對齊,從而使基於注意力的擴散模型能夠處理更高解析度的序列。

可變時長

利用VideoGPT中的Video VQ-VAE將視頻壓縮至潛在空間以支持可變時長的處理。同時,通過在擴展空間位置插值至時空維度,實現對可變時長視頻的處理能力。

實現功能

初步實現

Open Sora團隊已經初步實現了以下三個功能:可變長寬比處理、可變解析度處理和可變時長處理,並提供了相應的demo展示。此外,還完成了動態掩碼輸入和在embeddings上添加類條件等任務。
Open Sora
Open Sora 團隊的視頻重建結果

未來規劃

Open Sora團隊未來的工作重點包括完善採樣腳本、添加位置插值功能、在更高解析度上微調Video-VQVAE模型、合併SiT模型以及納入更多條件信息。同時,團隊計畫使用更多數據和GPU資源進行訓練以提升模型性能。

研發人員

Open Sora 初始團隊
姓名
學校/公司
備註
林彬
北京大學
-
袁盛海
北京大學
唐振宇
北京大學
張俊武
北京大學
程鑫華
北京大學
陳柳漢
北京大學
葉陽
北京大學
朱斌
北京大學
葛雲陽
北京大學
周星
兔展AI
董少靈
兔展AI
北京大學校友,兔展智慧型創始人、董事長兼CEO
田永鴻
北京大學
項目領導者,北京大學博雅特聘教授,博士生導師
袁粒
北京大學
項目領導者,北京大學信息工程學院助理教授、博導
參考資料:

社會影響

“Open Sora”項目一公開,“huxiuhan”等北京大學校友就積極回響,還有人表示可以提供高質量數據集。

相關詞條

熱門詞條

聯絡我們