Sora(OpenAI發布的人工智慧文生視頻大模型):行業背景,名字由來,發展歷程

Sora，美國人工智慧研究公司OpenAI發布的人工智慧文生視頻大模型（但OpenAI並未單純將其視為視頻模型，而是作為“世界模擬器”），於2024年2月15日（美國當地時間）正式對外發布。

Sora這一名稱源於日文“空”（そら），即天空之意，以示其無限的創造潛力。其背後的技術是在OpenAI的文本到圖像生成模型DALL-E基礎上開發而成的。

Sora可以根據用戶的文本提示創建最長60秒的逼真視頻，該模型了解這些物體在物理世界中的存在方式，可以深度模擬真實物理世界，能生成具有多個角色、包含特定運動的複雜場景。繼承了DALL-E 3的畫質和遵循指令能力，能理解用戶在提示中提出的要求。

Sora對於需要製作視頻的藝術家、電影製片人或學生帶來無限可能，其是OpenAI“教AI理解和模擬運動中的物理世界”計畫的其中一步，也標誌著人工智慧在理解真實世界場景並與之互動的能力方面實現飛躍。

基本介紹

外文名：Sora
所屬公司 ：OpenAI
發布時間：2024年2月
類別：文生視頻大模型
模型類別：擴散模型
使用架構：Transformer架構

行業背景,名字由來,發展歷程,模型發展,正式發布,功能特色,優點,缺點,技術特點,多幀預測生成,特殊架構,重述提示詞,數據表示,原生規模訓練,模型研發,主要人員,研發軼事,專業測試,社會影響,價值意義,產業格局,職業取代,各界評價,主要競品,社會爭議,虛假信息,著作權問題,門檻問題,

行業背景

OpenAI在大模型領域的成功

2022年底，OpenAI正式推出ChatGPT，這款由人工智慧技術驅動的自然語言處理工具能夠通過學習和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步，這款讓所有人都能體會到人工智慧潛力的現象級產品，展現出了文字對於過去人工智慧的理解力和邏輯能力的超越。隨後，OpenAI的開發重點逐步過渡到圖像的生成，Dall-E模型在生成圖像方面也獲得了重大突破。

視覺算法的進步

視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展，這預示著技術拐點的臨近以及爆款套用的湧現。特別是在3D資產生成和視頻生成領域，由於擴散算法的成熟，這些領域受益匪淺。然而，與圖像生成相比，3D資產和視頻生成在數據和算法方面面臨的難點更多。

儘管如此，考慮到大型語言模型（LLM）對人工智慧各領域的加速作用以及已經出現的優秀開源模型，2024年該行業有望實現更大的發展。在2023年末至2024年初，Pika、HeyGen等人工智慧生成的視頻套用逐漸受到關注，這驗證了多模態技術的持續進步與成熟。但與此同時，民主倡導者和人工智慧研究人員警告說，這些工具已經被用來欺騙和欺騙民眾。

名字由來

Sora在日語中是“天空”（そら）的意思，引申含義還有“自由”，象徵著其無限的創造潛力。

Sora 官網

發展歷程

模型發展

2021年1月5日

文生圖模型Dall-E發布

Dall-E可以根據簡單的描述創建逼真和清晰的圖像，精通各種藝術風格，還可以生成文字製作建築物上的標誌，並製作同一場景的草圖和全彩圖像。

2022年4月

Dall-E 2發布

Dall-E 2不僅可以生成更真實和更準確的畫像，而且能夠將文本描述中的概念、屬性和風格等元素綜合起來，生成現實主義的圖像和藝術作品。

2022年11月30日

大語言模型ChatGPT發布

ChatGPT不僅能與人對話，還能編寫代碼、創作內容等，這一款革命性產品的上線引發全球關注，上線僅5天用戶數量就已突破100萬。

2023年3月15日

GPT-4正式面世

GPT-4可以更準確地解決用戶的難題，多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章，在高級推理方面的表現超過其前代產品。

共6條查看全部

正式發布

美國當地時間2024年2月15日，OpenAI正式發布文生視頻模型Sora，並發布了48個文生視頻案例和技術報告，正式入局視頻生成領域。Sora能夠根據提示詞生成60s的連貫視頻，“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。

2024年2月21日，博主寶玉xp分享稱，OpenAI的Tiktok賬號發布了不少Sora生成的視頻，還配上了背景音樂。3月，Sora核心團隊三位負責人露面接受了專訪。他們在採訪中透露，Sora還處於反饋獲取階段，還不是一個產品，短期內不會向公眾開放。3月26日，每經AI快訊，OpenAI介紹該公司與藝術家和電影製片人的早期合作情況，展示Sora如何幫助人們把想法轉變為現實。4月4日訊息，OpenAI 近日在其 YouTube 官方頻道發布視頻，介紹了由 August Kamp 參與製作，完全由文本轉視頻 AI 模型 Sora 生成的首支音樂短片《Worldweight》。

OpenAI CEO奧特曼在社交媒體展示Sora的能力

功能特色

優點

功能綜述

Sora可以快速製作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻（其他AI視頻工具還在突破幾秒內的連貫性），視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的複雜場景”。

中國龍年舞龍

能力	描述
圖像生成	Sora可以生成各種尺寸的圖像，解析度最高達2048×2048。
3D一致	Sora可以生成動態運動的視頻，隨著相機的移動和旋轉，人和場景元素在三維空間中一致移動。
遠距離連貫性物體持久性	Sora通常能夠有效地對短期和長期依賴關係進行建模，包括人、動物和物體的持久化，即使它們被遮擋或離開框架。同時，它還能在單個樣本中生成同一角色的多個鏡頭，以保持其在整個視頻中的外觀。
互動性	Sora有時可以用簡單的方式模擬影響世界狀態的動作。例如一個畫家可以在畫布上留下新的筆觸，並隨著時間的推移而持續，或者一個男人可以吃漢堡並留下咬痕。
模擬數字世界	Sora可以模擬人工過程，例如電子遊戲，並能夠通過基本策略控制玩家，同時高保真地渲染世界及其動態。
多機位	Sora可以生成多機位、多角度的視頻。

姓名	簡介	照片
Tim Brooks （蒂姆·布魯克斯）	OpenAI研究員，在加州大學伯克利分校讀博士，Sora項目的共同領導者，參與過DALL-E 3相關研究。曾在Google負責Pixel手機攝像頭的機器學習工作，曾在NVIDIA負責視頻生成模型研究。其攝影作品曾獲國家地理、自然的最佳攝影和國家野生動物聯合會的獎項，其還在紐約百老匯燈塔劇院演出過，曾獲得Beatbox國際獎項。	Tim Brooks
William (Bill) Peebles （比爾·皮布爾斯）	OpenAI研究員，加州大學伯克利分校博士，Sora項目的共同領導者，致力於研究深度學習和人工智慧。曾在Facebook AI Research、Adobe Research和NVIDIA實習。	William (Bill) Peebles
Connor Holmes	研究員，在科羅拉多礦業學院讀計算機科學博士，Sora項目的系統領導者，致力於解決在推理和訓練深度學習任務時遇到的系統效率問題，在LLM、BERT風格編碼器、循環神經網路（RNNs）和UNets等領域擁有經驗。在Microsoft擔任研究員。	Connor Holmes
Will DePue	OpenAI研究員，“00後”，密西根大學計算機系本科畢業，參與過DALL-E 3相關研究，常在社交媒體解答網友的疑問。大四時曾創業市場諮詢公司“DeepResearch”。	Will DePue
Yufei Guo	OpenAI研究員，曾參加GPT-4項目研究。
Li Jing	OpenAI研究員，麻省理工學院物理學博士，致力於研究多模態模型，參與過DALL-E 3相關研究。曾在Facebook AI Research進行博士後研究，曾入選福布斯中國“30歲以下30人”榜單。	Li Jing
Ricky Wang	OpenAI研究員，畢業於加州大學伯克利分校。曾在Meta和ins任職軟體工程師及工程經理。	Ricky Wang
David Schnurr	OpenAI研究員，畢業於加州大學聖塔芭芭拉分校。曾在Graphiq（後被亞馬遜收購）與Uber工作，曾帶領團隊做出了Alexa語音助手的原型。	David Schnurr
Joe Taylor	OpenAI研究員，畢業於美國舊金山藝術大學，擅長用戶界面設計、網頁設計、藝術指導等多方面。曾在Stripe、Periscope、Square、 Blackboard等工作。
Eric Luhman	OpenAI研究員，致力於開發高效和領先的人工智慧算法，主要研究領域在生成式建模和計算機視覺，特別是在擴散模型方面。
Aditya Ramesh	OpenAI研究員，DALL-E發明者和DALL-E 2聯合開發者。	Aditya Ramesh
Natalie Summers	曾從事新聞行業，在今日美國、WIRED等媒體有過任職，曾在蘋果任職。	Natalie Summers

類別	專家	評價
科技界	英偉達科學家 DrJimFan	Sora是一個數據驅動的物理引擎，它是對許多世界的模擬，無論是真實的還是幻想的，模擬器通過一些去噪和梯度數學來學習複雜的渲染、“直觀”物理、長期推理和語義基礎。
	趣丸集團副總裁莊明浩	Sora的面世影響的不僅是文生視頻領域，下一步將是過去一年各家遊戲物理引擎廠商們一直在嘗試的自然語言改造生產流程，以及3D素材生產這個戰場。
	伊利諾伊大學厄巴納-香檳分校信息科學教授特德·安德伍德	沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。
	普林斯頓大學計算機科學教授 Arvind Narayanan	根據OpenAI發布的視頻，Sora似乎比任何其他視頻生成工具都“先進得多”，這可能會導致“深度偽造”視頻，人們更難識別出人工智慧生成的視頻。
	360集團創始人、董事長周鴻禕	Sora將縮短AGI（通用人工智慧）實現時間，從10年縮短到1年。OpenAI訓練該模型應該會以視頻和攝像頭捕捉的畫面為主，人工智慧通過觀看大量視頻將對世界有更深入的理解，這離AGI實現不遠。
	圖靈獎得主、Meta首席AI科學家楊立昆	根據提示詞生成的大部分逼真視頻並不表明這樣的AI系統理解物理世界，生成視頻的過程與基於世界模型的因果預測完全不同。
影視界	電影導演兼視覺效果專家麥可·格雷西	很快，像Sora這樣的人工智慧工具將允許電影製作者仔細控制他們的輸出，從頭開始創建各種視頻，當技術剝奪了其他人的創造力、工作、想法和執行力，卻沒有給予他們應有的榮譽和經濟報酬時，不是一件好事情。
	專業攝影師孟凡	Sora視頻幀率較高，說明計算能力比較強，且影片的寬容度更高，如調色、細節表現、高速鏡頭展現等。在直觀感受上，Sora 模型產出的視頻運鏡自然，物體運動符合規律，鏡頭間邏輯一致性好，但是Sora視頻的邏輯性會差一點。
	中國電影文學學會副秘書長杜紅軍	編劇、導演不必因Sora的出現而擔心，它是幫助實現影視效果的好工具，能夠激發更多人的內容創造力。人類負責創意，AI負責創造，未來的電影創作將是概念片先行，可能不是在寫劇本，而是“寫”影像。
社會界	中國社會科學院法學研究所副研究員唐林垚	相較於其他視頻類生成式AI，Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升，如果Sora的能力真如官方公布一樣強大，且之後可以像ChatGPT一樣便捷訪問，那么Sora將給廣告行業、影視行業和特效行業帶來極大的衝擊。
	前記者、現史丹福大學研究員巴西勒·西蒙	在生成式人工智慧方面有了可怕的飛躍，可以快速生成逼真的作品，這些工具可能會在選舉中被濫用，公眾將可能“不再知道該相信什麼”。
	復旦大學教授、上海市數據科學重點實驗室主任肖仰華	意料之中也意料之外。所謂意料之中，是因為ChatGPT誕生之後，業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度，衝擊力還是很激烈的。它對模擬物理世界的逼真程度，達到了空前的水平，是之前人工智慧技術從來沒有做到過的。

公司	產品	技術路線	發布時間
英偉達	PYoCo	擴散模型	2023.05
Runway	Gen-2	擴散模型	2023.06
Pika Labs	Pika 1.0	擴散模型	2023.11
Meta	Emu Video	擴散模型	2023.11
Stability AI	Stable Video Diffusion	擴散模型	2023.11
谷歌	Video Poet	Transformer	2023.12
位元組跳動	MagicVideo-V2	擴散模型	2024.01

Sora(OpenAI發布的人工智慧文生視頻大模型)

基本介紹

行業背景

名字由來

發展歷程

模型發展

文生圖模型Dall-E發布

Dall-E 2發布

大語言模型ChatGPT發布

GPT-4正式面世

正式發布

功能特色

優點

缺點

技術特點

多幀預測生成

特殊架構

重述提示詞

數據表示

原生規模訓練

模型研發

主要人員

研發軼事

專業測試

社會影響

價值意義

產業格局

職業取代

各界評價

主要競品

社會爭議

虛假信息

著作權問題

門檻問題

相關詞條

熱門詞條