行業背景,名字由來,發展歷程,模型發展,正式發布,功能特色,優點,缺點,技術特點,多幀預測生成,特殊架構,重述提示詞,數據表示,原生規模訓練,模型研發,主要人員,研發軼事,專業測試,社會影響,價值意義,產業格局,職業取代,各界評價,主要競品,社會爭議,虛假信息,著作權問題,門檻問題,
行業背景 2022年底,OpenAI正式推出
ChatGPT ,這款由人工智慧技術驅動的
自然語言處理 工具能夠通過學習和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智慧潛力的現象級產品,展現出了文字對於過去人工智慧的理解力和邏輯能力的超越。隨後,OpenAI的開發重點逐步過渡到圖像的生成,
Dall-E 模型在生成圖像方面也獲得了重大突破。
視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示著技術拐點的臨近以及爆款套用的湧現。特別是在3D資產生成和視頻生成領域,由於擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多。
儘管如此,考慮到大型語言模型(
LLM )對人工智慧各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。在2023年末至2024年初,Pika、
HeyGen 等人工智慧生成的視頻套用逐漸受到關注,這驗證了多模態技術的持續進步與成熟。但與此同時,民主倡導者和人工智慧研究人員警告說,這些工具已經被用來欺騙和欺騙民眾。
名字由來 Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象徵著其無限的創造潛力。
Sora 官網
發展歷程 模型發展 2021年1月5日
文生圖模型Dall-E發布 Dall-E 可以根據簡單的描述創建逼真和清晰的圖像,精通各種藝術風格,還可以生成文字製作建築物上的標誌,並製作同一場景的草圖和全彩圖像。
2022年4月
Dall-E 2發布 Dall-E 2 不僅可以生成更真實和更準確的畫像,而且能夠將文本描述中的概念、屬性和風格等元素綜合起來,生成現實主義的圖像和藝術作品。
2022年11月30日
大語言模型ChatGPT發布 ChatGPT 不僅能與人對話,還能編寫代碼、創作內容等,這一款革命性產品的上線引發全球關注,上線僅5天用戶數量就已突破100萬。
2023年3月15日
GPT-4正式面世 GPT-4可以更準確地解決用戶的難題,多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章,在高級推理方面的表現超過其前代產品。
正式發布 美國當地時間2024年2月15日,OpenAI正式發布文生視頻模型Sora,並發布了48個文生視頻案例和技術報告,正式入局視頻生成領域。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。
2024年2月21日,博主寶玉xp分享稱,OpenAI的Tiktok賬號發布了不少Sora生成的視頻,還配上了背景音樂。3月,Sora核心團隊三位負責人露面接受了專訪。他們在採訪中透露,Sora還處於反饋獲取階段,還不是一個產品,短期內不會向公眾開放。3月26日,每經AI快訊,OpenAI介紹該公司與藝術家和電影製片人的早期合作情況,展示Sora如何幫助人們把想法轉變為現實。4月4日訊息,OpenAI 近日在其 YouTube 官方頻道發布視頻,介紹了由 August Kamp 參與製作,完全由文本轉視頻 AI 模型 Sora 生成的首支音樂短片《Worldweight》。
OpenAI CEO奧特曼在社交媒體展示Sora的能力
功能特色 優點 Sora可以快速製作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻
(其他AI視頻工具還在突破幾秒內的連貫性 ) ,視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的複雜場景”。
中國龍年舞龍
雨後的東京街頭
行駛中的列車窗外
好萊塢大片質感的電影預告片
加州淘金熱時期的歷史鏡頭
玻璃球的特寫視圖
24歲女性眨眼的極端特寫
Sora還具備根據靜態圖像生成視頻的能力,能夠讓圖像內容動起來,並關注細節部分,使得生成的視頻更加生動逼真,這一功能在動畫製作、廣告設計等領域具有套用前景。
Sora能夠獲取現有視頻並對其進行擴展或填充缺失的幀,這一功能在視頻編輯、電影特效等領域具有套用前景,可以幫助用戶快速完成視頻內容的補充和完善。
可以使用Sora連線兩個輸入視頻,在具有完全不同主題和場景組成的視頻之間實現無縫過渡。
Sora的其他能力 能力
描述
Sora可以生成各種尺寸的圖像,解析度最高達2048×2048。
Sora可以生成動態運動的視頻,隨著相機的移動和旋轉,人和場景元素在三維空間中一致移動。
Sora通常能夠有效地對短期和長期依賴關係進行建模,包括人、動物和物體的持久化,即使它們被遮擋或離開框架。同時,它還能在單個樣本中生成同一角色的多個鏡頭,以保持其在整個視頻中的外觀。
Sora有時可以用簡單的方式模擬影響世界狀態的動作。例如一個畫家可以在畫布上留下新的筆觸,並隨著時間的推移而持續,或者一個男人可以吃漢堡並留下咬痕。
Sora可以模擬人工過程,例如電子遊戲,並能夠通過基本策略控制玩家,同時高保真地渲染世界及其動態。
缺點 Sora也存有以下弱點:可能難以準確模擬複雜場景的物理原理,無法理解
因果關係 ,混淆提示的空間細節,難以精確描述隨著時間推移發生的事件。
狼在追逐打鬧過程中,可能會憑空多出或消失
例如,在“五隻灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”的場景中,狼的數量會變化,一些憑空出現或消失。在提示詞“籃球穿過籃筐然後爆炸”中,籃球沒有正確被籃筐阻擋。
沒有正確表示籃球穿過籃筐的過程
OpenAI表示,Sora存在不成熟之處,可能難以理解因果關係,多位人工智慧領域人士表示,該問題可能因其機率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關係是一條必經之路。
技術特點 多幀預測生成 Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲後,視頻也從最初的隨機像素轉化為清晰的圖像場景,其能夠一次生成多幀預測,確保畫面主體在暫時離開視野時仍保持一致。
特殊架構 Sora採用與GPT模型相似的Transformer架構,OpenAI用Transformer結構替代
Diffusion 模型中常用的U-Net結構,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎。Transformer架構能夠處理長序列數據,並通過自注意力機制捕捉數據中的依賴關係,從而提高模型的生成能力。但為了解決Transformer架構在長文本和高解析度圖像處理上的問題,擴散模型採用更可擴展的
狀態空間模型 ( SSM ) 主幹替代了傳統的注意力機制,從而減少了算力需求,並能夠生成高
解析度 圖像。
Transformer架構示意圖
訓練計算量增加,輸出質量提升
重述提示詞 Sora借鑑DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成高度描述性的標註,這使得模型能夠更忠實地遵循用戶的文本指令,生成符合用戶需求的視頻內容,同時也提高了模型的靈活性和可控性。
數據表示 OpenAI將視頻和圖像表示為
Patch ,類似於GPT中的
token ,這種統一的數據表示方式使得Sora能夠在更廣泛的視覺數據上進行訓練,涵蓋不同的持續時間、解析度和縱橫比,有助於模型學習到更豐富的視覺特徵,提高生成視頻的質量和多樣性。
將視覺數據轉化為Patch
原生規模訓練 Sora採用“原生規模訓練”,過往的圖像和視頻生成通常會將視頻調整為標準大小,但這樣會失去視頻的原始長寬比和細節,而原生規模的訓練方法可以帶來更好的效果。Sora可以對各種尺寸和縱橫比的視頻進行採樣,允許直接為不同尺寸的設備創建內容,並快速原型化較低解析度的內容。與將視頻裁剪為正方形的模型相比,Sora可以生成更完整、更美觀的視頻。
Sora可以直接生成不同尺寸的視頻
模型研發 主要人員 Sora核心團隊有15人,研究團隊呈年輕化,主要負責人在2023年博士畢業,團隊中還包含“00後”新生代力量以及藝術生。
姓名
簡介
照片
OpenAI研究員,在加州大學伯克利分校讀博士,Sora項目的共同領導者,參與過DALL-E 3相關研究。
曾在Google負責Pixel手機攝像頭的機器學習工作,曾在NVIDIA負責視頻生成模型研究。
其攝影作品曾獲國家地理、自然的最佳攝影和國家野生動物聯合會的獎項,其還在紐約百老匯燈塔劇院演出過,曾獲得Beatbox國際獎項。
Tim Brooks
OpenAI研究員,加州大學伯克利分校博士,Sora項目的共同領導者,致力於研究深度學習和人工智慧。
曾在Facebook AI Research、Adobe Research和NVIDIA實習。
William (Bill) Peebles
研究員,在科羅拉多礦業學院讀計算機科學博士,Sora項目的系統領導者,致力於解決在推理和訓練深度學習任務時遇到的系統效率問題,在LLM、BERT風格編碼器、循環神經網路(RNNs)和UNets等領域擁有經驗。
在Microsoft擔任研究員。
Connor Holmes
OpenAI研究員,“00後”,密西根大學計算機系本科畢業,參與過DALL-E 3相關研究,常在社交媒體解答網友的疑問。
大四時曾創業市場諮詢公司“DeepResearch”。
Will DePue
OpenAI研究員,麻省理工學院物理學博士,致力於研究多模態模型,參與過DALL-E 3相關研究。
曾在Facebook AI Research進行博士後研究,曾入選福布斯中國“30歲以下30人”榜單。
Li Jing
OpenAI研究員,畢業於加州大學伯克利分校。
曾在Meta和ins任職軟體工程師及工程經理。
Ricky Wang
OpenAI研究員,畢業於加州大學聖塔芭芭拉分校。
曾在Graphiq
(後被 亞馬遜 收購) 與Uber工作,曾帶領團隊做出了
Alexa 語音助手的原型。
David Schnurr
OpenAI研究員,致力於開發高效和領先的人工智慧算法,主要研究領域在生成式建模和計算機視覺,特別是在擴散模型方面。
Aditya Ramesh
曾從事新聞行業,在
今日美國 、WIRED等媒體有過任職,曾在蘋果任職。
Natalie Summers
此外,Troy Luhman、Clarence Wing Yin Ng等人也參與了Sora相關研究。而Sora團隊也正在持續擴張,David Schnurr發布招聘廣告尋找有大型視頻基礎設施經驗的人員。
研發軼事 Sora團隊共同領導者William (Bill) Peebles和
謝賽寧 合著的論文《Scalable diffusion models with transformers》被認為是Sora背後的重要技術基礎之一
(但謝賽寧否認參與Sora研發團隊,僅稱其合著論文起到一些作用 ) ,不過這項研究在發表的時候並不順利。Sora發布時,圖靈獎獲得者、Meta首席科學家Yann LeCun表示該研究論文因為“缺乏創新”,先被
CVPR 2023拒絕,後來被
ICCV 2023接收。
謝賽寧在公開回應時,稱William (Bill) Peebles告訴其他們“每天基本不睡覺,高強度工作了一年”。
專業測試 安全性
OpenAI已將Sora交由Team Red(網路安全演習中扮演敵人或競爭對手角色的群體) 測試Sora,評估潛在的危害或風險。此外,OpenAI正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的,其文本分類器可檢查並拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等。
創意性
OpenAI邀請了專業創意人士測試Sora,用於反饋其在專業環境中的實用性,OpenAI計畫根據這些反饋意見改進Sora,確保它能有效滿足用戶的需求。
社會影響 價值意義 Sora對於需要製作視頻的藝術家、電影製片人或學生來說,都帶來了無限可能。該模型可以深度模擬真實物理世界,標誌著人工智慧在理解真實世界場景並與之互動的能力方面實現飛躍,也被認為是實現
通用人工智慧 (AGI)的重要里程碑,通過不斷深入研究和發展Sora等先進模型,有望在未來實現更加智慧型、高效和多樣化的視頻生成與處理技術。Sora的推出讓AIGC(生成式人工智慧)再度成為行業焦點,能否徹底“顛覆”行業也成為輿論議論的中心。
產業格局 Sora發布後,
OpenAI 的估值迅速上漲
(有望超過800億美元,2023年ChatGPT發布不久時其估值約為290億美元) ,且文生視頻大模型將會大幅推動人工智慧基礎設施的需求,英偉達、OpenAI、軟銀等巨頭公司都被曝正在進行AI晶片的製造布局,英偉達也因大模型訓練需要GPU算力支持而股價大漲。與此同時,受Sora發布的影響,美國圖片供應商Shutterstock的股價大跌。
在中國,龍年開市第一天,Sora相關概念全線“爆發”,會暢通訊、當虹科技、
萬興科技 、易點天下、因賽集團、
東方國信 、
數碼視訊 、
華揚聯眾 、國脈文化等股票均大幅上漲,多家公司回應稱,將根據自身業務特點,在文生視頻技術落地、Sora套用等方面尋找突破入口。
浙商證券 預測,Sora及同類產品將參與到改變信息生產和分發兩大環節的進程中,
PGC (專業生產內容) 將廣泛採用AI工具輔助生產,
UGC ( 用戶生成內容 ) 將藉助AI工具逐步替代PGC。此間,AI生成視頻工具的商業化將提速。
Sora可生成一段長達60秒的視頻,遠超市面同類AI產品視頻生成時長,60秒的視頻時長,已經超過
抖音 等短視頻平台的平均視頻時長,Sora的誕生也為以後短視頻平台的內容生產提供了更大的可能性。
職業取代 截至2024年2月,已有一些視覺藝術家、設計師和電影製作人以及OpenAI員工獲得了Sora訪問許可權,他們也已開始在社交平台不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創意可能。許多網友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業。
各界評價 各界對Sora的評價/態度 類別
專家
評價
Sora是一個數據驅動的物理引擎,它是對許多世界的模擬,無論是真實的還是幻想的,模擬器通過一些去噪和梯度數學來學習複雜的渲染、“直觀”物理、長期推理和語義基礎。
Sora的面世影響的不僅是文生視頻領域,下一步將是過去一年各家遊戲物理引擎廠商們一直在嘗試的自然語言改造生產流程,以及3D素材生產這個戰場。
沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。
根據OpenAI發布的視頻,Sora似乎比任何其他視頻生成工具都“先進得多”,這可能會導致“深度偽造”視頻,人們更難識別出人工智慧生成的視頻。
Sora將縮短AGI(通用人工智慧) 實現時間,從10年縮短到1年。OpenAI訓練該模型應該會以視頻和攝像頭捕捉的畫面為主,人工智慧通過觀看大量視頻將對世界有更深入的理解,這離AGI實現不遠。
根據提示詞生成的大部分逼真視頻並不表明這樣的AI系統理解物理世界,生成視頻的過程與基於世界模型的因果預測完全不同。
很快,像Sora這樣的人工智慧工具將允許電影製作者仔細控制他們的輸出,從頭開始創建各種視頻,當技術剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,不是一件好事情。
Sora視頻幀率較高,說明計算能力比較強,且影片的寬容度更高,如調色、細節表現、高速鏡頭展現等。在直觀感受上,Sora 模型產出的視頻運鏡自然,物體運動符合規律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會差一點。
編劇、導演不必因Sora的出現而擔心,它是幫助實現影視效果的好工具,能夠激發更多人的內容創造力。人類負責創意,AI負責創造,未來的電影創作將是概念片先行,可能不是在寫劇本,而是“寫”影像。
相較於其他視頻類生成式AI,Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一樣強大,且之後可以像ChatGPT一樣便捷訪問,那么Sora將給廣告行業、影視行業和特效行業帶來極大的衝擊。
在生成式人工智慧方面有了可怕的飛躍,可以快速生成逼真的作品,這些工具可能會在選舉中被濫用,公眾將可能“不再知道該相信什麼”。
意料之中也意料之外。所謂意料之中,是因為ChatGPT誕生之後,業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度,衝擊力還是很激烈的。它對模擬物理世界的逼真程度,達到了空前的水平,是之前人工智慧技術從來沒有做到過的。
主要競品 Sora的部分競品 參考資料:
相較於其他模型,Sora的優勢主要是三方面:
第一:可以生成長達60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
第二:可以在單個生成的視頻中創建多個鏡頭,模擬複雜的攝像機運鏡,同時準確地保持角色和視覺風格;
第三:能夠理解物體在現實世界中的物理規律和存在方式。
在各模型復現Sora“穿過下雪、櫻花飛舞的東京街道”場景
社會爭議 虛假信息 Sora的發布引發了關於虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統觀念,還可能帶來一系列社會問題,如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐欺的案例,顯示了AI生成視頻可能被濫用於非法目的的風險。Sora的普及可能會進一步降低製作高質量虛假視頻的門檻,加劇虛假信息的傳播。儘管網際網路平台已有針對特定類型虛假信息的檢測機制,但對於複雜難辨的信息仍需加強深度分析和及時阻斷。隨著AI生成內容的激增,網路上的合成內容將大量存在,這要求不僅在技術上持續改進,還需建立更全面的治理體系來有效應對虛假信息的挑戰。
著作權問題 Sora可能引發侵權爭議。一方面,Sora生成的視頻著作權是否受到保護尚不明確,這可能導致使用這些視頻的主體面臨侵權索賠和著作權保護追溯的風險。另一方面,Sora在訓練過程中使用了相關素材,即使只是用這些素材進行訓練,也可能存在潛在的侵權風險。
門檻問題 一直以來,技術做的事情就是“允許個體作用於世界”,技術媒介、人工智慧的出現,是幾何級降低“個體作用於世界”的門檻,幾何級提升它的可能性。Sora讓視頻創作隨手可得、人人可行,極大實現了內容和創作主體的多樣化,這其實是技術媒介時代平權主義趨勢的表征,可以想像其普及之後媒介平台上的豐富性。
不過,與其說這是打開了傳統影視業的閘門,不如說這是抬高了影視業的水準,使後者變為更小眾、更精英化的行業。想想看,什麼是平權主義且大眾化的Sora沒有的?首先是極高的原創性,然後是短視頻不具備的故事深度與情感共鳴,從歷史感、故事深度和人物塑造中,建立與客群深層的情感連線,這是Sora為影視行業畫出的新界限。