Sora(OpenAI發布的人工智慧文生視頻大模型)
本詞條是多義詞,共8個義項
更多義項 ▼
收起列表 ▲
OpenAI發布的人工智慧文生視頻大模型 日本電子遊戲開發商蒼井翔太演唱歌曲《王國之心》系列中主角日本動畫《數碼獸大冒險》系列中的角色TV動畫《火影忍者疾風傳》中原創角色漫畫《點心公主》及其衍生作品中的角色惠州市索拉設計有限公司註冊商標
Sora,美國人工智慧 研究公司OpenAI 發布的人工智慧文生視頻 大模型 (但OpenAI並未單純將其視為視頻模型,而是作為“世界模擬器” ) ,於2024年2月15日(美國當地時間) 正式對外發布。
Sora這一名稱源於日文“空”(そら ),即天空之意,以示其無限的創造潛力。其背後的技術是在OpenAI的文本到圖像生成模型DALL-E 基礎上開發而成的。
Sora可以根據用戶的文本提示創建最長60秒的逼真視頻,該模型了解這些物體在物理世界中的存在方式,可以深度模擬真實物理世界,能生成具有多個角色、包含特定運動的複雜場景。繼承了DALL-E 3 的畫質和遵循指令能力,能理解用戶在提示中提出的要求。
Sora對於需要製作視頻的藝術家、電影製片人或學生帶來無限可能,其是OpenAI“教AI理解和模擬運動中的物理世界”計畫的其中一步,也標誌著人工智慧在理解真實世界場景並與之互動的能力方面實現飛躍。
基本介紹
外文名 :Sora所屬公司 :OpenAI發布時間 :2024年2月類別 :文生視頻大模型模型類別 :擴散模型使用架構 :Transformer架構
行業背景,名字由來,發展歷程,模型發展,正式發布,功能特色,優點,缺點,技術特點,多幀預測生成,特殊架構,重述提示詞,數據表示,原生規模訓練,模型研發,主要人員,研發軼事,專業測試,社會影響,價值意義,產業格局,職業取代,各界評價,主要競品,社會爭議,虛假信息,著作權問題,門檻問題,
行業背景 2022年底,OpenAI正式推出
ChatGPT ,這款由人工智慧技術驅動的
自然語言處理 工具能夠通過學習和理解人類的語言來進行對話。ChatGPT是OpenAI邁出的第一步,這款讓所有人都能體會到人工智慧潛力的現象級產品,展現出了文字對於過去人工智慧的理解力和邏輯能力的超越。隨後,OpenAI的開發重點逐步過渡到圖像的生成,
Dall-E 模型在生成圖像方面也獲得了重大突破。
視覺算法近年來的突破在泛化性、可提示性、生成質量和穩定性等方面均取得了進展,這預示著技術拐點的臨近以及爆款套用的湧現。特別是在3D資產生成和視頻生成領域,由於擴散算法的成熟,這些領域受益匪淺。然而,與圖像生成相比,3D資產和視頻生成在數據和算法方面面臨的難點更多。
儘管如此,考慮到大型語言模型(
LLM )對人工智慧各領域的加速作用以及已經出現的優秀開源模型,2024年該行業有望實現更大的發展。在2023年末至2024年初,Pika、
HeyGen 等人工智慧生成的視頻套用逐漸受到關注,這驗證了多模態技術的持續進步與成熟。但與此同時,民主倡導者和人工智慧研究人員警告說,這些工具已經被用來欺騙和欺騙民眾。
名字由來 Sora在日語中是“天空”(そら)的意思,引申含義還有“自由”,象徵著其無限的創造潛力。
Sora 官網
發展歷程
模型發展 2021年1月5日
文生圖模型Dall-E發布 Dall-E 可以根據簡單的描述創建逼真和清晰的圖像,精通各種藝術風格,還可以生成文字製作建築物上的標誌,並製作同一場景的草圖和全彩圖像。
2022年4月
Dall-E 2發布 Dall-E 2 不僅可以生成更真實和更準確的畫像,而且能夠將文本描述中的概念、屬性和風格等元素綜合起來,生成現實主義的圖像和藝術作品。
2022年11月30日
大語言模型ChatGPT發布 ChatGPT 不僅能與人對話,還能編寫代碼、創作內容等,這一款革命性產品的上線引發全球關注,上線僅5天用戶數量就已突破100萬。
2023年3月15日
GPT-4正式面世 GPT-4可以更準確地解決用戶的難題,多模態的GPT-4還可以生成、編輯具有創意性或技術性的文章,在高級推理方面的表現超過其前代產品。
正式發布 美國當地時間2024年2月15日,OpenAI正式發布文生視頻模型Sora,並發布了48個文生視頻案例和技術報告,正式入局視頻生成領域。Sora能夠根據提示詞生成60s的連貫視頻,“碾壓”了行業目前大概只有平均“4s”的視頻生成長度。
2024年2月21日,博主寶玉xp分享稱,OpenAI的Tiktok賬號發布了不少Sora生成的視頻,還配上了背景音樂。3月,Sora核心團隊三位負責人露面接受了專訪。他們在採訪中透露,Sora還處於反饋獲取階段,還不是一個產品,短期內不會向公眾開放。3月26日,每經AI快訊,OpenAI介紹該公司與藝術家和電影製片人的早期合作情況,展示Sora如何幫助人們把想法轉變為現實。4月4日訊息,OpenAI 近日在其 YouTube 官方頻道發布視頻,介紹了由 August Kamp 參與製作,完全由文本轉視頻 AI 模型 Sora 生成的首支音樂短片《Worldweight》。
OpenAI CEO奧特曼在社交媒體展示Sora的能力
功能特色
優點 Sora可以快速製作最長一分鐘、準確反映用戶提示、可一鏡到底的視頻
(其他AI視頻工具還在突破幾秒內的連貫性 ) ,視頻可以呈現“具有多個角色、特定類型的動作、以及主題和背景的準確細節的複雜場景”。
中國龍年舞龍 OpenAI表示,Sora存在不成熟之處,可能難以理解因果關係,多位人工智慧領域人士表示,該問題可能因其機率模式的邏輯存有“硬傷”。加大訓練量、增加訓練數據與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關係是一條必經之路。
技術特點 多幀預測生成 Sora是一種擴散模型,具備從噪聲中生成完整視頻的能力,它生成的視頻一開始看起來像靜態噪音,通過多個步驟逐漸去除噪聲後,視頻也從最初的隨機像素轉化為清晰的圖像場景,其能夠一次生成多幀預測,確保畫面主體在暫時離開視野時仍保持一致。
特殊架構 Sora採用與GPT模型相似的Transformer架構,OpenAI用Transformer結構替代
Diffusion 模型中常用的U-Net結構,提升了原來Diffusion模型在深度和寬度上的可擴展性,為視頻模型增加輸出時長奠定基礎。Transformer架構能夠處理長序列數據,並通過自注意力機制捕捉數據中的依賴關係,從而提高模型的生成能力。但為了解決Transformer架構在長文本和高解析度圖像處理上的問題,擴散模型採用更可擴展的
狀態空間模型 ( SSM ) 主幹替代了傳統的注意力機制,從而減少了算力需求,並能夠生成高
解析度 圖像。
Transformer架構示意圖 Sora借鑑DALL-E 3的“重述提示詞技術”,為視覺訓練數據生成高度描述性的標註,這使得模型能夠更忠實地遵循用戶的文本指令,生成符合用戶需求的視頻內容,同時也提高了模型的靈活性和可控性。
此外,Troy Luhman、Clarence Wing Yin Ng等人也參與了Sora相關研究。而Sora團隊也正在持續擴張,David Schnurr發布招聘廣告尋找有大型視頻基礎設施經驗的人員。
研發軼事 Sora團隊共同領導者William (Bill) Peebles和
謝賽寧 合著的論文《Scalable diffusion models with transformers》被認為是Sora背後的重要技術基礎之一
(但謝賽寧否認參與Sora研發團隊,僅稱其合著論文起到一些作用 ) ,不過這項研究在發表的時候並不順利。Sora發布時,圖靈獎獲得者、Meta首席科學家Yann LeCun表示該研究論文因為“缺乏創新”,先被
CVPR 2023拒絕,後來被
ICCV 2023接收。
謝賽寧在公開回應時,稱William (Bill) Peebles告訴其他們“每天基本不睡覺,高強度工作了一年”。
專業測試 安全性
OpenAI已將Sora交由Team Red(網路安全演習中扮演敵人或競爭對手角色的群體) 測試Sora,評估潛在的危害或風險。此外,OpenAI正在開發幫助檢測誤導性信息的工具,比如檢測分類器可以判斷視頻是何時由Sora生成的,其文本分類器可檢查並拒絕違反使用政策的文本輸入提示,例如極端暴力、性內容、仇恨圖像、名人肖像等。
創意性
OpenAI邀請了專業創意人士測試Sora,用於反饋其在專業環境中的實用性,OpenAI計畫根據這些反饋意見改進Sora,確保它能有效滿足用戶的需求。
社會影響 價值意義 Sora對於需要製作視頻的藝術家、電影製片人或學生來說,都帶來了無限可能。該模型可以深度模擬真實物理世界,標誌著人工智慧在理解真實世界場景並與之互動的能力方面實現飛躍,也被認為是實現
通用人工智慧 (AGI)的重要里程碑,通過不斷深入研究和發展Sora等先進模型,有望在未來實現更加智慧型、高效和多樣化的視頻生成與處理技術。Sora的推出讓AIGC(生成式人工智慧)再度成為行業焦點,能否徹底“顛覆”行業也成為輿論議論的中心。
產業格局 Sora發布後,
OpenAI 的估值迅速上漲
(有望超過800億美元,2023年ChatGPT發布不久時其估值約為290億美元) ,且文生視頻大模型將會大幅推動人工智慧基礎設施的需求,英偉達、OpenAI、軟銀等巨頭公司都被曝正在進行AI晶片的製造布局,英偉達也因大模型訓練需要GPU算力支持而股價大漲。與此同時,受Sora發布的影響,美國圖片供應商Shutterstock的股價大跌。
在中國,龍年開市第一天,Sora相關概念全線“爆發”,會暢通訊、當虹科技、
萬興科技 、易點天下、因賽集團、
東方國信 、
數碼視訊 、
華揚聯眾 、國脈文化等股票均大幅上漲,多家公司回應稱,將根據自身業務特點,在文生視頻技術落地、Sora套用等方面尋找突破入口。
浙商證券 預測,Sora及同類產品將參與到改變信息生產和分發兩大環節的進程中,
PGC (專業生產內容) 將廣泛採用AI工具輔助生產,
UGC ( 用戶生成內容 ) 將藉助AI工具逐步替代PGC。此間,AI生成視頻工具的商業化將提速。
Sora可生成一段長達60秒的視頻,遠超市面同類AI產品視頻生成時長,60秒的視頻時長,已經超過
抖音 等短視頻平台的平均視頻時長,Sora的誕生也為以後短視頻平台的內容生產提供了更大的可能性。
職業取代 截至2024年2月,已有一些視覺藝術家、設計師和電影製作人以及OpenAI員工獲得了Sora訪問許可權,他們也已開始在社交平台不斷曬出使用Sora生成的新作品,為人們展示AI生成視頻的創意可能。許多網友稱“不少人要丟工作了”,甚至有人開始“悼念”一整個素材行業。
各界評價 各界對Sora的評價/態度 類別
專家
評價
Sora是一個數據驅動的物理引擎,它是對許多世界的模擬,無論是真實的還是幻想的,模擬器通過一些去噪和梯度數學來學習複雜的渲染、“直觀”物理、長期推理和語義基礎。
Sora的面世影響的不僅是文生視頻領域,下一步將是過去一年各家遊戲物理引擎廠商們一直在嘗試的自然語言改造生產流程,以及3D素材生產這個戰場。
沒想到在接下來的兩到三年內還會出現這種持續、連貫的視頻生成水平。
根據OpenAI發布的視頻,Sora似乎比任何其他視頻生成工具都“先進得多”,這可能會導致“深度偽造”視頻,人們更難識別出人工智慧生成的視頻。
Sora將縮短AGI(通用人工智慧) 實現時間,從10年縮短到1年。OpenAI訓練該模型應該會以視頻和攝像頭捕捉的畫面為主,人工智慧通過觀看大量視頻將對世界有更深入的理解,這離AGI實現不遠。
根據提示詞生成的大部分逼真視頻並不表明這樣的AI系統理解物理世界,生成視頻的過程與基於世界模型的因果預測完全不同。
很快,像Sora這樣的人工智慧工具將允許電影製作者仔細控制他們的輸出,從頭開始創建各種視頻,當技術剝奪了其他人的創造力、工作、想法和執行力,卻沒有給予他們應有的榮譽和經濟報酬時,不是一件好事情。
Sora視頻幀率較高,說明計算能力比較強,且影片的寬容度更高,如調色、細節表現、高速鏡頭展現等。在直觀感受上,Sora 模型產出的視頻運鏡自然,物體運動符合規律,鏡頭間邏輯一致性好,但是Sora視頻的邏輯性會差一點。
編劇、導演不必因Sora的出現而擔心,它是幫助實現影視效果的好工具,能夠激發更多人的內容創造力。人類負責創意,AI負責創造,未來的電影創作將是概念片先行,可能不是在寫劇本,而是“寫”影像。
相較於其他視頻類生成式AI,Sora在畫面清晰度、內容流暢度、表意深度和精彩程度方面均有大幅提升,如果Sora的能力真如官方公布一樣強大,且之後可以像ChatGPT一樣便捷訪問,那么Sora將給廣告行業、影視行業和特效行業帶來極大的衝擊。
在生成式人工智慧方面有了可怕的飛躍,可以快速生成逼真的作品,這些工具可能會在選舉中被濫用,公眾將可能“不再知道該相信什麼”。
意料之中也意料之外。所謂意料之中,是因為ChatGPT誕生之後,業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度,衝擊力還是很激烈的。它對模擬物理世界的逼真程度,達到了空前的水平,是之前人工智慧技術從來沒有做到過的。
主要競品 Sora的部分競品 參考資料:
相較於其他模型,Sora的優勢主要是三方面:
第一:可以生成長達60秒鐘的視頻,包括多個角色、特定類型動作和主題背景;
第二:可以在單個生成的視頻中創建多個鏡頭,模擬複雜的攝像機運鏡,同時準確地保持角色和視覺風格;
第三:能夠理解物體在現實世界中的物理規律和存在方式。
在各模型復現Sora“穿過下雪、櫻花飛舞的東京街道”場景 Sora的發布引發了關於虛假信息傳播的爭議。其強大的圖像視頻生成能力達到了以假亂真的程度,這不僅改變了人們“眼見為實”的傳統觀念,還可能帶來一系列社會問題,如視頻證據真實性和有效性的驗證難題。在Sora問世前已有多起利用AI偽造視頻進行詐欺的案例,顯示了AI生成視頻可能被濫用於非法目的的風險。Sora的普及可能會進一步降低製作高質量虛假視頻的門檻,加劇虛假信息的傳播。儘管網際網路平台已有針對特定類型虛假信息的檢測機制,但對於複雜難辨的信息仍需加強深度分析和及時阻斷。隨著AI生成內容的激增,網路上的合成內容將大量存在,這要求不僅在技術上持續改進,還需建立更全面的治理體系來有效應對虛假信息的挑戰。
Sora可能引發侵權爭議。一方面,Sora生成的視頻著作權是否受到保護尚不明確,這可能導致使用這些視頻的主體面臨侵權索賠和著作權保護追溯的風險。另一方面,Sora在訓練過程中使用了相關素材,即使只是用這些素材進行訓練,也可能存在潛在的侵權風險。
門檻問題 一直以來,技術做的事情就是“允許個體作用於世界”,技術媒介、人工智慧的出現,是幾何級降低“個體作用於世界”的門檻,幾何級提升它的可能性。Sora讓視頻創作隨手可得、人人可行,極大實現了內容和創作主體的多樣化,這其實是技術媒介時代平權主義趨勢的表征,可以想像其普及之後媒介平台上的豐富性。
不過,與其說這是打開了傳統影視業的閘門,不如說這是抬高了影視業的水準,使後者變為更小眾、更精英化的行業。想想看,什麼是平權主義且大眾化的Sora沒有的?首先是極高的原創性,然後是短視頻不具備的故事深度與情感共鳴,從歷史感、故事深度和人物塑造中,建立與客群深層的情感連線,這是Sora為影視行業畫出的新界限。