阿里巴巴EMO

阿里巴巴EMO(Emote Portrait Alive),阿里巴巴推出的音視頻擴散模型。

基本介紹

  • 中文名:阿里巴巴EMO
  • 屬性:音視頻擴散模型
發展歷史,技術原理,產品套用,

發展歷史

2024年2月,阿里巴巴推出EMO音視頻擴散模型。

技術原理

該技術利用先進的音視頻擴散模型,在有限的數據條件下也能高效生成具有高度真實感和豐富表現力的肖像視頻。
一是幀編碼的初始階段,ReferenceNet 用於從參考圖像和運動幀中提取特徵;二是在擴散過程階段,預訓練的音頻編碼器處理音頻嵌入。面部區域掩模與多幀噪聲集成以控制面部圖像的生成;三是使用主幹網路來促進去噪操作。在主幹網路中,套用了兩種形式——參考注意力和音頻注意力機制,這些機制分別對於保留角色的身份和調節角色的動作至關重要。此外,EMO的時間模組用於操縱時間維度,並調整運動速度。

產品套用

視頻案例顯示,不僅可以讓《蒙娜麗莎》此類肖像畫唱歌,還可以呈現不同的語言和跨越次元的風格。該方法還能使電影角色的肖像以不同的語言和風格提供獨白或表演,例如讓《狂飆》里的人物高啟強用羅翔的聲音講述法律考試線上課程。

相關詞條

熱門詞條

聯絡我們