小冰嘴形驅動算法

小冰嘴形驅動算法是北京紅棉小冰科技有限公司旗下的算法合成服務算法。該算法依託於X Eva(APP),主要套用於視頻生成場景,通過提取音頻或語音特徵,生成與音頻內容相匹配的嘴部動畫。

2024年2月,國家網際網路信息辦公室發布第四批境內深度合成服務算法備案清單,小冰嘴形驅動算法在列。

基本介紹

  • 中文名:小冰嘴形驅動算法
  • 備案號:110108114031101240091
  • 角色:服務提供者
  • 開發主體:北京紅棉小冰科技有限公司
算法原理,運行機制,套用場景,算法目的,

算法原理

基本原理是通過提取音頻或語音特徵來生成與之相匹配的逼真嘴部形狀序列,再通過嘴形對齊、渲染和生成,實現嘴部動作與音頻內容同步。

運行機制

運行機制可以概括為以下幾個步驟:1. 音頻特徵提取:首先從輸入音頻中提取聲學特徵,通過語音識別模型獲取特徵或聲譜圖。2. 嘴形生成:訓練 AI 算法或模型,將音頻特徵映射到相應的嘴形圖像序列,將音頻特徵轉換為嘴形圖像序列。3. 嘴形對齊:通過定位嘴部區域,將生成的嘴部形狀序列與視頻幀中的相應區域進行對齊。4. 渲染和生成:對齊的嘴形圖像序列與原始視頻幀進行合成。

套用場景

X Eva(APP)等小冰自有產品的嘴形驅動

算法目的

目的是實現嘴部動畫與音頻內容相匹配,通過模擬人類嘴部運動,旨在提供更加逼真和自然的嘴部動畫。在許多套用領域中都有廣泛的套用,包括動畫製作、虛擬角色表演、直播帶貨等場景。

相關詞條

熱門詞條

聯絡我們