網易有道數字人算法

算法簡介

“網易有道數字人算法”套用於數字人視頻生成場景，服務於企業端客戶，根據輸入的文本，及說話人視頻，生成數字人形象的合成視頻。

2024年4月，國家網際網路信息辦公室發布第五批境內深度合成服務算法備案清單，“網易有道數字人算法”在列。

“網易有道數字人算法”是基於深度學習的語音驅動說話人生成算法，融合了語音識別技術（包括ASR，TTS 等）、計算機視覺技術（包括人臉檢測、人臉生成、視頻合成等）。

該算法可以根據用戶傳入的音頻檔案（真人或TTS語音），基於任意一段人臉視頻，替換視頻中的嘴型，生成逼真的嘴型同步的說話人視頻。

該算法針對企業級用戶設計，可以通過API進行批量調用、或通過本地離線化部署實現點對點調用。具有多語種驅動的能力，支持多種說話人生成的相關場景套用。

訓練過程中，數字人算法模型利用海量自監督的說話人輸入進行疊代最佳化。

產品使用時，數字人算法模型接收用戶上傳的待合成視頻以及驅動音頻。首先對輸入數據進行違法和不良信息過濾，必要時採用算法二次審核。審核通過後，數字人算法模型根據驅動音頻的特徵，對上傳視頻的嘴型進行替換，生成與驅動音頻對齊的說話人視頻並返回給用戶。

數字人算法廣泛套用於媒體、教育、短視頻等領域的內容創作。

對於上述場景，數字人算法被廣泛套用於創建虛擬人形象。該算法幫助用戶定製數字人虛擬形象、復刻專屬聲音，用戶持續快速生成視頻內容。該算法具備多項功能，包括語音識別、語音合成、人臉檢測、人臉生成、視頻合成、深度學習等。

數字人算法旨在為用戶提供快速高效的音視頻製作服務，提高各種場景下視頻內容生產效率、降低視頻內容製作成本。