有道數字人算法

算法簡介

有道數字人算法套用於數字人視頻生成場景，根據用戶傳入的一段說話視頻檔案，對形象與聲音進行定製；定製完成後可以根據用戶輸入的文字，生成嘴型同步且聲音還原的數字人視頻。主要用於有道數字人（APP）、Hi Echo（APP）、有道數字人（小程式）、網易雲課堂（APP）、有道數字人（網站）。

2024年6月，有道數字人算法備案通過。

算法原理

有道數字人算法是一種基於深度學習的語音驅動說話人生成算法。它整合了語音識別技術（包括ASR，TTS 等）和計算機視覺技術（包括人臉檢測、人臉生成、視頻合成等）。該算法的主要功能是根據用戶提供的音頻檔案（真人或TTS語音）或文本，結合任意一段人臉視頻，替換原視頻中的嘴型，生成逼真的嘴型同步的說話人視頻。其輸入內容包括人臉視頻、音頻檔案或文本，輸出內容則是合成的嘴型同步的說話人視頻。這種算法適用於個人用戶，並且可以通過終端進行調用，支持多種播報或者互動場景套用。

運行機制

訓練過程中，數字人算法模型利用海量自監督的說話人輸入進行疊代最佳化。產品使用時，數字人算法模型接收用戶上傳的待合成視頻以及驅動音頻。首先對輸入數據進行違法和不良信息過濾，必要時採用算法二次審核。審核通過後，數字人算法模型根據驅動音頻的特徵，對上傳視頻的嘴型進行替換，生成與驅動音頻對齊的說話人視頻並返回給用戶。

套用場景

數字人算法廣泛套用於媒體、教育、短視頻等領域的內容創作。對於上述場景，數字人算法被廣泛套用於創建虛擬人形象。該算法幫助用戶定製數字人虛擬形象、復刻專屬聲音，用戶持續快速生成視頻內容。該算法具備多項功能，包括語音識別、語音合成、人臉檢測、人臉生成、視頻合成、深度學習等。

算法目的

數字人算法旨在為用戶提供快速高效的音視頻製作服務，提高各種場景下視頻內容生產效率、降低視頻內容製作成本。

有道數字人算法

基本介紹

算法簡介

算法原理

運行機制

套用場景

算法目的

相關詞條

熱門詞條