有道數字人算法

有道數字人算法是網易有道信息技術(北京)有限公司推出的深度合成服務算法。

基本介紹

  • 軟體名稱:有道數字人算法
  • 開發商:網易有道信息技術(北京)有限公司
  • 備案號:網信算備110108696992701240031號
算法簡介,算法原理,運行機制,套用場景,算法目的,

算法簡介

有道數字人算法套用於數字人視頻生成場景,根據用戶傳入的一段說話視頻檔案,對形象與聲音進行定製;定製完成後可以根據用戶輸入的文字,生成嘴型同步且聲音還原的數字人視頻。主要用於有道數字人(APP)、Hi Echo(APP)、有道數字人(小程式)、網易雲課堂(APP)、有道數字人(網站)。
2024年6月,有道數字人算法備案通過。

算法原理

有道數字人算法是一種基於深度學習的語音驅動說話人生成算法。它整合了語音識別技術(包括ASR,TTS 等)和計算機視覺技術(包括人臉檢測、人臉生成、視頻合成等)。該算法的主要功能是根據用戶提供的音頻檔案(真人或TTS語音)或文本,結合任意一段人臉視頻,替換原視頻中的嘴型,生成逼真的嘴型同步的說話人視頻。其輸入內容包括人臉視頻、音頻檔案或文本,輸出內容則是合成的嘴型同步的說話人視頻。這種算法適用於個人用戶,並且可以通過終端進行調用,支持多種播報或者互動場景套用。

運行機制

訓練過程中,數字人算法模型利用海量自監督的說話人輸入進行疊代最佳化。產品使用時,數字人算法模型接收用戶上傳的待合成視頻以及驅動音頻。首先對輸入數據進行違法和不良信息過濾,必要時採用算法二次審核。審核通過後,數字人算法模型根據驅動音頻的特徵,對上傳視頻的嘴型進行替換,生成與驅動音頻對齊的說話人視頻並返回給用戶。

套用場景

數字人算法廣泛套用於媒體、教育、短視頻等領域的內容創作。對於上述場景,數字人算法被廣泛套用於創建虛擬人形象。該算法幫助用戶定製數字人虛擬形象、復刻專屬聲音,用戶持續快速生成視頻內容。該算法具備多項功能,包括語音識別、語音合成、人臉檢測、人臉生成、視頻合成、深度學習等。

算法目的

數字人算法旨在為用戶提供快速高效的音視頻製作服務,提高各種場景下視頻內容生產效率、降低視頻內容製作成本。

相關詞條

熱門詞條

聯絡我們