Blink視頻生成算法是北京箭廠科技有限公司推出的深度合成服務算法。該算法套用於視頻生成場景,服務於企業端客戶,根據用戶輸入的內容,生成唇形與語音匹配的視頻。
2024年4月,Blink視頻生成算法通過備案。
基本介紹
- 軟體名稱:Blink視頻生成算法
- 開發商:北京箭廠科技有限公司
- 備案號:網信算備110108518427001240021號
算法原理,運行機制,套用場景,算法目的,
算法原理
blink 視頻生成算法是基於wav2lip的聲音圖片視頻合成模型。wav2lip模型的訓練分為兩個階段,第一階段是專家音頻和口型同步判別器預訓練;第二階段是GAN網路訓練。訓練部分包括一個生成器和兩個判別器,這裡的兩個判別器分別是專家音頻和口型同步判別器和視覺質量判別器,前者預訓練完畢後,在GAN訓練過程中保持凍結。
運行機制
blink 視頻生成算法的運行機制主要基於深度學習和生成對抗網路(GAN)。首先,該算法使用兩個神經網路:一個是語音識別網路,用於將語音轉換為文本;另一個是唇形生成網路,用於將文本轉換為唇形。這兩個網路通過訓練可以學習到語音和唇形之間的關係,從而實現在語音輸入時生成對應的唇形。在訓練過程中,blink 視頻生成算法需要大量的語音和唇形數據。這些數據可以來源於真實的人類語音和唇形,也可以來源於虛擬人物的語音和唇形。通過這些數據,算法可以學習到語音和唇形之間的關係,從而實現準確的轉換。具體來說,該算法使用了一種叫做條件GAN的框架。在這個框架中,生成器負責接受音頻信號並將其轉換為嘴部動作序列,而判別器則通過對比生成器生成的嘴部動作與真實視頻中的嘴部動作,來評估生成器的表現。通過反覆的疊代訓練,生成器能夠逐漸最佳化嘴部動作序列的生成效果,從而實現音視頻同步的效果。此外,音頻會被處理為音頻chunk並處理轉換為梅爾頻譜矩陣,該矩陣常用於信號處理中的音頻頻譜特徵;視頻則是會逐幀抽取,轉化為多通道矩陣。通過訓練頻譜矩陣與圖像多通道矩陣的對應關係,學習chunk與視頻幀中口型的對應關係,不斷地反饋訓練以最佳化視頻與音頻的同步效果。總的來說,blink 視頻生成算法的原理是基於開源的模型Wav2Lip,使用生成對抗網路(GAN)的唇形動作遷移,實現生成的視頻人物口型與輸入語音同步。
套用場景
blink 視頻生成算法的套用場景主要包括視頻製作、語音合成、虛擬人物等。在視頻製作方面,該算法可以用於自動匹配和修改語音與口型,解決電影和電視劇的語音配音和口型同步問題。此外,它還可以將動態的視頻進行唇形轉換,輸出與目標語音匹配的視頻,從而改善視頻的質量。在語音合成方面,blink 視頻生成算法可以將音頻轉換為與目標音頻匹配的唇形視頻,也可以將文本轉換為與音頻匹配的唇形視頻。此外,該算法還可以套用於虛擬人物的生成。通過將虛擬人物的唇形與語音進行匹配,可以生成更加自然、逼真的虛擬人物形象。總之,blink 視頻生成算法是一種強大的工具,可以在多個領域中實現語音與唇形的自動匹配和轉換,為視頻製作、語音合成和虛擬人物生成等領域提供更加高效和準確的技術支持。
算法目的
blink 視頻生成算法的目的和意圖主要是為了實現音頻與靜態圖像中嘴部動作的同步,以及生成逼真的口播視頻。該算法基於深度學習技術,通過訓練兩個神經網路(語音識別網路和唇形生成網路)來學習語音和唇形之間的關係,從而實現在語音輸入時生成對應的唇形。blink 視頻生成算法不僅可以套用於視頻製作和語音合成領域,還可以用於虛擬人物的生成。通過將虛擬人物的唇形與語音進行匹配,可以生成更加自然、逼真的虛擬人物形象。此外,該算法還可以直接將動態的視頻進行唇形轉換,輸出與目標語音匹配的視頻,為視頻製作提供更加高效和準確的技術支持。