科大訊飛虛擬人合成算法

算法簡介

“科大訊飛虛擬人合成算法”套用於虛擬人合成場景，服務於企業端客戶，根據用戶輸入的文本、音頻信息，通過3D人臉參數提取、語音聲學特徵提取、語音驅動口唇動作生成、人臉視頻合成等技術，生成數字虛擬人視頻。

2023年8月，國家網際網路信息辦公室發布第二批境內深度合成服務算法備案清單，“科大訊飛虛擬人合成算法”在列。

算法原理

虛擬人合成算法是一種利用計算機技術生成逼真人物形象的算法，使用深度學習等技術基於拍攝的視頻對數字人生成模型進行最佳化和訓練，最終可以根據輸入文本/語音生成逼真的虛擬人物形象。算法包括以下步驟：

1. 數據採集：收集虛擬人原型的同步音視頻數據，並將其進行標註和分類。

2. 特徵提取：從採集到的數據中提取出有用的音視頻特徵，如面部輪廓、眼睛、嘴巴、鼻子等部位的位置、形狀、大小，以及語音的聲學特徵等信息。

3. 模型訓練：利用深度學習算法，對提取出的音視頻特徵進行訓練，建立語音和視頻之間的關聯性。

4. 渲染輸出：根據用戶輸入的文本/語音內容，將其輸入至學習過的深度學習算法模型，從而生成逼真的虛擬人物圖像或視頻。

運行機制

虛擬人合成算法的運行機制如下：

1. 數據輸入：用戶通過各種方式輸入需要合成虛擬人視頻的文本/音頻，如果輸入的為文本，則通過語音合成系統先將文本合成為語音。

2. 聲學特徵提取：使用聲學特徵提取器提取語音的聲學特徵。

3. 虛擬人生成：根據訓練好的模型，輸入提取的聲學特徵，生成相應的虛擬人圖像或視頻，將生成的虛擬人圖像實時渲染到螢幕上，或者通過音視頻推流技術推流至終端解碼展示，與用戶進行互動。

套用場景

1. 新聞播報：虛擬人合成算法可用於生成生動的新聞主持人形象，可以作為新聞主播的替代品，為觀眾提供更加生動、有趣的新聞報導，讓觀眾參與到新聞報導中來，提高觀眾的參與度和互動性。

2. 金融客服：虛擬人合成算法可用於生成金融客服的虛擬形象替代傳統的人工客服，更高效地處理大量重複性問題，提高客戶滿意度和服務質量。並且可以根據客戶的喜好和需求為其推薦合適的金融產品和服務，提高客戶黏性和轉化率，有助於金融機構實現精準行銷。

3. 數字員工：虛擬人合成算法可以生成員工的數字形象，自動應答電話、線上聊天和處理電子郵件，提供24/7的客戶支持，理解用戶的問題並提供相應的解決方案。

4. 網路直播：虛擬人合成算法可以用於創建逼真的角色形象，提高觀眾的沉浸感。在網路直播場景中，主播可以通過虛擬人合成算法生成自己的角色形象，並與其他玩家進行互動，增加直播效果。

算法目的

虛擬人合成算法的目的意圖是生成逼真的虛擬人物形象，以滿足各種套用場景的需求。這些套用場景包括新聞播報、金融客服、數字員工、網路直播等。通過虛擬人合成算法，可以生成具有高度真實感和表現力的虛擬人物形象，提高用戶體驗和互動性。同時，虛擬人合成算法也可以用於生成數字員工、虛擬主播等職業形象，為相關行業提供更加便捷和高效的解決方案。

科大訊飛虛擬人合成算法

基本介紹

算法簡介

算法原理

運行機制

套用場景

算法目的

相關詞條

熱門詞條