騰訊音樂未伴虛擬人合成算法

算法簡介

騰訊音樂未伴虛擬人合成算法依託於未伴(APP)，主要套用於虛擬人生成場景，用戶可通過提供人臉圖、風格圖、示例音頻和自定義的人設描述文本來創建虛擬人，根據用戶輸入的文本信息，虛擬人生成文本、圖像、音頻等內容。

2024年6月，國家網際網路信息辦公室發布第六批境內深度合成服務算法備案清單，其中包括“騰訊音樂未伴虛擬人合成算法”。

算法原理

該虛擬人算法主要套用在虛擬人創建和互動上，在虛擬人創建時，用戶可通過提供人臉圖（可選）、風格圖（可選）、示例音頻（可選）和自定義的人設描述（文本，可選）來創建虛擬人，本算法將參考用戶所提供之上述信息（如有）生成虛擬人，如用戶未提供相關信息，則將從預置虛擬人中選取返回，此時，算法返回的結果是一個包含形象、聲音和對話風格的虛擬人實體。

運行機制

該算法通過對用戶意圖理解與控制，經過自研繪圖大模型、聊天大模型和語音合成大模型綜合利用，預處理後生成相關語音、圖片和文字並再經過檢測後通過虛擬人技術結合形成綜合的用戶反饋方案與用戶互動。在虛擬人互動時，用戶可通過輸入繪圖命令（文本）、對話內容（文本）要求虛擬人做相應回復，虛擬人也可在適當之時機主動傳送內容給用戶。在發生圖片類互動時，虛擬人將根據用戶命令或適當上下文信息生成圖片傳送，在文本互動時，虛擬人將根據用戶傳送的內容做聊天式回復，此時若虛擬人定義了聲音，還將同步生成語音內容（TTS）。

套用場景

未伴APP

算法目的

該算法為用戶提供先進的虛擬社交體驗，通過創新的多種模型覆蓋虛擬人生成的技術，以實時的互動能力和多樣的互動方式豐富民眾精神娛樂生活，提高音樂鑑賞能力和豐富精神世界，營造積極向上的精神追求和高尚的情操素養。

騰訊音樂未伴虛擬人合成算法

基本介紹

算法簡介

算法原理

運行機制

套用場景

算法目的

相關詞條

熱門詞條