喜馬拉雅語音大模型算法

算法原理

喜馬拉雅語音大模型算法是一種基於 Transformer 架構的多層模型，使用自有著作權的大規模高質量的文本和語音數據進行訓練，從而具備對任意文本的音頻生成能力和對輸入提示音頻的音色韻律復刻能力。算法同時會對輸入的文本和提示音頻進行安全過濾，最終得到安全、準確、高品質的生成音頻內容。

運行機制

喜馬拉雅語音大模型算法，使用特定的授權錄音作為提示音頻，將輸入的文本內容轉換成目標說話人的輸出語音。喜馬拉雅語音大模型主要由 3 部分組成：文本 Token 編碼器、音頻生成大模型、音頻 Token 解碼器。1. 文本 Token 編碼器：由兩個字典組成，一個是漢字到拼音的字典，另一個是拼音到整數序號的字典，將輸入的待合成文本轉換為文本 Token。輸入數據為待合成文本，例如“今天天氣很好。”，輸出為離散的整數 token, 例如: [10, 25, …, 61]，輸出格式為整型數組，輸出大小為 1024 個整數以內。2. 音頻生成大語言模型：採用基於 Transformer 結構的機器學習模型，將目標音色音頻片斷編碼為離音頻 Token；同時接收第一步文本 Token 和目標音色音頻片斷，生成待合成文本對應的音頻 Token。第一個輸入數據為文本 Token 編碼器輸出的整數token,例如: [10, 25, …, 61]；第二個輸入數據為目標音色音頻片斷，可以是各類音頻格式如“wav”、“mp3”、 “m4a”等，規整為1024 維度浮點數向量, 例如: [0.12, 0.17, …, 0.45]。輸出數據為待合成文本對應的音頻 Token，例如[132, 190, …, 275]，輸出格式為整型數組，輸出大小為 4096 個整數以內。3. 音頻 Token 解碼器：採用基於 GAN+VAE 的機器學習模型，將第 2 步的音頻 Token 轉換為合成音頻。輸入數據為第二步音頻生成大語言模型輸出的音頻 Token，例如[132, 190, …, 275]。輸出數據為合成語音二進制數據，可以保存為音頻檔案例如“output.wav”。

套用場景

用於喜馬拉雅 APP 電子書頻道的內容生產

算法目的

提升音頻生產效率。將語音大模型生成技術套用於有聲書、新聞等有聲化場景，滿足用戶實時聽書、聽新聞的需求。

喜馬拉雅語音大模型算法

基本介紹

算法原理

運行機制

套用場景

算法目的

熱門詞條