喜馬拉雅語音合成算法

喜馬拉雅語音合成算法是上海喜馬拉雅科技有限公司旗下的深度合成服務算法。該算法套用於語音生成場景,根據用戶輸入的文本,生成對應的語音。

2024年6月,國家網際網路信息辦公室發布第六批境內深度合成服務算法備案清單,喜馬拉雅語音合成算法在列。

基本介紹

  • 中文名:喜馬拉雅語音合成算法
  • 備案號:310112238181601240025號
  • 角 色:服務提供者
  • 套用產品:喜馬拉雅(APP)
算法原理,運行機制,套用場景,算法目的,

算法原理

語音合成技術涉及了語言學知識以及深度學習算法。通過查字典的方式得到文本的讀音,之後通過基於深度學習的方法,將讀音信息轉換成語音信息。生成音頻後,會對靜音等部分做人工的物理剪輯。暫無其他額外的信號處理。

運行機制

語音合成技術(TTS,Text-to-Speech),可以將文本內容轉換成語音。首先“從文本生成拼音序列”模組,將輸入的文本,轉換成拼音序列,例如待合成”今天天氣很好”轉換為”jin1tian1tian1qi4hen2hao3”。接著”拼音序列生成頻譜信息”模組,將拼音序列轉換成頻譜信息。最後“頻譜信息生成語音信號”模組將頻譜信息轉換成語音信號。通過如上三個系統,共同完成語音合成的任務。下面分別就“發音字典”、“聲學模型”、“聲碼器”三方面進行說明:1.發音字典,漢字到拼音的映射規則。發音字典是完全的規則處理。字典示例:{“今”: “jin1”,“天”: “tian1”,…}該字典由人工整理和標註完成,字典包含了 GB18030 中的 27533箇中文漢字元號,及其對應的拼音。在實際語音合成時,待合成的文本會逐字查字典,得到拼音序列。2. 聲學模型,Encoder-Decoder 結構,通過聽力測試來評價效果。喜馬拉雅語音合成系統中的聲學模型結構採用 DurIAN 結構, 使用目標音色的 10 小時語音數據進行訓練。聲學模型的訓練分為特徵提取和訓練兩個步驟。特徵提取會使用librosa 從音頻中提出頻譜特徵,從拼音標註中提取出拼音序列。模型訓練會將拼音序列輸入 DurIAN 的 Encoder, 並在 DurIAN的 decoder 輸出預測的頻譜特徵。預測的頻譜與真實的頻譜特徵計畫 MSE loss, 直到 Loss 收斂,完成訓練。聲學模型的推理過程為:輸入發音字典模組輸出的拼音序列,經已經訓練好的 DurIAN 模型,推理得到頻譜特徵。頻譜特徵會由後文將提到的聲碼器轉為音頻信號,即合成的語音。3. 聲碼器模型,GAN 結構,通過聽力測試來評價效果。喜馬拉雅語音合成系統使用 HiFiGAN,使用目標音色的 10 小時語音數據進行訓練。聲碼器的訓練分為特徵提取和訓練兩個步驟。特徵提取會使用librosa 從音頻中提出頻譜特徵。模型訓練將頻譜特徵輸入HiFiGAN 的生成器,預測生成音頻信號。訓練 Loss 參考HiFiGAN 的 loss, 採用開源實現,聲碼器的推理會使用已經訓練好的 HiFiGAN,輸入為聲學模型預測的頻譜特徵,輸出為模型預測的音頻信號。

套用場景

用於喜馬拉雅 APP 電子書頻道的內容生產

算法目的

提升音頻生產效率。將語音合成技術套用於有聲書、新聞等有聲化場景,滿足用戶實時聽書、聽新聞的需求。

相關詞條

熱門詞條

聯絡我們