光語語音合成算法

光語語音合成算法是上海光啟慧語技術有限公司旗下的深度合成服務算法。該算法套用於語音生成場景,根據用戶輸入的音頻和文本,生成相應的語音結果。套用產品為曉象(小程式)、曉象(APP)。

2024年6月,光語語音合成算法通過備案。

基本介紹

  • 軟體名稱:光語語音合成算法
  • 開發商:上海光啟慧語技術有限公司
  • 角色:服務提供者
  • 備案編號:網信算備310115469411201240037號
算法原理,運行機制,套用場景,算法目的,

算法原理

算法根據輸入的音頻和文本,合成相應的語音結果。算法的核心基礎是基於深度學習的模型,該模型首先在經過了脫敏和非法內容過濾等預處理過程的大量文本-語音對的數據上進行訓練,學習文本與語音之間的聲學特徵對應關係,通過聲學模型和聲碼器的協同作用,合成與所選角色音頻音色以及輸入文本語義一致的語音結果。

運行機制

算法線上提供服務時,根據輸入的音頻和文本先進行內容安全審核,審核通過後,由模型的語音編碼器將輸入音頻轉換為聲音特徵向量,而文本編碼器將輸入文本轉換為音素的語義向量。然後,聲學模型結合這些向量,生成聲音的頻譜特徵。最後由聲碼器轉換成音頻結果,再通過內容安全審核處理後,將生成的音頻結果返回給用戶。

套用場景

套用於“曉象”(小程式+APP),使用於語音合成場景,根據輸入的音頻和文本,套用模型生成相應的音頻結果。

算法目的

提供一種智慧型化的語音輸出工具,使得文本內容能夠通過具有特定音色和情感表達的語音被呈現,從而增強用戶體驗。

相關詞條

熱門詞條

聯絡我們