光語文生圖合成算法

光語文生圖合成算法是上海光啟慧語技術有限公司旗下的深度合成服務算法。該算法套用於圖像生成場景,根據用戶輸入的文本,生成符合用戶需求的圖像內容。

2024年6月,國家網際網路信息辦公室發布第六批境內深度合成服務算法備案清單,光語文生圖合成算法在列。

基本介紹

  • 中文名:光語文生圖合成算法
  • 備案號:310115469411201240029號
  • 角 色:服務提供者
  • 套用產品:曉象(小程式)、曉象(APP)
算法原理,運行機制,套用場景,算法目的,

算法原理

算法根據用戶輸入的文本描述,生成相應的圖像結果。算法的核心基礎是基於深度學習的擴散模型,該模型首先在經過了脫敏和非法內容過濾等預處理過程的大量文本-圖像對的數據上進行訓練,學習文本和對應圖像之間的複雜關係,使得模型能夠利用文本編碼器、變分自編碼器(VAE)和U-Net 的作用,理解和內化如何根據輸入的文本描述生成視覺上相匹配的圖像。

運行機制

算法線上提供服務時,根據用戶輸入的文本描述,先進行內容安全審核,審核通過後,由擴散模型的文本編碼器先將用戶輸入的文本描述轉換為語義向量。然後,VAE 編碼器結合這些向量,從訓練好的圖像潛在空間中採樣以得到一個初始化的圖像潛在向量,並經過擴散過程後,將加噪後的潛在向量輸入到 U-Net 中。U-Net 根據文本的語義向量最佳化和調整潛在向量,開始反向擴散過程,疊代去除噪聲,得到最佳化後的潛在向量,最後由VAE解碼器轉換成像素級的圖像,再通過內容安全審核處理後,將生成的圖像返回給用戶。

套用場景

套用於“曉象”(小程式+APP),使用於文生圖場景,根據用戶輸入的文本描述,套用擴散模型生成相應的圖像。

算法目的

滿足用戶將創意文本轉化為視覺圖像的需求,激發創作靈感,提升創意表達能力,進而輔助用戶在藝術創作過程中展現更多可能性。

相關詞條

熱門詞條

聯絡我們