意間圖像生成算法-1

意間圖像生成算法-1是上海亘聰信息科技有限公司旗下的深度合成服務算法。該算法依託於意間ai(小程式)、意間ai(APP)、意間ai(網站),套用於圖像生成場景,根據用戶輸入的文本、圖像數據,生成符合用戶需求的圖像,實現文生圖、圖生圖等功能。

2024年2月,國家網際網路信息辦公室發布第四批境內深度合成服務算法備案清單,意間圖像生成算法-1在列。

基本介紹

  • 中文名:意間圖像生成算法-1
  • 角色:服務提供者
  • 開發主體:上海亘聰信息科技有限公司
  • 備案號:310105575634601240029
算法原理,運行機制,套用場景,算法目的,

算法原理

意間圖像生成算法-1的功能是一種根據文本描述自動生成相應圖像的技術。該算法首先理解文本含義,然後將其轉化為視覺元素,最終生成與文本描述相匹配的圖像。這一過程涉及語義理解、圖像分割、風格遷移等多個環節,旨在將文本創意轉化為具體圖像,為設計師、藝術家和創意工作者提供強大的創作支持。算法的輸入源為描述文本,或稱關鍵字/提示詞;可選的輸入源是參考圖像,它可為算法提供圖像參考非必要輸入。算法的輸出為與輸入文本相匹配的圖像內容,格式通常為jpg圖片格式。意間圖像生成算法-1核心使用了擴散模型,擴散模型是一種生成模型,用於生成與訓練數據相似的數據。簡單的說,擴散模型的工作方式是通過疊代添加高斯噪聲來“破壞”訓練數據,然後學習如何消除噪聲來恢複數據。一個標準擴散模型有兩個主要過程:正向擴散和反向擴散。在正向擴散階段,通過逐漸引入噪聲來破壞圖像,直到圖像變成完全隨機的噪聲。在反向擴散階段,使用一系列馬爾可夫鏈逐步去除預測噪聲,從高斯噪聲中恢複數據.擴散模型最大的問題是它的時間成本和經濟成本都極其“昂貴”。意間圖像生成算法-1的出現就是為了解決上述問題。如果我們想要生成一張1024×1024尺寸的圖像,U-Net會使用1024×1024尺寸的噪聲,然後從中生成圖像。這裡做一步擴散的計算量就很大,更別說要循環疊代多次直到100%。LatentDiffusion模型給出了不一樣的方法。意間圖像生成算法-1模型不直接在操作圖像,而是在潛在空間中進行操作。通過將原始數據編碼到更小的空間中,讓U-Net可以在低維表示上添加和刪除噪聲。潛在空間簡單的說是對壓縮數據的表示。所謂壓縮指的是用比原始表示更小的數位來編碼信息的過程。比如我們用一個顏色通道(黑白灰)來表示原來由RGB三原色構成的圖片,此時每個像素點的顏色向量由3維變成了1維度。維度降低會丟失一部分信息,然而在某些情況下,降維不是件壞事。通過降維我們可以過濾掉一些不太重要的信息,只保留最重要的信息。意間圖像生成算法-1使用的潛在擴散模型,在生成細節豐富的高解析度圖像方面非常穩健,同時還保留了圖像的語義結構,是深度學習領域的一項重大進步。算法接收文本或者文本加圖像的方式,計算出文本和圖像的隱藏向量,然後使用潛在擴散模型,得到符合輸入文本或者圖像的生成圖像內容。

運行機制

算法由多個模組構成:1.條件處理我們希望通過一定的條件去控制圖像的生成,而不是隨機生成圖片.常用的控制條件有文本,圖像等等.文本條件:分詞器首先將提示中的每個詞轉換為token。然後將每個token轉換為稱為embedding的768值向量。Embedding由文本轉換器處理,並準備好供噪聲預測器使用。圖像條件:分自編碼器神經網路由兩部分組成:編碼器和解碼器。編碼器將圖像壓縮為潛在空間中的低維表示。解碼器從潛在空間恢復圖像。通過變分自編碼器將圖片轉換為embedding向量.2.文本到圖像文本到圖像中,輸入提示詞,得到生成的圖像.第1步。在潛空間中生成隨機張量,通過設定隨機數生成器的種子來控制此張量。第2步。噪聲預測器U-Net將潛在噪聲圖像和文本提示作為輸入,並預測噪聲,也在潛在空間(4x64x64張量)中。第3步,從潛在圖像中減去潛在噪聲,成為新潛在圖像。第4步,最後,VAE的解碼器將潛在圖像轉換回像素空間。3.圖像到圖像第1步,輸入圖像被編碼為潛在空間。第2步,噪點被添加到潛在圖像中。降噪強度控制添加的噪聲量。如果為0,則不添加噪聲。如果為1,則添加最大噪聲量,以便潛在圖像成為完整的隨機張量。第3步,噪聲預測器U-Net將潛在噪聲圖像和文本提示作為輸入,並預測潛在空間(4x64x64張量)中的噪聲。第4步,從潛在圖像中減去潛在噪聲。第5步,最後,VAE的解碼器將潛在圖像轉換回像素空間。這是運行映像到映像後獲得的圖像。4.圖像修復第1步,輸入圖像被編碼為潛在狀態。第2步,MiDaS估計輸入圖像的深度圖。第3步,噪點被添加到潛在圖像中。降噪強度控制添加的噪聲量。如果降噪強度為0,則不添加噪聲。如果去噪強度為1,則添加最大噪聲,使潛在圖像成為隨機張量。第4步,噪聲預測器估計潛在空間的噪聲,由文本提示和深度圖調節。第5步,從潛在圖像中減去潛在噪聲,成為新的潛在圖像。第6步,VAE的解碼器對潛在圖像進行解碼。5.圖像增強和審核對於生成的圖像,我們需要對面部以及清晰度進行修復和調整,然後,需要經過圖片審核模型,通過對於風控政策的理解,把策略融入到圖片審核模型中。經過審核後的圖片,就會放入到我們的圖片存儲中。

套用場景

1.文生圖2.圖生圖3.AI頭像4.AI寫真5.混合模型6.藝術字7.光影字8.壁紙生成9.電商產品圖片生成10.海報設計11.遊戲素材設計12.藝術二維碼設計13.電影宣傳活動14.美術教育15.風景名勝擴展16.動漫設計17.ip形象設計18.個性化服裝設計

算法目的

算法的意圖就是通過擴散模型,打造圖片類的企業級套用.目前無論是網際網路還是線下的門店,都需要大量圖片素材用在產品生產和廣告展示中.這些傳統都是通過美工去設計,這樣會導致大量重複性勞動和比較低下的效率.我們希望通過擴散模型,將人類的繪畫藝術等設計流程,嵌入到AI的知識庫和模型中,從而讓AI可以輔助人類完成複雜的設計工作.這樣我們就可以極大的最佳化設計人員和提高生產效率,提高企業的利潤和降低企業的成本.同時,我們鑽研最新的圖像生成技術,還可以提供最優質的圖片處理工具,提升圖片處理的質量,讓原來沒有辦法處理的問題變得可以輕鬆處理,使得圖片內容的質量和效率大幅度提升。

相關詞條

熱門詞條

聯絡我們