意間圖像生成算法-1

算法原理

意間圖像生成算法-1的功能是一種根據文本描述自動生成相應圖像的技術。該算法首先理解文本含義，然後將其轉化為視覺元素，最終生成與文本描述相匹配的圖像。這一過程涉及語義理解、圖像分割、風格遷移等多個環節，旨在將文本創意轉化為具體圖像，為設計師、藝術家和創意工作者提供強大的創作支持。算法的輸入源為描述文本，或稱關鍵字/提示詞；可選的輸入源是參考圖像，它可為算法提供圖像參考非必要輸入。算法的輸出為與輸入文本相匹配的圖像內容，格式通常為jpg圖片格式。意間圖像生成算法-1核心使用了擴散模型,擴散模型是一種生成模型，用於生成與訓練數據相似的數據。簡單的說，擴散模型的工作方式是通過疊代添加高斯噪聲來“破壞”訓練數據，然後學習如何消除噪聲來恢複數據。一個標準擴散模型有兩個主要過程：正向擴散和反向擴散。在正向擴散階段，通過逐漸引入噪聲來破壞圖像，直到圖像變成完全隨機的噪聲。在反向擴散階段，使用一系列馬爾可夫鏈逐步去除預測噪聲，從高斯噪聲中恢複數據.擴散模型最大的問題是它的時間成本和經濟成本都極其“昂貴”。意間圖像生成算法-1的出現就是為了解決上述問題。如果我們想要生成一張1024×1024尺寸的圖像，U-Net會使用1024×1024尺寸的噪聲，然後從中生成圖像。這裡做一步擴散的計算量就很大，更別說要循環疊代多次直到100%。LatentDiffusion模型給出了不一樣的方法。意間圖像生成算法-1模型不直接在操作圖像，而是在潛在空間中進行操作。通過將原始數據編碼到更小的空間中，讓U-Net可以在低維表示上添加和刪除噪聲。潛在空間簡單的說是對壓縮數據的表示。所謂壓縮指的是用比原始表示更小的數位來編碼信息的過程。比如我們用一個顏色通道（黑白灰）來表示原來由RGB三原色構成的圖片，此時每個像素點的顏色向量由3維變成了1維度。維度降低會丟失一部分信息，然而在某些情況下，降維不是件壞事。通過降維我們可以過濾掉一些不太重要的信息，只保留最重要的信息。意間圖像生成算法-1使用的潛在擴散模型,在生成細節豐富的高解析度圖像方面非常穩健，同時還保留了圖像的語義結構,是深度學習領域的一項重大進步。算法接收文本或者文本加圖像的方式,計算出文本和圖像的隱藏向量,然後使用潛在擴散模型,得到符合輸入文本或者圖像的生成圖像內容。

運行機制

算法由多個模組構成:1.條件處理我們希望通過一定的條件去控制圖像的生成,而不是隨機生成圖片.常用的控制條件有文本,圖像等等.文本條件:分詞器首先將提示中的每個詞轉換為token。然後將每個token轉換為稱為embedding的768值向量。Embedding由文本轉換器處理，並準備好供噪聲預測器使用。圖像條件:分自編碼器神經網路由兩部分組成：編碼器和解碼器。編碼器將圖像壓縮為潛在空間中的低維表示。解碼器從潛在空間恢復圖像。通過變分自編碼器將圖片轉換為embedding向量.2.文本到圖像文本到圖像中，輸入提示詞,得到生成的圖像.第1步。在潛空間中生成隨機張量,通過設定隨機數生成器的種子來控制此張量。第2步。噪聲預測器U-Net將潛在噪聲圖像和文本提示作為輸入，並預測噪聲，也在潛在空間（4x64x64張量）中。第3步,從潛在圖像中減去潛在噪聲,成為新潛在圖像。第4步,最後，VAE的解碼器將潛在圖像轉換回像素空間。3.圖像到圖像第1步,輸入圖像被編碼為潛在空間。第2步,噪點被添加到潛在圖像中。降噪強度控制添加的噪聲量。如果為0，則不添加噪聲。如果為1，則添加最大噪聲量，以便潛在圖像成為完整的隨機張量。第3步,噪聲預測器U-Net將潛在噪聲圖像和文本提示作為輸入，並預測潛在空間（4x64x64張量）中的噪聲。第4步,從潛在圖像中減去潛在噪聲。第5步,最後，VAE的解碼器將潛在圖像轉換回像素空間。這是運行映像到映像後獲得的圖像。4.圖像修復第1步,輸入圖像被編碼為潛在狀態。第2步,MiDaS估計輸入圖像的深度圖。第3步,噪點被添加到潛在圖像中。降噪強度控制添加的噪聲量。如果降噪強度為0，則不添加噪聲。如果去噪強度為1，則添加最大噪聲，使潛在圖像成為隨機張量。第4步,噪聲預測器估計潛在空間的噪聲，由文本提示和深度圖調節。第5步,從潛在圖像中減去潛在噪聲,成為新的潛在圖像。第6步,VAE的解碼器對潛在圖像進行解碼。5.圖像增強和審核對於生成的圖像,我們需要對面部以及清晰度進行修復和調整,然後,需要經過圖片審核模型,通過對於風控政策的理解,把策略融入到圖片審核模型中。經過審核後的圖片,就會放入到我們的圖片存儲中。

意間圖像生成算法-1

基本介紹

算法原理

運行機制

套用場景

算法目的

相關詞條

熱門詞條