達摩院人物姿態編輯合成算法

算法原理

該算法是一種用於人物姿態編輯的 AI 生成技術。其基於生成擴散模型技術，人體骨架關鍵點檢測技術，圖像特徵提取，通過對海量成對的人物圖-人物圖數據進行預訓練，能夠自適應的定位人體區域和學習圖像的服飾圖像屬性特徵和 ID 特徵，實現對任意人物圖進行端到端姿態編輯，而無需額外單獨訓練，被廣泛套用在電商廣告圖生成，人物動圖展示等場景。

運行機制

1. 用戶給定二張圖片（骨架圖和人物圖）作為自己輸入；2. 輸入數據經過安全過濾判斷是否通過安全篩選，若不通過則不進行數據生成，直接返回兜底安全結果；3. 骨架圖和人物圖會均處理成 768x576 的尺寸，作為模型的輸入；4. 模型由一個骨架提取子模型，一個人物姿態編輯模型組成。骨架提取子模型用於提取人物的骨架信息，用以計算人物本身的身體比例；姿態編輯模型根據骨架圖，人物圖生成人物姿態編輯後的結果圖；5. 輸出數據經過安全過濾判斷是否通過安全篩選，通過則返回結果；6. 將生成的圖片輸出，並根據需要進行後處理，生成的圖像可能需要進行一些修剪、縮放或調整解析度、等操作，以得到該輪互動最終的輸出結果；7. 繼續進行下一輪互動，回到第 1 步；

套用場景

電商服飾類目廣告圖生成、人物動圖製作等場景。

算法目的

在獲得用戶授權的前提下，人物姿態編輯算法可以精準地提取輸入人物圖的人物身份信息及服飾信息，根據用戶輸入的骨架圖，將人物圖按照骨架圖的姿態進行編輯，最終輸出指定姿態的人物圖。

達摩院人物姿態編輯合成算法

基本介紹

算法原理

運行機制

套用場景

算法目的

相關詞條

熱門詞條