“搜狗分身”技術是搜狗人工智慧的核心技術之一,誕生於搜狗“自然互動+知識計算”這一人工智慧理念之下。
技術簡介,技術原理,技術過程,套用領域,
技術簡介
“搜狗分身”技術是搜狗人工智慧的核心技術之一,誕生於搜狗“自然互動+知識計算”這一人工智慧理念之下。該技術能夠利用搜狗的AI能力,從圖像表情,聲音語言習慣,邏輯思維等層面對AI進行擬人化訓練,然後克隆製造人類的AI分身,進而幫助人類提高信息表達和傳遞的效率。
該技術包含語音合成和圖像生成兩大引擎,能通過人臉關鍵點檢測、人臉特徵提取、人臉重構、唇語識別、情感遷移等多項技術,並結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。
技術原理
搜狗分身技術包含語音合成和圖像生成兩大引擎,在語音合成引擎中,基於用戶少量音頻數據,使用搜狗個性化語音合成技術,學習用戶音色、韻律、情感等多維度特徵,建立輸入文本與輸出音頻信息的關聯;在圖像生成引擎中,使用搜狗人臉識別、三維人臉重建、表情建模等技術對人臉表情動作進行特徵學習和建模,建立輸入文本、輸出音頻與輸出視覺信息的關聯映射,最終生成輸出分身視頻。搜狗分身能夠模擬人類說話的聲音、嘴唇動作和表情,並將三者自然匹配,機器以自然的形象呈現在用戶面前。
技術過程
第一步:人物本人面對鏡頭錄製一小段音視頻數據;
第二步:搜狗“分身”提取人物的個人特徵(如聲音、唇形、表情動作等);
第三步:利用(語音合成+唇形合成+表情合成)*深度學習技術合成“AI分身”。
套用領域
媒體:AI合成主播;
醫療:電話隨訪;
教育:AI合成教師,輔導教學;
法律:AI合成法律顧問,法律諮詢;
家庭:陪護孩子、親人。
搜狗分身技術的套用場景廣泛,可以涵蓋需要人類參與的眾多內容表達場景,例如新聞播報、虛擬教師、虛擬醫生、虛擬客服等。