PLATO-XL

PLATO-XL

PLATO-XL是百度於2021年9月發布的全球首個百億參數對話預訓練生成模型。一舉超過 Facebook Blender、谷歌 Meena 和微軟 DialoGPT,成為全球首個百億參數中英文對話預訓練生成模型,再次刷新了開放域對話效果,打開了對話模型的想像空間。

PLATO-XL,參數達到了 110 億,超過之前最大的對話模型 Blender(最高 94 億參數),是當前最大規模的中英文對話生成模型,並再次刷新了開放域對話效果。

基本介紹

  • 軟體名稱:PLATO-XL
  • 上線時間:2021年9月
  • 開發商:百度
產生背景,主要功能,

產生背景

儘管大規模參數的模型在自然語言處理領域如雨後春筍出現,並且在多個自然語言理解和生成任務上取得了很多成果,但多輪開放域對話的主動性和常識性問題一直無法很好解決。

主要功能

PLATO-XL 網路架構上承襲了 PLATO unified transformer 結構,可同時進行對話理解和回復生成的聯合建模,參數性價比很高。通過靈活的注意力機制,模型對上文進行了雙向編碼,充分利用和理解上文信息;對回復進行了單向解碼,適應回復生成的 auto-regressive 特性。此外,unified transformer 結構在對話上訓練效率很高,這是由於對話樣本長短不一,訓練過程中 padding 補齊會帶來大量的無效計算,unified transformer 可以對輸入樣本進行有效的排序,大幅提升訓練效率。
為了進一步改善對話模型有時候自相矛盾的問題,PLATO-XL 引入了多角色感知的輸入表示,以提升多輪對話上的一致性。對話模型所用的預訓練語料大多是社交媒體對話,通常有多個用戶參與,表述和交流一些觀點和內容。在訓練時,模型較難區分對話上文中不同角度的觀點和信息,容易產生一些自相矛盾的回覆。針對社交媒體對話多方參與的特點,PLATO-XL 進行了多角色感知的預訓練,對多輪對話中的各個角色進行清晰區分,輔助模型生成更加連貫、一致的回覆。
PLATO-XL 包括中英文 2 個對話模型,預訓練語料規模達到千億級 token,模型規模高達 110 億參數。PLATO-XL 也是完全基於百度自主研發的飛槳深度學習平台,利用了飛槳 FleetX 庫的並行能力,使用了包括 recompute、sharded data parallelism 等策略,基於高性能 GPU 集群進行了訓練。
為了全面評估模型能力,PLATO-XL 與當前開源的中英文對話模型進行了對比,評估中採用了兩個模型針對開放域進行相互對話(self-chat)的形式,然後再通過人工來評估效果。PLATO-XL 與臉書 Blender、微軟 DialoGPT、清華 EVA 模型相比,取得了更優異的效果,也進一步超越了之前 PLATO-2 取得的最好成績。此外,PLATO-XL 也顯著超越了主流的商用聊天機器人。
除了開放域閒聊對話,模型也很好地支持知識型對話和任務型對話,在多種對話任務上效果全面領先。
百度PLATO-XL在中英文多輪對話上,邏輯性、內容豐富度和趣味性上都表現出明顯的領先性,已經在百度小度智慧型產品系列、虛擬人智慧型客服、醫療輔助診斷系統等多個場景產品中套用。

相關詞條

熱門詞條

聯絡我們