百度自研持續學習語義理解框架艾尼(ERNIE),充分利用百度數據和飛槳 (PaddlePaddle)多機多卡高效訓練優勢,通過深度神經網路與多任務學習等技術,持續學習數據和知識,助力各NLP任務顯著提升。
百度艾尼(ERNIE) 2.0 中,新構建的預訓練任務類型可以無縫的加入訓練框架,持續的進行語義理解學習。 通過新增的實體預測、句子因果關係判斷、文章句子結構重建等語義任務,艾尼(ERNIE)2.0 語義理解預訓練模型從訓練數據中獲取了詞法、句法、語義等多個維度的自然語言信息,增強了通用語義表示能力。
基本介紹
- 中文名:百度艾尼
- 外文名:ERNIE
- 產品定位:基於持續學習的語義理解框架
- 隸屬於:百度
- 最新版本:ERNIE 2.0
- 類別:文本-語義模型
發展歷程,產品優勢,任務效果全面領先,少量樣本快捷訓練,多種方案高效預測,中文場景技術服務,技術實現,模型效果,套用案例,案例1,案例2,案例3,
發展歷程
1、2019-07-30 發布艾尼(ERNIE)2.0:百度艾尼(ERNIE) 2.0是基於持續學習的語義理解框架,使用多任務學習增量式構建預訓練任務。
針對艾尼(ERNIE )2.0 模型,構建了多個預訓練任務,試圖從 3 個層面去更好的理解訓練語料中蘊含的信息:
- Word-aware Tasks: 辭彙 (lexical) 級別信息的學習
- Structure-aware Tasks: 語法 (syntactic) 級別信息的學習
- Semantic-aware Tasks: 語義 (semantic) 級別信息的學習
同時,針對不同的 pre-training 任務,艾尼(ERNIE) 2.0 引入了 Task Embedding 來精細化地建模不同類型的任務。不同的任務用從 0 到 N 的 ID 表示,每個 ID 代表了不同的預訓練任務。
2、2019-04-10 更新: update ERNIE_stable-1.0.1.tar.gz, 將模型參數、配置 ernie_config.json、vocab.txt 打包發布。
3、2019-03-18 更新: update ERNIE_stable.tgz。
4、2019-03-15 發布 ERNIE 1.0。
產品優勢
任務效果全面領先
業內效果最好的語義理解預訓練模型,全面刷新多箇中英文NLP基礎任務、套用任務的效果。
少量樣本快捷訓練
少量訓練數據即可達到良好效果,訓練便捷,效果提升迅速。
多種方案高效預測
支持多倍效果無損壓縮,並有多種性能最佳化方案以滿足套用需求。
中文場景技術服務
完善的中文套用場景技術服務支持,產業NLP套用實踐持續錘鍊。
技術實現
1、mask word & entity,強迫模型通過全局信息去預測 mask 掉的內容,學習序列里 mask 信息里蘊含的知識。
2、更多 sentence-level task,新增Dialogue-LM task,基於論壇式多輪對話句對輸入。
3、百度自有產品數據 (8 billion),包括中文百科、百度貼吧、新聞資訊等。
模型效果
7月底百度對外發布艾尼ERNIE 2.0預訓練模型,該模型累計學習10億多知識,全面刷新16箇中英文NLP任務效果。
套用案例
案例1
艾尼ERNIE在度小滿金融風控場景的套用
場景介紹:網際網路金融快速發展,每天在平台上會發生數以萬計的借貸、還款等行為。傳統人工處理不僅對從業審 核人員要求非常高,效率、審核標準的統一性都無法保證。傳統的風控建模技術是基於小樣本的監督學習,依賴於特徵挖掘,需要耗費大量人力且依賴個人經驗;傳統技術對於小樣本的文本類數據處理往往缺乏上下文的理解,未能提取其重點,導致對用戶的理解出現偏差。
套用價值:利用艾尼(ERNIE)對用戶行為信息進行語義層面深度建模,結合用戶風控少量訓練數據進行精細Fine-tune,在較短的時間內即可完成用戶風控模型的收斂並且具備更好的泛化能力。準確率提升1.5%。
案例2
艾尼ERNIE在百度搜尋問答的套用
場景介紹:搜尋智慧型問答是搜尋引擎智慧型化產品之一,旨在為用戶提供精準答案;用戶問題和答案段落的匹配度計算是搜尋智慧型問答的關鍵環節。
套用價值:準確捕捉問題與答案的語義關係;採用艾尼(ERNIE)萃取方案,減小模型規模,滿足搜尋性能要求;召回率提升7%。
案例3
艾尼ERNIE在百度好看視頻推薦的套用
場景介紹:基於用戶觀看視頻推薦關聯視頻是百度好看的重要功能;視頻標題語義檢索效果對推薦質量具有很大影響。
套用價值:採用艾尼(ERNIE)語義向量檢索,推薦的視頻語義關聯度高,語義泛化性好;召回率提升8%。