文心大模型:文心全景,自然語言處理,視覺,跨模態,生物計算,行業大模型,核心優勢,

文心是百度自主研發的產業級知識增強大模型，以創新性的知識增強技術為核心，從單模態大模型到跨模態、從通用基礎大模型到跨領域、跨行業持續創新突破，構建了模型層、工具與平台層，大幅降低人工智慧開發和套用門檻，加快人工智慧大規模產業化進程並拓展人工智慧技術邊界。

2019年3月，文心大模型發布1.0版本。歷經4年技術深耕和研發疊代，2023年10月文心大模型升級至4.0版本。基於飛槳框架軟硬協同最佳化訓練的文心大模型4.0，在理解、生成、邏輯、記憶四大能力上都有全面提升。文心大模型涵蓋基礎大模型、任務大模型、行業大模型三級體系，具備知識增強和產業級兩大特色。工具平台層包括數據標註與處理、大模型精調、壓縮、高性能部署、場景化工具等大模型套件。文心大模型已廣泛套用於搜尋、信息流、智慧型音箱等網際網路產品，並通過飛槳深度學習平台、百度智慧型雲賦能工業、能源、金融、通信、媒體、教育等各行各業。

基本介紹

中文名：文心大模型
外文名：Large Model ERNIE
別名：文心
隸屬公司：百度
官網：https://wenxin.baidu.com/

文心全景,自然語言處理,視覺,跨模態,生物計算,行業大模型,核心優勢,發展歷程,榮譽表彰,相關事件,

文心全景

文心是百度自主研發的產業級知識增強大模型，已經形成了基礎-任務-行業三級大模型體系，包括自然語言處理、視覺、跨模態等基礎大模型，對話、跨語言、搜尋、信息抽取等任務大模型，生物計算領域大模型，行業大模型，以及支撐大模型套用的工具平台。

文心大模型全景圖

自然語言處理

ERNIE 3.0

ERNIE 3.0 是ERNIE系列大模型的進一步升級。除了對無標註數據和知識圖譜的學習之外，還通過持續學習對百餘種不同形式的任務數據學習，實現了任務知識增強，顯著提升了模型的零樣本/小樣本學習能力。ERNIE 3.0 在學習過程中使用統一範式的多任務學習，建模數據中不同粒度的語義信息。為了進一步學習特定任務的相關知識，ERNIE 3.0 提出了層次化提示（Prompt）學習技術。在數據構造時通過層次化的Text Prompt庫將百餘種不同的任務統一組織成自然語言的形式，和海量無監督文本以及百度知識圖譜聯合學習。此外訓練過程引入了層次化的 Soft Prompt 建模了不同任務之間的共性與特性，進一步提升了模型對於不同下游任務的建模能力。

ERNIE 3.0 可以支持智慧型創作、摘要生成、問答、語義檢索、情感分析、信息抽取、文本匹配、文本糾錯等各類自然語言理解和生成任務。基於ERNIE 3.0 於2022年5月20日對外發布了開放的千億參數的中文生成API，供各行各業的開發者調用和開發，使用其強大的零樣本和小樣本學習能力。

鵬城-百度·文心

鵬城-百度·文心（ERNIE 3.0 Titan）參數規模達到2600億，相對GPT-3的參數量提升50% 。沿襲了ERNIE 3.0的海量無監督文本與大規模知識圖譜的平行預訓練算法及兼顧語言理解與語言生成的統一預訓練框架。在此基礎上，鵬城-百度·文心中提出了可控學習和可信學習算法。在可控學習方面，模型具備了不同類型的零樣本生成能力。使用者可以將指定的體裁、情感、長度、主題、關鍵字等屬性自由組合，無需標註任何樣本，便可生成新的類型的文本。在可信學習方面，鵬城-百度·文心通過自監督的對抗訓練，讓模型學習區分數據是真實的還是模型偽造的，使得模型對生成結果真實性具備判斷能力，從而讓模型可以從多個候選中選擇最可靠的生成結果，顯著提升了生成結果的可信度。

鵬城-百度·文心首創了大模型線上蒸餾技術，顯著降低了大模型套用成本。其在訓練過程中周期性地將知識信號傳遞給若干個學生模型同時訓練，保證了學生模型的效果和尺寸豐富性，方便不同性能需求的套用場景使用。其參數壓縮率可達99.98%。壓縮版模型僅保留0.02%參數規模就能與原有模型效果相當。

鵬城-百度·文心在60多項任務中取得最好效果，在其中30多項小樣本和零樣本任務上大幅刷新業界基準。知識推理任務上，鵬城-百度·文心相對OpenAI GPT-3準確率絕對提升8%。在行業領域，僅利用少量標註數據甚至無需標註數據，就能解決新場景的任務，已成為AI工業化大規模套用的關鍵。

ERNIE 3.5

與文心大模型3.0版本相比，文心大模型3.5在效果、功能、性能上全面提升，這不僅表現在文心大模型的創作、問答、推理和代碼的提升上，還體現在訓練速度和推理速度的提升上。在基礎模型訓練上，採用了飛槳最先進的自適應混合併行訓練技術及混合精度計算策略，並採用多種策略最佳化數據源及數據分布，加快了模型疊代速度，顯著提升了模型效果和安全性。同時，創新了多類型多階段有監督精調、多層次多粒度獎勵模型、多損失函式混合最佳化策略、雙飛輪結合的模型最佳化等技術，進一步提升模型效果及場景適配能力。文心大模型3.5還新增了外掛程式機制，包括官方外掛程式百度搜尋和ChatFile，使得文心一言能夠生成實時準確信息和長文本摘要，拓展了大模型能力邊界。

ERNIE 4.0

文心大模型4.0在人工智慧核心的理解、生成、邏輯、記憶方面能力全面提升，各類AI套用場景具備極強的泛化能力。例如，在萬卡算力上運行飛槳平台，通過集群基礎設施和調度系統、飛槳框架的軟硬協同最佳化，支持了大模型的穩定高效訓練。建設了多維數據體系，形成了數據挖掘、分析、合成、標註、評估閉環，充分釋放數據價值，大幅提升模型效果。基於有監督精調、偏好學習、強化學習等技術進行多階段對齊，保障模型更好地與人類的判斷和選擇對齊。可再生訓練技術通過增量式的參數調優，有效節省了訓練資源和時間，加快了模型疊代速度。

對話 PLATO-XL

PLATO-XL是百億級參數中英文對話模型，支持開放域閒聊、知識增強等多種類型的對話任務。PLATO首次提出隱變數機制建模開放域對話中的一對多關係（一個輸入對應多個正確輸出），採用Unified Transformer框架共享生成模型中的編碼器和解碼器參數，通過課程學習方式提升模型訓練效率，在精細化構建的大規模高質量對話語料上基於飛槳深度學習框架進行高效訓練。PLATO具備接近真人水平的多輪流暢對話能力，開放域對話效果達到世界領先水平，在全球對話技術頂賽DSTC中斬獲多個冠軍。

搜尋 ERNIE-Search

ERNIE-Search大模型是融合大規模知識和海量數據的大規模語義理解模型，創新性地引入了語義匹配模型的自互動以及多互動的動態蒸餾方案，縮小了單塔教師模型與雙塔學生模型之間的結構性差異，提高了蒸餾效率，使得模型訓練更為高效。通過預訓練、下游任務微調階段的多互動範式以及海量數據蒸餾，ERNIE-Search大模型在開放領域問答任務上的表現有了顯著的提升，在MSMARCO段落排序等多項任務中取得了SOTA結果。ERNIE-Search大模型作為專為通用搜尋場景設計的大模型，其套用範圍廣泛，包括但不限於文檔搜尋、語義表示、語義匹配等任務，能夠滿足各行各業的需求。

跨語言 ERNIE-M

多語言大模型 ERNIE-M，統一建模了96種語言。其突破雙語語料規模對多語言模型的學習效果限制，提升了跨語言理解的效果，ERNIE-M中首次提出了基於回譯機制，從單語語料中學習語言間的語義對齊關係。ERNIE-M在跨語言自然語言推斷、語義檢索、語義相似度、命名實體識別、閱讀理解在內的5種典型跨語言任務上取得世界領先效果，在涉及12個語系40個語種的權威多語言評測XTREME上取得了榜首成績。

代碼 ERNIE-Code

ERNIE-Code是多自然語言多程式語言的代碼大模型，支持100+程式語言。ERNIE-Code預訓練引入代碼相關性和依賴關係學習，有效支持項目級代碼生成，在代碼推薦、單測生成、自然語言生成代碼、代碼修復等多項代碼智慧型任務上均取得領先效果。

文心一言 ERNIE Bot

文心一言（英文名：ERNIE Bot）是百度全新一代知識增強大語言模型，文心大模型家族的成員，能夠與人對話互動、回答問題、協助創作，高效便捷地幫助人們獲取信息、知識和靈感。

文心一言從數萬億數據和數千億知識中融合學習，得到預訓練大模型，在此基礎上採用有監督精調、人類反饋強化學習、提示等技術，具備知識增強、檢索增強和對話增強的技術優勢。

2023年3月16日，百度新一代大語言模型文心一言正式啟動邀測。2023年8月31日，文心一言率先向全社會全面開放。開放首日，文心一言總計回復網友超3342萬個問題。 2023年12月28日，百度首席技術官王海峰在第十屆WAVE SUMMIT深度學習開發者大會上宣布文心一言用戶規模已突破1億。

視覺

文心 · CV 大模型 VIMER 是百度文心產業級知識增強大模型的重要組成。其基於“基礎+任務+行業”的三級大模型結構，形成“大數據+大模型+小型化”研發閉環，針對標註成本高、任務複雜多樣等行業難題，為企業和開發者提供強大的視覺基礎模型，以及一整套視覺任務定製研發與套用閉環方案。

在大模型技術方面，對外發布 VIMER-StrucTexT 、VIMER-UFO、VIMER-TCIR、VIMER-CAE等通用大模型及多個行業共建大模型，可套用於千行百業，幫助中小企業實現降本增效。在大數據方面，基於自研的開放域檢測大模型及多模態檢索能力，建設集數據挖掘（文搜圖、圖搜圖）、數據標註（偽標籤自標註）、數據管理、數據生成能力於一體的數據平台，提供領先、低成本、穩定、高效的數據服務，為研發數據生產提質增效。在小型化方面，依託模型搜尋、知識蒸餾、模型量化等技術，構建晶片模型結構設計、模型壓縮、推理最佳化一站式服務平台，加速大模型小型化及其在不同場景、不同硬體平台落地套用。

在套用方面，作為文心大模型的核心之一，文心·CV大模型VIMER已廣泛套用在自動駕駛、雲智一體、移動生態等核心業務中，並在能源、工業、保險、影視等行業與國家電網等企業共建行業大模型，進一步推動大模型驅動的產業智慧型化。

VIMER-TCIR 視覺處理多任務學習大模型

VIMER-TCIR視覺處理多任務學習大模型，通過利用Transformer局部注意力機制，結合RRDB卷積網路，降低視覺處理任務對於顯存的需求，利用預訓練技術提升模型擬合能力。基於海量影視行業4K高清數據進行預訓練，並在下遊子任務上微調，在去JPEG壓縮、去噪、去模糊、超分4類任務11項公開數據集上達到SOTA結果，獲得ECCV-AIM2022壓縮圖像超分賽道冠軍。基於TCIR方案攜手電影頻道推出電影頻道-百度 · 文心影視智感超清行業大模型，有效提升電影頻道老片修復速度，困難場景結合人工精修修復速度提升3-4倍。

VIMER-CAE 自監督視覺表征學習大模型

自監督視覺表征學習 VIMER-CAE，創新性地提出“在隱含的編碼表征空間完成掩碼預測任務”的預訓練框架，通過編碼模組對輸入的圖像塊進行特徵表達，並利用隱式上下文回歸和解碼模組對輸入圖像的掩碼塊進行特徵表達恢復，在圖像掩碼建模問題上提高了預訓練模型的圖像表征能力。基於VIMER-CAE的預訓練模型在下游各類圖像任務上取得了明顯的效果提升，在圖像分類、目標檢測、語義分割等經典下游任務上達到SOTA結果。

VIMER-UFO 2.0 多任務視覺表征學習大模型

視覺多任務文心VIMER-UFO 2.0大模型的參數量達到170億，單模型28項公開數據集SOTA，基於飛槳Task MoE架構，根據任務的不同自動選擇激活最優的區域，從而實現100倍參數壓縮，同時支持下游任務快速擴展。百度文心大模型提出的統一特徵表示最佳化(UFO:UnifiedFeature Optimization)技術，能夠在充分利用大數據和大模型的同時，兼顧大模型落地成本及部署效率，解決大模型落地套用時參數量大、推理性能差等問題。

VIMER-StrucTexT 2.0 OCR 多任務大模型

文心·CV大模型VIMER打造了OCR（光學字元識別）全景任務基礎預訓練模型VIMER-StrucTexT 2.0，開創性地提出了“單模態圖像輸入、多模態知識學習”的預訓練框架，只需輸入單一文檔圖像，就能讓模型充分捕獲語義和結構信息。經過大規模文檔圖像數據充分學習後的預訓練模型，顯著提高文檔理解全景套用任務效果，在5項不同文檔圖像理解任務上刷新SOTA結果。文心VIMER-StrucTexT 2.0作為OCR全任務基礎預訓練模型，能夠廣泛套用於各行各業行文檔、卡證、票據等圖像文字識別和結構化理解。

跨模態

視覺-語言 ERNIE-ViL

ERNIE-ViL是於2021年5月20日發布融合場景圖知識的多模態預訓練模型，它將場景圖知識融入到視覺-語言模型的預訓練過程，學習場景語義的聯合表示，顯著增強了跨模態的語義理解能力。ERNIE-ViL還在包括視覺常識推理、視覺問答、引用表達式理解、跨模態圖像檢索、跨模態文本檢索等5項典型多模態任務中刷新了世界最好效果。並在多模態領域權威榜單視覺常識推理任務（VCR）上登頂榜首。

語音-語言 ERNIE-SAT

跨語言音素知識增強的ERNIE-SAT，是可以同時處理中英文的跨語言的語音-語言跨模態大模型，在預訓練過程中將中英雙語對應的音素作為輸入，讓模型學習不同語言間音素的對齊以及語言與語音的對齊。同時採用語言和語音做聯合掩碼學習，使得模型效果取得了進一步提升。ERNIE-SAT在語音編輯、個性化語音合成以及跨語言的語音合成等多個任務取得了領先效果。

文圖生成 ERNIE-ViLG 2.0

文心ERNIE-ViLG 2.0是於2022年11月30日發布的知識增強的AI作畫大模型。首先，通過視覺、語言等多源知識指引擴散模型學習，強化文生圖模型精準的跨模態語義理解，提升生成圖像的可控性和語義一致性。同時，首次引入混合降噪專家模型提升模型建模能力，讓模型在不同的生成階段選擇不同的“降噪專家”網路，從而實現更加細緻的降噪任務建模，提升生成圖像的質量。此模型在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了當時該領域的世界最好效果，並在語義可控性、圖像清晰度、中國文化理解等方面展現出了顯著優勢。

AI藝術與創意輔助平台文心一格，就是基於ERNIE-ViLG 2.0作為大模型底座的AI 作畫產品，只需輸入文字描述，就能快速生成各種風格的精美畫作，它具有三大特點：使用便捷，易於上手；畫作精美，注重用戶體驗；更懂東方元素，善於中文。

文檔智慧型 ERNIE-Layout

文檔智慧型大模型ERNIE-Layout融合文本、圖像、布局等信息進行跨模態聯合建模，創新性引入布局知識增強，提出閱讀順序預測、細粒度圖文匹配等自監督預訓練任務，升級空間解耦注意力機制，能夠對多模態文檔（如文檔圖片、PDF 檔案、掃描件等）進行深度理解與分析，刷新了5類11項文檔智慧型任務效果，登頂DocVQA榜首，並成為榜單首個突破90分大關的技術方案，同時首次以文檔智慧型模型登頂網頁問答榜單WebSRC。ERNIE-Layout已集成至百度智慧型文檔分析平台TextMind，助力企業數位化升級。

生物計算

文心生物計算大模型借鑑生命科學底層的第一性原理，通過構建“數據+原理”雙驅動的生物計算大模型技術，對化合物、蛋白質、RNA及其表征和相互作用進行建模，以提升AI技術在小分子藥物發現、大分子藥物發現、疫苗設計等領域的套用。

大分子領域：HelixFold-Single是於2022年10月發布的開源的基於單序列語言模型的蛋白結構預測大模型，利用大規模蛋白質語言模型學習生物演化信息，把蛋白結構預測速度提升到秒級別。從蛋白質的一級序列精準預測其三維結構，已被AlphaFold2證實可達到實驗精度。但AlphaFold2的模型主要依賴多序列比對（MSA）和模版（Template）信息，導致蛋白結構預測的速度非常慢，這成為模型向產業界大規模推廣的一個瓶頸。百度研發的單體蛋白結構預測大模型HelixFold-Single，不需要MSA信息作為輸入，僅僅通過蛋白質的一級序列就可以準確預測其三級結構。把蛋白結構預測速度提升到秒級別，同時在抗體和多肽等高可變的蛋白上，效果大大超越AlphaFold2，為抗體藥物設計和多肽藥物設計奠定了良好基礎。該工作作為封面文章，發表於 Nature Machine Intelligence 2023年10月刊。

小分子領域：HelixGEM是基於幾何構象自監督的化合物表征大模型，結合實際藥物研發場景中的需求，充分考慮化合物的三維空間信息。以往的化合物建模模型和預訓練方法都僅關注化合物的二維拓撲圖結構，但在實際的藥物研發場景中，化合物的三維空間構象信息與其功能和性質存在緊密的關聯，因此，如果想更好的預測化合物的功能和性質，就應該充分考慮化合物的三維幾何構象信息。基於此，HelixGEM設計基於化合物幾何空間結構的圖神經網路、建模原子-化學鍵、化學鍵-鍵角之間的關係，提出全新的基於空間構象的圖網路模型，設計多種基於幾何的自監督學習任務。該工作發表於 Nature Machine Intelligence 2022年2月刊。

行業大模型

文心大模型與各行業企業聯手，在通用大模型的基礎上學習行業特色數據與知識，建設行業AI基礎設施。

截至2022年11月，文心已累計發布11個行業大模型，涵蓋電力、燃氣、金融、航天、傳媒、城市、影視、製造、社科等領域，實現顯著效果提升，產業生態初步形成，正在成為加速推動行業智慧型化轉型升級的重要力量。文心行業大模型是百度與行業頭部企業、機構聯合探索出的行之有效的大模型產業落地方式，讓大模型在實際套用場景中“不但能用還便捷好用”。

核心優勢

文心大模型具有兩大特色，一是知識增強，文心大模型從大規模知識圖譜和海量無結構數據中學習，學習效率更高、效果更好，具有良好的可解釋性；二是產業級，文心大模型的技術源於產業並且致力於推動產業智慧型化升級，建設更適配場景需求的大模型體系，提供全流程支持套用落地的工具和方法，營造激發創新的開放生態。得益於兩大特色，文心大模型通用性好、泛化性強，作為人工智慧“基礎設施”的一部分，進一步拓寬了人工智慧技術落地的場景覆蓋廣度，更加深了產業套用的深度。

發展歷程

2019年3月，發布文心大模型1.0，在中文領域的NLP任務上效果超過BERT。
2019年7月，發布文心大模型2.0，在16箇中英文任務上超越了BERT和XLNet，取得SOTA效果。
2019年10月，發布通用領域對話生成預訓練模型PLATO，參數規模1億。
2020年7月，發布ERNIE-ViL，首次將場景圖知識融入多模態預訓練，刷新了5項多模態任務紀錄，並登頂權威榜單VCR。
2020年7月，發布PLATO 2，參數規模16億，中英文對話效果超越谷歌 Meena、微軟小冰和 Facebook Blender 等，中文對話效果達到全新高度。
2021年1月，發布ERNIE-M，首次突破雙語語料規模對多語模型效果限制，統一建模96種語言，刷新5項跨語言理解任務紀錄，登頂權威多語言理解榜單XTREME。
2021年7月，發布文心大模型3.0，大幅刷新54箇中文NLP任務基準，並登頂SuperGLUE全球榜首，同時具備超強語言理解能力以及寫小說、歌詞、詩歌、對聯等文學創作能力。
2021年9月，發布PLATO-XL，一舉超過 Facebook Blender、谷歌 Meena 和微軟 DialoGPT，成為全球百億參數中英文對話預訓練生成模型，再次刷新了開放域對話效果。
2021年12月，百度聯合鵬城實驗室發布知識增強千億大模型——“鵬城-百度·文心”（模型版本號：ERNIE 3.0 Titan），參數規模達2600億，在機器閱讀理解、文本分類、語義相似度計算等60多項任務中取得最好效果，並在30餘項小樣本和零樣本任務上刷新基準。
2022年1月，發布文心 ERNIE-ViLG 中文跨模態生成模型，首次通過自回歸算法將圖像生成和文本生成統一建模，增強模型的跨模態語義對齊能力，顯著提升圖文生成效果。
2022年5月，NLP大模型方向，發布融合任務相關知識的千億大模型ERNIE 3.0 Zeus，在各類NLP任務上表現出了更強的零樣本和小樣本學習能力；CV大模型方向，發布業界規模最大的多任務統一視覺大模型VIMER-UFO，可以完成多類型視覺特徵的同時提取；發布OCR圖像表征學習大模型VIMER-StrucText，支持文檔圖像理解的全場景任務；跨模態大模型方向，發布語音-語言跨模態模型ERNIE-SAT，在語音編輯、個性化語音合成以及跨語言的語音合成等多個任務上取得了領先效果；生物計算大模型方向，發布化合物表征學習大模型HelixGEM，融合了幾何級別的自監督學習策略，學習化合物鍵長、鍵角等空間結構知識，提升化合物性質預測的效果，發布蛋白結構分析模型HelixFold，在GPU上相同硬體環境配置下，訓練性能更優；同時在業界首發行業大模型機制。
2022年12月，NLP大模型方向，發布代碼大模型ERNIE-Code，在代碼生成任務、代碼搜尋任務，多語言代碼摘要和代碼文檔翻譯等多個公開的評估基準上取得領先效果。跨模態大模型方向，文圖生成大模型ERNIE-ViLG 升級到2.0版本，在文本生成圖像公開權威評測集 MS-COCO 和人工盲評上均超越了 Stable Diffusion、DALL-E 2 等模型，取得了當前該領域的世界最好效果；文檔智慧型大模型ERNIE-Layout升級到3.0版本，在5個類別、11項世界權威的文檔智慧型任務上取得 SOTA。生物計算大模型方向，發布單序列蛋白質結構預測大模型HelixFold-Single，精度與AlphaFold2媲美，同時預測速度快500倍。行業大模型方面，聯合深圳燃氣發布深燃-百度·文心，聯合吉利發布吉利-百度·文心，聯合泰康發布泰康-百度·文心，聯合TCL發布TCL-百度·文心，聯合辭海發布辭海-百度·文心。
2023年3月，文心一言開始邀請測試。文心一言是新一代知識增強大語言模型，在ERNIE系列模型和PLATO系列模型的基礎上研發的，能夠與人對話互動，回答問題，協助創作，高效便捷地幫助人們獲取信息、知識和靈感。
2023年5月，文心大模型3.5開始邀請測試，文心大模型3.5相比3月份的版本，效果提升50%，訓練速度提升2倍，推理速度提升30倍，文心大模型3.5還新增了外掛程式機制，擴增了大模型的能力邊界。文心大模型3.5在IDC報告中綜合評分第一，算法模型第一，行業覆蓋第一。
2023年10月，發布文心大模型4.0，基於萬卡算力和飛槳框架軟硬協同最佳化訓練的文心大模型4.0，理解、生成、邏輯、記憶四大能力都有顯著提升。其中理解和生成能力的提升幅度相近，而邏輯和記憶能力的提升則更大，邏輯的提升幅度達到理解的近3倍，記憶的提升幅度也達到了理解的2倍多。
2024年4月，百度創始人、董事長兼執行長李彥宏在Create 2024百度AI開發者大會上發表“人人都是開發者”的主題演講，他指出，“AI正在掀起一場創造力革命，未來開發套用就像拍個短視頻一樣簡單，人人都是開發者，人人都是創造者。”