Llama 3

產品介紹

據Meta介紹，Llama 3已經在多種行業基準測試上展現了最先進的性能，提供了包括改進的推理能力在內的新功能，是目前市場上最好的開源大模型。

在架構層面，Llama3選擇了標準的僅解碼（decoder-only）式Transformer架構，採用包含128K token辭彙表的分詞器。Llama 3在Meta自製的兩個24K GPU集群上進行預訓練，使用了超過15T的公開數據，其中5%為非英文數據，涵蓋30多種語言，訓練數據量是前代Llama 2的七倍，包含的代碼數量是Llama 2的四倍。

根據Meta的測試結果，Llama 3 8B模型在MMLU、GPQA、HumanEval等多項性能基準上均超過了Gemma 7B和Mistral 7B Instruct，70B模型則超越了名聲在外的閉源模型Claude 3的中間版本Sonnet，和谷歌的Gemini Pro 1.5相比三勝兩負。

發展歷史

當地時間2024年4月18日，Meta在官網上宣布公布了旗下最新大模型Llama 3。目前，Llama 3已經開放了80億（8B）和700億（70B）兩個小參數版本，上下文視窗為8k。

2024年4月19日，百度智慧型雲千帆大模型平台在國內首家推出針對Llama 3全系列版本的訓練推理方案，便於開發者進行再訓練，搭建專屬大模型。

2024年4月22日，阿里雲百鍊大模型服務平台宣布在國內推出針對Llama 3系列的限時免費訓練、部署、推理服務。

2024年7月13日訊息，科技媒體The Information本周五發布博文，援引內部員工曝料稱Meta公司計畫7月23日發布開源AI模型Llama 3-405B，在現有80億和700億參數兩個版本之外，推出4050億參數版本，號稱是最強大的開源大語言模型。Llama 3-405B是一個多模態AI開源模型，能夠理解圖像、文本等多種媒體內容。

Llama 3

基本介紹

產品介紹

發展歷史

熱門詞條