書生·萬卷

內容介紹

繼2023年7月在2023世界人工智慧大會發起成立“中國大模型語料數據聯盟”之後，2023年8月，上海人工智慧實驗室宣布，聯合語料數據聯盟成員單位共同開源發布“書生·萬卷” 1.0多模態預訓練語料。

數據集由來自網頁、百科、書籍、專利、教材、考題等不同來源的清洗後預訓練語料組成，數據總量超過5億個文檔，數據大小超過1TB。該語料將html、text、pdf、epub等多種格式的數據統一處理為欄位統一的jsonl格式，並經過細粒度的清洗、去重、價值對齊，形成了一份安全可信、高質量的預訓練語料。

數據集主要來自公開網頁，經處理後形成圖文交錯文檔。文檔總量超過2200萬個，數據大小超過140GB（不含圖片），覆蓋新聞事件、人物、自然景觀、社會生活等多個領域。數據均為統一的jsonl格式，其中圖片以url的形式給出。

數據集主要來自中央廣播電視總台和上海文廣集團，包含多種類型的節目影像，視頻檔案數超過1000個，數據大小超過900GB。內容覆蓋軍事、文藝、體育、自然、真實世界、知識類、影像藝術、媒體、美食、歷史紀錄片、科教類等方面。

高質量、大規模、安全可信的語料數據對於大語言模型的訓練和性能提升至關重要。基於語料數據聯盟構建的語料庫，上海AI實驗室對其中部分數據進行細粒度清洗、去重以及價值對齊，形成了高質量多模態預訓練語料“書生·萬卷”1.0。

在多元融合方面，“書生·萬卷”1.0包含文本、圖文、視頻等多模態數據，範圍覆蓋科技、文學、媒體、教育、法律等多個領域，在訓練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。

在精細處理方面，“書生·萬卷”1.0經歷了語言甄別、正文抽取、格式標準化、基於規則及模型的數據過濾與清洗、多尺度去重、數據質量評估等精細化數據處理環節，因而能更好地適配後續的模型預訓練需求。

在價值對齊方面，研究人員在“書生·萬卷”1.0的構建過程中，著眼於內容與中文主流價值觀的對齊，通過算法與人工評估結合的方式，提升了語料的純淨度。

在易用高效方面，研究人員在“書生·萬卷”1.0採用統一格式，並提供詳細的欄位說明和工具指導，使其兼顧了易用性和效率，可快速套用於語言、多模態等大模型預訓練。

高質量、多模態、寬領域的數據支持已成為當前人工智慧大模型發展的重要基石，中國大模型語料數據聯盟將持續通過開源開放，共建包容、開放、有序、共享的人工智慧大生態。