內容介紹,書生·萬卷文本數據集1.0,書生·萬捲圖文數據集1.0,書生·萬卷視頻數據集1.0,四大特徵,許可,大模型語料數據聯盟,
內容介紹
繼2023年7月在2023世界人工智慧大會發起成立“中國大模型語料數據聯盟”之後,2023年8月,上海人工智慧實驗室宣布,聯合語料數據聯盟成員單位共同開源發布“書生·萬卷” 1.0多模態預訓練語料。
書生·萬卷文本數據集1.0
數據集由來自網頁、百科、書籍、專利、教材、考題等不同來源的清洗後預訓練語料組成,數據總量超過5億個文檔,數據大小超過1TB。該語料將html、text、pdf、epub等多種格式的數據統一處理為欄位統一的jsonl格式,並經過細粒度的清洗、去重、價值對齊,形成了一份安全可信、高質量的預訓練語料。
書生·萬捲圖文數據集1.0
數據集主要來自公開網頁,經處理後形成圖文交錯文檔。文檔總量超過2200萬個,數據大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域。數據均為統一的jsonl格式,其中圖片以url的形式給出。
書生·萬卷視頻數據集1.0
數據集主要來自中央廣播電視總台和上海文廣集團,包含多種類型的節目影像,視頻檔案數超過1000個,數據大小超過900GB。內容覆蓋軍事、文藝、體育、自然、真實世界、知識類、影像藝術、媒體、美食、歷史紀錄片、科教類等方面。
四大特徵
高質量、大規模、安全可信的語料數據對於大語言模型的訓練和性能提升至關重要。基於語料數據聯盟構建的語料庫,上海AI實驗室對其中部分數據進行細粒度清洗、去重以及價值對齊,形成了高質量多模態預訓練語料“書生·萬卷”1.0。
在多元融合方面,“書生·萬卷”1.0包含文本、圖文、視頻等多模態數據,範圍覆蓋科技、文學、媒體、教育、法律等多個領域,在訓練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。
在精細處理方面,“書生·萬卷”1.0經歷了語言甄別、正文抽取、格式標準化、基於規則及模型的數據過濾與清洗、多尺度去重、數據質量評估等精細化數據處理環節,因而能更好地適配後續的模型預訓練需求。
在價值對齊方面,研究人員在“書生·萬卷”1.0的構建過程中,著眼於內容與中文主流價值觀的對齊,通過算法與人工評估結合的方式,提升了語料的純淨度。
在易用高效方面,研究人員在“書生·萬卷”1.0採用統一格式,並提供詳細的欄位說明和工具指導,使其兼顧了易用性和效率,可快速套用於語言、多模態等大模型預訓練。
高質量、多模態、寬領域的數據支持已成為當前人工智慧大模型發展的重要基石,中國大模型語料數據聯盟將持續通過開源開放,共建包容、開放、有序、共享的人工智慧大生態。