書生·萬卷

書生·萬卷

“書生·萬卷”是大模型語料數據聯盟開源發布的高質量大模型多模態預訓練語料。“書生·萬卷” 1.0包含文本數據集、圖文數據集、視頻數據集三部分,本次開源的數據總量超過2TB。該語料數據包含超過5億個文本,2,200萬個圖文交錯文檔,1,000個節目影像視頻,具備多元融合、精細處理、價值對齊、易用高效等四大特徵。

集合語料數據聯盟成員豐富的內容積累與上海AI實驗室領先的數據處理能力等優勢,“書生·萬卷”將為學術界及產業界提供更符合主流中文價值對齊的高質量大模型多模態預訓練語料。

內容介紹,書生·萬卷文本數據集1.0,書生·萬捲圖文數據集1.0,書生·萬卷視頻數據集1.0,四大特徵,許可,大模型語料數據聯盟,

內容介紹

繼2023年7月在2023世界人工智慧大會發起成立“中國大模型語料數據聯盟”之後,2023年8月,上海人工智慧實驗室宣布,聯合語料數據聯盟成員單位共同開源發布“書生·萬卷” 1.0多模態預訓練語料。

書生·萬卷文本數據集1.0

數據集由來自網頁、百科、書籍、專利、教材、考題等不同來源的清洗後預訓練語料組成,數據總量超過5億個文檔,數據大小超過1TB。該語料將html、text、pdf、epub等多種格式的數據統一處理為欄位統一的jsonl格式,並經過細粒度的清洗、去重、價值對齊,形成了一份安全可信、高質量的預訓練語料。

書生·萬捲圖文數據集1.0

數據集主要來自公開網頁,經處理後形成圖文交錯文檔。文檔總量超過2200萬個,數據大小超過140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會生活等多個領域。數據均為統一的jsonl格式,其中圖片以url的形式給出。

書生·萬卷視頻數據集1.0

數據集主要來自中央廣播電視總台上海文廣集團,包含多種類型的節目影像,視頻檔案數超過1000個,數據大小超過900GB。內容覆蓋軍事、文藝、體育、自然、真實世界、知識類、影像藝術、媒體、美食、歷史紀錄片、科教類等方面。

四大特徵

高質量、大規模、安全可信的語料數據對於大語言模型的訓練和性能提升至關重要。基於語料數據聯盟構建的語料庫,上海AI實驗室對其中部分數據進行細粒度清洗、去重以及價值對齊,形成了高質量多模態預訓練語料“書生·萬卷”1.0。
在多元融合方面,“書生·萬卷”1.0包含文本、圖文、視頻等多模態數據,範圍覆蓋科技、文學、媒體、教育、法律等多個領域,在訓練提升模型知識含量、邏輯推理和泛化能力方面具有顯著效果。
在精細處理方面,“書生·萬卷”1.0經歷了語言甄別、正文抽取、格式標準化、基於規則及模型的數據過濾與清洗、多尺度去重、數據質量評估等精細化數據處理環節,因而能更好地適配後續的模型預訓練需求。
在價值對齊方面,研究人員在“書生·萬卷”1.0的構建過程中,著眼於內容與中文主流價值觀的對齊,通過算法與人工評估結合的方式,提升了語料的純淨度。
在易用高效方面,研究人員在“書生·萬卷”1.0採用統一格式,並提供詳細的欄位說明和工具指導,使其兼顧了易用性和效率,可快速套用於語言、多模態等大模型預訓練。
高質量、多模態、寬領域的數據支持已成為當前人工智慧大模型發展的重要基石,中國大模型語料數據聯盟將持續通過開源開放,共建包容、開放、有序、共享的人工智慧大生態。

許可

書生·萬卷1.0整體採用CC BY 4.0許可協定。

大模型語料數據聯盟

上海人工智慧實驗室聯合中央廣播電視總台人民網國家氣象中心中國科學技術信息研究所上海報業集團上海文廣集團等10家單位聯合發起。為應對大模型發展對高質量、大規模、安全可信語料數據資源的需求,保障大模型科研攻關及相關產業生態發展,大模型語料數據聯盟於2023年7月6日世界人工智慧大會開幕式上宣布成立,旨在通過連結模型訓練、數據供給、學術研究、第三方服務等多方面機構,聯合打造多知識、多模態、標準化的高質量語料數據,探索形成基於貢獻、可持續運行的激勵機制,打造國際化、開放型的大模型語料數據生態圈。

相關詞條

熱門詞條

聯絡我們