OpenDataLab浦數 人工智慧開放數據平台,是上海人工智慧實驗室在WAIC 2022科學前沿全體會議上發布“OpenXLab浦源”人工智慧開源開放體系的核心項目之一。
OpenDataLab作為人工智慧數據領域的探路者和開源數據社區的倡導者,圍繞大模型數據開展多項前沿技術探索,構建面向大模型研發全流程的數據平台及大模型時代數據管理體系。
全新的OpenDataLab浦數人工智慧開放數據平台匯聚了海量的數據資源,包括覆蓋800多種任務類型的3,000多個數據集,並提供便捷檢索和快速下載服務。OpenDataLab還和OpenXLab的各個開源算法體系緊密銜接,通過一個簡單的命令行工具,即可實現一鍵部署、開箱即用。
基本介紹
- 網站名稱:OpenDataLab
- 別名:浦數
- 主辦單位:上海人工智慧實驗室
- ICP備案號:滬ICP備2021009351號-15
7月6日,上海人工智慧實驗室(上海AI實驗室)發布全新升級的“書生通用大模型體系”。在數據環節,通過OpenDataLab開放了包含30多種模態的5,500公開數據集,其中在自然語言方面開放了超過10,000億token的高質量語料。
上海人工智慧實驗室(上海AI實驗室)於8月14日宣布開源發布“書生·萬卷” 1.0多模態預訓練語料。據了解,“書生·萬卷”的主要構建團隊——OpenDataLab旨在建設面向人工智慧開發者的超大規模、高質量、多模態開放數據服務平台,致力於打造國內公開數據資源的基礎建設。目前,該平台已建立共享的多模態數據集5500個,涵蓋超過1萬億token文本語料、60億張圖像、8億個視頻片段和100萬個3D模型。