OpenCompass

OpenCompass

OpenCompass是上海人工智慧實驗室開源的大模型評測平台,涵蓋學科、語言、知識、理解、推理等五大評測維度,可全面評估大模型能力。

基本介紹

  • 中文名:OpenCompass
  • 功能:大模型評測
簡介,大模型評測“鐵三角”,CompassRank,CompassHub,CompassKit,

簡介

OpenCompass 的主要特點包括開源可復現、全面的能力維度、豐富的模型支持、分散式高效評測、多樣化評測範式以及靈活化拓展。基於高質量、多層次的能力體系和工具鏈,OpenCompass 創新了多項能力評測方法,並構建了一套高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與套用、多程式語言代碼能力、智慧型體、創作與對話等多個方面,能夠實現對大模型真實能力的全面診斷。

大模型評測“鐵三角”

OpenCompass
大模型評測“鐵三角”

CompassRank

CompassRank 作為 OpenCompass 中各類榜單的承載平台,CompassRank 不受任何商業利益干擾,保持中立性。同時,依託 CompassKit 工具鏈體系中的各類評測手段,保證了 CompassRank 的客觀性。CompassRank 不僅覆蓋多領域、多任務下的模型性能,還將定期更新,提供動態的行業洞察。與此同時,OpenCompass 團隊將在榜單中提供專業解讀,進一步幫助從業者理解技術深意,最佳化模型選擇。

CompassHub

CompassHub 是面向大模型能力評測開源開放的基準社區,提供面向不同能力維度和行業場景的評測基準。OpenCompass 歡迎評測用戶在 CompassHub 上傳各自構建的高質量評測基準,發布相應的性能榜單,匯聚社區力量助力大模型社區整體快速發展。

CompassKit

OpenCompass 對廣受歡迎的初代評測工具庫進行了全面最佳化,推出大模型評測全棧工具鏈 CompassKit,不僅提供完整的開源可復現評測代碼,更提供了豐富的模型支持和高效的分散式評測策略。
CompassKit 中包含:
OpenCompass 升級版大語言模型評測工具:提供全面的大模型評測功能,包括廣泛模型支持、高效評測速度、主觀評測能力、數據污染檢查和豐富的長文本評測能力。
VLMEvalKit 多模態大模型評測工具:一站式多模態評測工具,支持主流多模態模型和數據集,助力社區比較不同多模態模型在各種任務上的性能。
Code-Evaluator 代碼評測服務工具:提供基於 docker 的統一程式語言評測環境,確保代碼能力評測的穩定性和可復現性。
MixtralKit MoE 模型入門工具:為 MoE 模型初學者提供學習資料、模型架構解析、推理與評測教程等入門工具。

相關詞條

熱門詞條

聯絡我們