OpenCompass:簡介,大模型評測“鐵三角”,CompassRank,Com

OpenCompass是上海人工智慧實驗室開源的大模型評測平台，涵蓋學科、語言、知識、理解、推理等五大評測維度，可全面評估大模型能力。

基本介紹

中文名：OpenCompass
功能：大模型評測

簡介,大模型評測“鐵三角”,CompassRank,CompassHub,CompassKit,

簡介

OpenCompass 的主要特點包括開源可復現、全面的能力維度、豐富的模型支持、分散式高效評測、多樣化評測範式以及靈活化拓展。基於高質量、多層次的能力體系和工具鏈，OpenCompass 創新了多項能力評測方法，並構建了一套高質量的中英文雙語評測基準，涵蓋語言與理解、常識與邏輯推理、數學計算與套用、多程式語言代碼能力、智慧型體、創作與對話等多個方面，能夠實現對大模型真實能力的全面診斷。

大模型評測“鐵三角”

大模型評測“鐵三角”

CompassRank

CompassRank 作為 OpenCompass 中各類榜單的承載平台，CompassRank 不受任何商業利益干擾，保持中立性。同時，依託 CompassKit 工具鏈體系中的各類評測手段，保證了 CompassRank 的客觀性。CompassRank 不僅覆蓋多領域、多任務下的模型性能，還將定期更新，提供動態的行業洞察。與此同時，OpenCompass 團隊將在榜單中提供專業解讀，進一步幫助從業者理解技術深意，最佳化模型選擇。

CompassHub

CompassHub 是面向大模型能力評測開源開放的基準社區，提供面向不同能力維度和行業場景的評測基準。OpenCompass 歡迎評測用戶在 CompassHub 上傳各自構建的高質量評測基準，發布相應的性能榜單，匯聚社區力量助力大模型社區整體快速發展。

CompassKit

OpenCompass 對廣受歡迎的初代評測工具庫進行了全面最佳化，推出大模型評測全棧工具鏈 CompassKit，不僅提供完整的開源可復現評測代碼，更提供了豐富的模型支持和高效的分散式評測策略。

CompassKit 中包含：

OpenCompass 升級版大語言模型評測工具：提供全面的大模型評測功能，包括廣泛模型支持、高效評測速度、主觀評測能力、數據污染檢查和豐富的長文本評測能力。

VLMEvalKit 多模態大模型評測工具：一站式多模態評測工具，支持主流多模態模型和數據集，助力社區比較不同多模態模型在各種任務上的性能。

Code-Evaluator 代碼評測服務工具：提供基於 docker 的統一程式語言評測環境，確保代碼能力評測的穩定性和可復現性。

MixtralKit MoE 模型入門工具：為 MoE 模型初學者提供學習資料、模型架構解析、推理與評測教程等入門工具。

OpenCompass

基本介紹

簡介

大模型評測“鐵三角”

CompassRank

CompassHub

CompassKit

相關詞條

熱門詞條