大模型評測體系司南OpenCompass2.0:大模型評測“鐵三角”,Compas

2024年1月，上海人工智慧實驗室正式發布大模型開源開放評測體系司南（OpenCompass2.0），旨在為大語言模型、多模態模型等各類模型提供一站式評測服務。OpenCompass2.0 全面量化模型在知識、語言、理解、推理和考試等五大能力維度的表現，客觀中立地為大模型技術創新提供堅實的技術支撐。

OpenCompass 自誕生以來，在學術界和產業界引起了廣泛關注，並迅速成為全球領先的大模型能力評測體系。截至 2024年1月，評測榜單涉及的大語言模型和多模態大模型超過 150 個，已有包括 Meta、阿里巴巴、騰訊、百度等30餘家國內外企業和科研機構採用 OpenCompass 助力開展技術研發。

基本介紹

中文名：司南大模型評測體系
外文名：OpenCompass

大模型評測“鐵三角”,CompassRank,CompassHub,CompassKit,司南大模型評測夥伴計畫,

大模型評測“鐵三角”

CompassRank

大模型評測“鐵三角”

作為OpenCompass2.0中各類榜單的承載平台，CompassRank不受任何商業利益干擾，保持中立性。同時，依託CompassKit工具鏈體系中的各類評測手段，保證了CompassRank的客觀性。CompassRank不僅覆蓋多領域、多任務下的模型性能，還將定期更新，提供動態的行業洞察。與此同時，OpenCompass團隊將在榜單中提供專業解讀，進一步幫助從業者理解技術深意，最佳化模型選擇。

CompassHub

CompassHub 是面向大模型能力評測開源開放的基準社區，提供面向不同能力維度和行業場景的評測基準。OpenCompass2.0 歡迎評測用戶在 CompassHub 上傳各自構建的高質量評測基準，發布相應的性能榜單，匯聚社區力量助力大模型社區整體快速發展。

CompassKit

OpenCompass2.0 對廣受歡迎的初代評測工具庫進行了全面最佳化，推出大模型評測全棧工具鏈 CompassKit，不僅提供完整的開源可復現評測代碼，更提供了豐富的模型支持和高效的分散式評測策略。

司南大模型評測夥伴計畫

基於 OpenCompass2.0 大模型評測體系，司南大模型評測夥伴計畫正式啟動。未來，司南將與各行業的頭部企業機構一起，構建各類高質量的行業評測基準，致力於推進大模型在千行百業套用落地和實踐。

司南能力體系合作夥伴：共同建立面向未來大模型技術演進的能力體系，構建通用大模型能力評價維度，參與大模型相關重要標準和規範的制定。

司南行業評測基準合作夥伴：共同建立行業大模型評測集，共同發布行業榜單，為行業大模型能力發展提供方向指引。

司南工具鏈合作夥伴：誠邀各類大模型及套用相關企業，基於 OpenCompass 工具鏈體系共同研發高質量評測工具鏈，面向大語言模型、多模態大模型等方向，建設全面科學高效的自動化評測服務，共同提高模型和套用的研發效率。

OpenCompass2.0 已和合作夥伴共同推出了多個垂直領域的評測基準和數據集

法律領域：聯合南京大學推出 LawBench 評測基準，全面評估大模型在法律任務中的套用能力。

金融領域：和東方財富等行業夥伴共同推出全場景金融開源測評數據集 OpenFinData。

醫療領域：與上海交通大學醫學院附屬瑞金醫院、上海交通大學醫學院附屬新華醫院、四川大學華西醫院、廣州實驗室等醫療機構和企業共同推出面向中文醫療大語言模型的評測系統 MedBench，覆蓋醫學語言理解、生成、知識問答、推理及安全和倫理等方面。

網路安全領域：與騰訊朱雀實驗室、騰訊安全科恩實驗室、清華大學以及香港理工大學等研究團隊共同打造首個網路安全大模型評測平台 SecBench，專注於評估大模型在網路安全領域的套用能力。

大模型評測體系司南OpenCompass2.0