| Open LLM Leaderboard |
基准测试 |
Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k) |
高 (方法、数据、代码基本公开) |
频繁 |
主要开源 |
Hugging Face |
综合 |
开源社区、开发者 (追踪开源进展) |
国际 |
更新快 |
| HELM |
全面基准测试 |
多场景下的准确性、鲁棒性、公平性、效率等7大指标 |
高 (方法、数据详细, 部分代码公开) |
定期发布版本 |
开源 & 闭源 |
Stanford CRFM |
综合 (Holistic) |
学术研究者 (全面、严谨评估) |
国际 |
非常全面,学术性强 |
| Chatbot Arena |
人类偏好 |
Elo评分 (基于人类配对投票) |
中 (方法公开, 原始投票数据不公开) |
频繁 |
开源 & 闭源 (聊天模型) |
LMSYS ORG |
综合对话能力 / 人类偏好 |
普通用户、开发者 (评估实际对话体验) |
国际 |
侧重对话体验 |
| Vellum LLM Leaderboard |
基准测试 |
指令遵循、推理、写作质量等 (具体基准可能内部) |
中/低 (商业公司, 方法可能概述) |
定期 / 不明确 |
主要闭源 / API模型 |
Vellum.ai |
综合 |
开发者、企业用户 (比较API模型实用性) |
国际 |
商业公司维护 |
| Artificial Analysis Models |
基准测试 |
质量 (基准测试)、延迟、成本 |
低 (商业分析, 方法细节不公开) |
定期更新 |
主要闭源 / API模型 |
Artificial Analysis |
综合质量、性能、成本 |
企业决策者、开发者 (评估API性能与成本) |
国际 |
关注实用性指标 |
| Scale Leaderboard |
基准测试 & 人工评估 |
基准测试与人工评估得分 (具体视榜单) |
中/低 (依赖内部评估方法) |
不明确 |
主要闭源 / API模型 |
Scale AI |
综合 / 特定任务 |
企业用户、开发者 (模型质量与特定任务表现) |
国际 |
强于人工评估 |
| Aider Chat Leaderboard |
编程基准测试 |
Aider 编程基准测试得分 |
高 (工具开源, 测试集可能公开) |
定期 / 按需 |
开源 & 闭源 (代码能力) |
Aider Chat 项目 |
专业 (代码生成) |
开发者 (评估代码编辑/生成能力) |
国际 |
专注代码编辑任务 |
| HELM Classic |
全面基准测试 |
同 HELM |
高 (同 HELM) |
定期发布版本 |
开源 & 闭源 |
Stanford CRFM |
综合 (Holistic) |
学术研究者 (历史版本/特定视角) |
国际 |
HELM 早期版本视图 |
| EQBench |
基准测试 |
EQBench 情商测试得分 |
中 (方法/部分题目可能公开) |
定期 / 按需 |
开源 & 闭源 |
EQBench 项目 |
专业 (情商 EQ) |
研究者、开发者 (评估模型情商) |
国际 |
专注情商能力 |
| LiveBench.ai |
动态/真实世界基准 |
动态/真实世界任务表现 |
中 (方法可能公开, 动态性增加复现难度) |
频繁 / "Live" |
开源 & 闭源 |
Together AI / 学术合作者 |
综合 (真实世界表现) |
研究者、开发者 (评估真实世界适应性) |
国际 |
强调动态场景 |
| Gorilla Leaderboard |
基准测试 |
API 调用准确率 (多种类型API) |
高 (学术项目, 方法/数据可能公开) |
定期 / 按需 |
开源 & 闭源 (支持API调用) |
UC Berkeley |
专业 (API / 工具调用) |
研究者、开发者 (评估模型工具/API使用能力) |
国际 |
专注工具使用 |
| AlpacaEval |
自动评估 |
Elo评分 (基于模型自动评估, 如GPT-4打分) |
高 (代码、方法公开) |
定期 / 按需 |
主要开源 (指令遵循模型) |
Stanford (Tatsu Lab) |
综合 (指令遵循质量 - 相对) |
研究者、开发者 (评估指令遵循质量, 自动评估) |
国际 |
基于模型自身打分 |
| MTEB Leaderboard |
基准测试 |
多项文本嵌入任务得分 (分类、检索等) |
高 (框架、代码、数据公开) |
频繁 |
主要开源 (嵌入模型) |
Hugging Face / MTEB 社区 |
专业 (文本嵌入质量) |
研究者、开发者 (评估文本嵌入模型) |
国际 |
专注嵌入模型 |
| EvalPlus Leaderboard |
编程基准测试 |
HumanEval+ 通过率 |
高 (框架、方法公开) |
定期 / 按需 |
开源 & 闭源 (代码能力) |
EvalPlus 项目 |
专业 (代码生成 - 鲁棒性) |
研究者、开发者 (评估代码生成鲁棒性) |
国际 |
强化代码评测 |
| SuperCLUE |
基准测试, 含人工评估 |
总分 (含开放题、选择题、多维度能力) |
中 (方法概述, 部分数据/评估细节不公开) |
定期更新 |
开源 & 闭源, 侧重中文 |
CLUE Org |
综合 (中文特性) |
国内开发者、企业、研究者 (中文综合能力对比) |
国内 |
国内代表性综合榜单 |
| FlagEval (智源指数) |
基准测试 |
FlagEval 评测集得分 (多维度) |
中/高 (官方机构, 方法有文档, 细节可能内部) |
定期更新 |
开源 & 闭源, 侧重中文 |
BAAI |
综合 |
国内研究者、开发者 (体系化能力评估) |
国内 |
官方背景,体系化评测 |
| C-Eval |
基准测试 |
C-Eval 各科目平均准确率 |
高 (数据集、论文公开) |
基准固定, 榜单随测试更新 |
开源 & 闭源 |
C-Eval 团队 |
专业 (中文知识与推理) |
研究者、开发者 (评估中文核心知识与推理) |
国内 |
专注中文核心知识 |
| OpenCompass (司南) |
大规模基准测试 |
上百种数据集上的综合得分 (覆盖极广) |
高 (平台开源, 方法/数据集公开) |
定期更新 |
开源 & 闭源, 侧重中文 |
OpenCompass 社区 |
综合 (极全面) |
国内研究者、开发者 (极全面、多维度对比) |
国内 |
开放评测体系,覆盖广 |
| Open Chinese LLM Leaderboard |
基准测试 |
Avg(C-Eval, CMMLU, Gaokao等中文基准) |
高 (方法、数据、代码基本公开) |
频繁 |
主要开源中文模型 |
BAAI / 社区 (HF托管) |
综合 (中文基准) |
开源社区、开发者 (追踪中文开源模型) |
国内 |
HF 上的中文开源榜 |
| SciHorizon 模型列表 |
平台内测试 / 展示 |
平台内任务表现 (具体指标不明确) |
低 (平台内部展示, 评估细节不公开) |
随平台更新 |
开源 & 闭源 (平台上线模型) |
紫为云 |
平台内表现 / 综合 |
平台用户 (了解平台可用模型) |
国内 |
更像模型平台展示 |
| CMMLU |
基准测试 |
CMMLU 各科目平均准确率 |
高 (数据集、论文公开) |
基准固定, 榜单随测试更新 |
开源 & 闭源 |
项目作者 |
专业 (中文多任务理解) |
研究者、开发者 (评估中文多任务理解) |
国内 |
重要中文理解基准 |