大语言模型 (LLM) 榜单对比

榜单名称 (点击跳转) 测评方式 核心指标/任务 透明度 榜单更新周期 收录模型类型 背靠机构 测评维度 受众/目标 地区 备注
国际榜单
Open LLM Leaderboard 基准测试 Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k) 高 (方法、数据、代码基本公开) 频繁 主要开源 Hugging Face 综合 开源社区、开发者 (追踪开源进展) 国际 更新快
HELM 全面基准测试 多场景下的准确性、鲁棒性、公平性、效率等7大指标 高 (方法、数据详细, 部分代码公开) 定期发布版本 开源 & 闭源 Stanford CRFM 综合 (Holistic) 学术研究者 (全面、严谨评估) 国际 非常全面,学术性强
Chatbot Arena 人类偏好 Elo评分 (基于人类配对投票) 中 (方法公开, 原始投票数据不公开) 频繁 开源 & 闭源 (聊天模型) LMSYS ORG 综合对话能力 / 人类偏好 普通用户、开发者 (评估实际对话体验) 国际 侧重对话体验
Vellum LLM Leaderboard 基准测试 指令遵循、推理、写作质量等 (具体基准可能内部) 中/低 (商业公司, 方法可能概述) 定期 / 不明确 主要闭源 / API模型 Vellum.ai 综合 开发者、企业用户 (比较API模型实用性) 国际 商业公司维护
Artificial Analysis Models 基准测试 质量 (基准测试)、延迟、成本 低 (商业分析, 方法细节不公开) 定期更新 主要闭源 / API模型 Artificial Analysis 综合质量、性能、成本 企业决策者、开发者 (评估API性能与成本) 国际 关注实用性指标
Scale Leaderboard 基准测试 & 人工评估 基准测试与人工评估得分 (具体视榜单) 中/低 (依赖内部评估方法) 不明确 主要闭源 / API模型 Scale AI 综合 / 特定任务 企业用户、开发者 (模型质量与特定任务表现) 国际 强于人工评估
Aider Chat Leaderboard 编程基准测试 Aider 编程基准测试得分 高 (工具开源, 测试集可能公开) 定期 / 按需 开源 & 闭源 (代码能力) Aider Chat 项目 专业 (代码生成) 开发者 (评估代码编辑/生成能力) 国际 专注代码编辑任务
HELM Classic 全面基准测试 同 HELM 高 (同 HELM) 定期发布版本 开源 & 闭源 Stanford CRFM 综合 (Holistic) 学术研究者 (历史版本/特定视角) 国际 HELM 早期版本视图
EQBench 基准测试 EQBench 情商测试得分 中 (方法/部分题目可能公开) 定期 / 按需 开源 & 闭源 EQBench 项目 专业 (情商 EQ) 研究者、开发者 (评估模型情商) 国际 专注情商能力
LiveBench.ai 动态/真实世界基准 动态/真实世界任务表现 中 (方法可能公开, 动态性增加复现难度) 频繁 / "Live" 开源 & 闭源 Together AI / 学术合作者 综合 (真实世界表现) 研究者、开发者 (评估真实世界适应性) 国际 强调动态场景
Gorilla Leaderboard 基准测试 API 调用准确率 (多种类型API) 高 (学术项目, 方法/数据可能公开) 定期 / 按需 开源 & 闭源 (支持API调用) UC Berkeley 专业 (API / 工具调用) 研究者、开发者 (评估模型工具/API使用能力) 国际 专注工具使用
AlpacaEval 自动评估 Elo评分 (基于模型自动评估, 如GPT-4打分) 高 (代码、方法公开) 定期 / 按需 主要开源 (指令遵循模型) Stanford (Tatsu Lab) 综合 (指令遵循质量 - 相对) 研究者、开发者 (评估指令遵循质量, 自动评估) 国际 基于模型自身打分
MTEB Leaderboard 基准测试 多项文本嵌入任务得分 (分类、检索等) 高 (框架、代码、数据公开) 频繁 主要开源 (嵌入模型) Hugging Face / MTEB 社区 专业 (文本嵌入质量) 研究者、开发者 (评估文本嵌入模型) 国际 专注嵌入模型
EvalPlus Leaderboard 编程基准测试 HumanEval+ 通过率 高 (框架、方法公开) 定期 / 按需 开源 & 闭源 (代码能力) EvalPlus 项目 专业 (代码生成 - 鲁棒性) 研究者、开发者 (评估代码生成鲁棒性) 国际 强化代码评测
国内榜单
SuperCLUE 基准测试, 含人工评估 总分 (含开放题、选择题、多维度能力) 中 (方法概述, 部分数据/评估细节不公开) 定期更新 开源 & 闭源, 侧重中文 CLUE Org 综合 (中文特性) 国内开发者、企业、研究者 (中文综合能力对比) 国内 国内代表性综合榜单
FlagEval (智源指数) 基准测试 FlagEval 评测集得分 (多维度) 中/高 (官方机构, 方法有文档, 细节可能内部) 定期更新 开源 & 闭源, 侧重中文 BAAI 综合 国内研究者、开发者 (体系化能力评估) 国内 官方背景,体系化评测
C-Eval 基准测试 C-Eval 各科目平均准确率 高 (数据集、论文公开) 基准固定, 榜单随测试更新 开源 & 闭源 C-Eval 团队 专业 (中文知识与推理) 研究者、开发者 (评估中文核心知识与推理) 国内 专注中文核心知识
OpenCompass (司南) 大规模基准测试 上百种数据集上的综合得分 (覆盖极广) 高 (平台开源, 方法/数据集公开) 定期更新 开源 & 闭源, 侧重中文 OpenCompass 社区 综合 (极全面) 国内研究者、开发者 (极全面、多维度对比) 国内 开放评测体系,覆盖广
Open Chinese LLM Leaderboard 基准测试 Avg(C-Eval, CMMLU, Gaokao等中文基准) 高 (方法、数据、代码基本公开) 频繁 主要开源中文模型 BAAI / 社区 (HF托管) 综合 (中文基准) 开源社区、开发者 (追踪中文开源模型) 国内 HF 上的中文开源榜
SciHorizon 模型列表 平台内测试 / 展示 平台内任务表现 (具体指标不明确) 低 (平台内部展示, 评估细节不公开) 随平台更新 开源 & 闭源 (平台上线模型) 紫为云 平台内表现 / 综合 平台用户 (了解平台可用模型) 国内 更像模型平台展示
CMMLU 基准测试 CMMLU 各科目平均准确率 高 (数据集、论文公开) 基准固定, 榜单随测试更新 开源 & 闭源 项目作者 专业 (中文多任务理解) 研究者、开发者 (评估中文多任务理解) 国内 重要中文理解基准