大语言模型 (LLM) 榜单对比

榜单名称 (点击跳转)	测评方式	核心指标/任务	透明度	榜单更新周期	收录模型类型	背靠机构	测评维度	受众/目标	地区	备注
国际榜单
Open LLM Leaderboard	基准测试	Avg(ARC, HellaSwag, MMLU, TruthfulQA, Wino, GSM8k)	高 (方法、数据、代码基本公开)	频繁	主要开源	Hugging Face	综合	开源社区、开发者 (追踪开源进展)	国际	更新快
HELM	全面基准测试	多场景下的准确性、鲁棒性、公平性、效率等7大指标	高 (方法、数据详细, 部分代码公开)	定期发布版本	开源 & 闭源	Stanford CRFM	综合 (Holistic)	学术研究者 (全面、严谨评估)	国际	非常全面，学术性强
Chatbot Arena	人类偏好	Elo评分 (基于人类配对投票)	中 (方法公开, 原始投票数据不公开)	频繁	开源 & 闭源 (聊天模型)	LMSYS ORG	综合对话能力 / 人类偏好	普通用户、开发者 (评估实际对话体验)	国际	侧重对话体验
Vellum LLM Leaderboard	基准测试	指令遵循、推理、写作质量等 (具体基准可能内部)	中/低 (商业公司, 方法可能概述)	定期 / 不明确	主要闭源 / API模型	Vellum.ai	综合	开发者、企业用户 (比较API模型实用性)	国际	商业公司维护
Artificial Analysis Models	基准测试	质量 (基准测试)、延迟、成本	低 (商业分析, 方法细节不公开)	定期更新	主要闭源 / API模型	Artificial Analysis	综合质量、性能、成本	企业决策者、开发者 (评估API性能与成本)	国际	关注实用性指标
Scale Leaderboard	基准测试 & 人工评估	基准测试与人工评估得分 (具体视榜单)	中/低 (依赖内部评估方法)	不明确	主要闭源 / API模型	Scale AI	综合 / 特定任务	企业用户、开发者 (模型质量与特定任务表现)	国际	强于人工评估
Aider Chat Leaderboard	编程基准测试	Aider 编程基准测试得分	高 (工具开源, 测试集可能公开)	定期 / 按需	开源 & 闭源 (代码能力)	Aider Chat 项目	专业 (代码生成)	开发者 (评估代码编辑/生成能力)	国际	专注代码编辑任务
HELM Classic	全面基准测试	同 HELM	高 (同 HELM)	定期发布版本	开源 & 闭源	Stanford CRFM	综合 (Holistic)	学术研究者 (历史版本/特定视角)	国际	HELM 早期版本视图
EQBench	基准测试	EQBench 情商测试得分	中 (方法/部分题目可能公开)	定期 / 按需	开源 & 闭源	EQBench 项目	专业 (情商 EQ)	研究者、开发者 (评估模型情商)	国际	专注情商能力
LiveBench.ai	动态/真实世界基准	动态/真实世界任务表现	中 (方法可能公开, 动态性增加复现难度)	频繁 / "Live"	开源 & 闭源	Together AI / 学术合作者	综合 (真实世界表现)	研究者、开发者 (评估真实世界适应性)	国际	强调动态场景
Gorilla Leaderboard	基准测试	API 调用准确率 (多种类型API)	高 (学术项目, 方法/数据可能公开)	定期 / 按需	开源 & 闭源 (支持API调用)	UC Berkeley	专业 (API / 工具调用)	研究者、开发者 (评估模型工具/API使用能力)	国际	专注工具使用
AlpacaEval	自动评估	Elo评分 (基于模型自动评估, 如GPT-4打分)	高 (代码、方法公开)	定期 / 按需	主要开源 (指令遵循模型)	Stanford (Tatsu Lab)	综合 (指令遵循质量 - 相对)	研究者、开发者 (评估指令遵循质量, 自动评估)	国际	基于模型自身打分
MTEB Leaderboard	基准测试	多项文本嵌入任务得分 (分类、检索等)	高 (框架、代码、数据公开)	频繁	主要开源 (嵌入模型)	Hugging Face / MTEB 社区	专业 (文本嵌入质量)	研究者、开发者 (评估文本嵌入模型)	国际	专注嵌入模型
EvalPlus Leaderboard	编程基准测试	HumanEval+ 通过率	高 (框架、方法公开)	定期 / 按需	开源 & 闭源 (代码能力)	EvalPlus 项目	专业 (代码生成 - 鲁棒性)	研究者、开发者 (评估代码生成鲁棒性)	国际	强化代码评测
国内榜单
SuperCLUE	基准测试, 含人工评估	总分 (含开放题、选择题、多维度能力)	中 (方法概述, 部分数据/评估细节不公开)	定期更新	开源 & 闭源, 侧重中文	CLUE Org	综合 (中文特性)	国内开发者、企业、研究者 (中文综合能力对比)	国内	国内代表性综合榜单
FlagEval (智源指数)	基准测试	FlagEval 评测集得分 (多维度)	中/高 (官方机构, 方法有文档, 细节可能内部)	定期更新	开源 & 闭源, 侧重中文	BAAI	综合	国内研究者、开发者 (体系化能力评估)	国内	官方背景，体系化评测
C-Eval	基准测试	C-Eval 各科目平均准确率	高 (数据集、论文公开)	基准固定, 榜单随测试更新	开源 & 闭源	C-Eval 团队	专业 (中文知识与推理)	研究者、开发者 (评估中文核心知识与推理)	国内	专注中文核心知识
OpenCompass (司南)	大规模基准测试	上百种数据集上的综合得分 (覆盖极广)	高 (平台开源, 方法/数据集公开)	定期更新	开源 & 闭源, 侧重中文	OpenCompass 社区	综合 (极全面)	国内研究者、开发者 (极全面、多维度对比)	国内	开放评测体系，覆盖广
Open Chinese LLM Leaderboard	基准测试	Avg(C-Eval, CMMLU, Gaokao等中文基准)	高 (方法、数据、代码基本公开)	频繁	主要开源中文模型	BAAI / 社区 (HF托管)	综合 (中文基准)	开源社区、开发者 (追踪中文开源模型)	国内	HF 上的中文开源榜
SciHorizon 模型列表	平台内测试 / 展示	平台内任务表现 (具体指标不明确)	低 (平台内部展示, 评估细节不公开)	随平台更新	开源 & 闭源 (平台上线模型)	紫为云	平台内表现 / 综合	平台用户 (了解平台可用模型)	国内	更像模型平台展示
CMMLU	基准测试	CMMLU 各科目平均准确率	高 (数据集、论文公开)	基准固定, 榜单随测试更新	开源 & 闭源	项目作者	专业 (中文多任务理解)	研究者、开发者 (评估中文多任务理解)	国内	重要中文理解基准