LLM 评测基准

最后更新：2026-06-08 数据来源：data/observability.yaml 自动生成

📈 LLM 评测：怎么知道模型好不好？

你的情况	推荐平台	理由
众包评测 / ELO 排名	LMSYS Chatbot Arena	最权威，社区驱动
开源 LLM 排行榜	Open LLM Leaderboard	HuggingFace 官方
多维度评测	HELM	斯坦福学术权威
LLM 评估框架	OpenAI Evals / DeepEval	自定义评估任务
国内评测	OpenCompass	国内最权威

[!TIP] LMSYS Chatbot Arena 是最权威的 LLM 评测 通过众包方式让用户盲测两个模型，生成 ELO 排名。目前已有 100+ 模型参与评测。

📋 LLM 评测工具总览

名称	简介	标签	亮点
OpenAI Evals	OpenAI 官方 LLM 评估框架，支持自定义评估任务	data-analysis, openai-compatible	18.6K Stars OpenAI 官方自定义评估
DeepEval	LLM 评估框架，支持 14+ 评估指标，单元测试风格	data-analysis, automation, observability	16K Stars 14+ 评估指标单元测试风格
OpenCompass	LLM 评估平台，支持 100+ 数据集，国内最权威	data-analysis, chinese	7K Stars 100+ 数据集国内最权威
AgentBench	ICLR 2024 论文，评估 LLM 作为 Agent 的能力	data-analysis, agent, academic	3.5K Stars ICLR 2024 Agent 评估
EvalScope	ModelScope 出品的 LLM 评估框架，支持自定义评估	data-analysis, open-source	2.9K Stars ModelScope 出品自定义评估
LMSYS Chatbot Arena	LLM 众包评测平台，ELO 排名	data-analysis	LLM 众包评测 ELO 排名最权威
Open LLM Leaderboard	HuggingFace 的开源 LLM 排行榜	data-analysis, open-source	HuggingFace 排行榜开源 LLM 评测社区驱动
HELM	斯坦福的 LLM 评估框架，多维度评测	data-analysis, academic	斯坦福评估框架多维度评测学术权威

🏛️ 评测分类

🔵 众包评测平台

平台	核心优势	适合谁
LMSYS Chatbot Arena	ELO 排名，最权威	模型选型
Open LLM Leaderboard	HuggingFace 官方	开源模型对比

🟢 学术评测框架

平台	Stars	核心优势	适合谁
HELM	-	斯坦福多维度评测	学术研究
OpenCompass	7K	国内最权威，100+ 数据集	国内评测
AgentBench	3.5K	ICLR 2024 Agent 评估	Agent 评测

🟡 自定义评估框架

平台	Stars	核心优势	适合谁
OpenAI Evals	18.6K	OpenAI 官方，自定义评估	开发者
DeepEval	16K	14+ 评估指标，单元测试风格	开发者

💡 评测指标说明

指标	含义	常用基准
MMLU	多任务语言理解	知识广度
HumanEval	代码生成	编程能力
MATH	数学推理	数学能力
ARC	科学推理	推理能力
ELO	众包排名	综合体验

更新频率：每季度更新 自动化：运行 python scripts/build_docs.py 从 YAML 重新渲染表格。