LLM 评测基准

最后更新:2026-06-08 数据来源:data/observability.yaml 自动生成


📈 LLM 评测:怎么知道模型好不好?

你的情况 推荐平台 理由
众包评测 / ELO 排名 LMSYS Chatbot Arena 最权威,社区驱动
开源 LLM 排行榜 Open LLM Leaderboard HuggingFace 官方
多维度评测 HELM 斯坦福学术权威
LLM 评估框架 OpenAI Evals / DeepEval 自定义评估任务
国内评测 OpenCompass 国内最权威

[!TIP] LMSYS Chatbot Arena 是最权威的 LLM 评测 通过众包方式让用户盲测两个模型,生成 ELO 排名。目前已有 100+ 模型参与评测。


📋 LLM 评测工具总览

名称 简介 标签 亮点
OpenAI Evals OpenAI 官方 LLM 评估框架,支持自定义评估任务 data-analysis, openai-compatible 18.6K Stars
OpenAI 官方
自定义评估
DeepEval LLM 评估框架,支持 14+ 评估指标,单元测试风格 data-analysis, automation, observability 16K Stars
14+ 评估指标
单元测试风格
OpenCompass LLM 评估平台,支持 100+ 数据集,国内最权威 data-analysis, chinese 7K Stars
100+ 数据集
国内最权威
AgentBench ICLR 2024 论文,评估 LLM 作为 Agent 的能力 data-analysis, agent, academic 3.5K Stars
ICLR 2024
Agent 评估
EvalScope ModelScope 出品的 LLM 评估框架,支持自定义评估 data-analysis, open-source 2.9K Stars
ModelScope 出品
自定义评估
LMSYS Chatbot Arena LLM 众包评测平台,ELO 排名 data-analysis LLM 众包评测
ELO 排名
最权威
Open LLM Leaderboard HuggingFace 的开源 LLM 排行榜 data-analysis, open-source HuggingFace 排行榜
开源 LLM 评测
社区驱动
HELM 斯坦福的 LLM 评估框架,多维度评测 data-analysis, academic 斯坦福评估框架
多维度评测
学术权威

🏛️ 评测分类

🔵 众包评测平台

平台 核心优势 适合谁
LMSYS Chatbot Arena ELO 排名,最权威 模型选型
Open LLM Leaderboard HuggingFace 官方 开源模型对比

🟢 学术评测框架

平台 Stars 核心优势 适合谁
HELM - 斯坦福多维度评测 学术研究
OpenCompass 7K 国内最权威,100+ 数据集 国内评测
AgentBench 3.5K ICLR 2024 Agent 评估 Agent 评测

🟡 自定义评估框架

平台 Stars 核心优势 适合谁
OpenAI Evals 18.6K OpenAI 官方,自定义评估 开发者
DeepEval 16K 14+ 评估指标,单元测试风格 开发者

💡 评测指标说明

指标 含义 常用基准
MMLU 多任务语言理解 知识广度
HumanEval 代码生成 编程能力
MATH 数学推理 数学能力
ARC 科学推理 推理能力
ELO 众包排名 综合体验

更新频率:每季度更新 自动化:运行 python scripts/build_docs.py 从 YAML 重新渲染表格。