📊 安全评估框架

最后更新：2026-06-08 数据来源：data/safety-and-compliance.yaml 自动生成

🔬 安全评估：量化 AI 系统的安全性

安全评估的核心：用标准化基准测试衡量模型的安全性和对齐程度。

评估维度	评估内容	推荐工具
政府级合规	100+ 预构建评估项，Anthropic/DeepMind 采用	Inspect
学术研究	510 种有害行为，18 种对抗攻击方法	HarmBench
红队测试	漏洞扫描与攻击模拟	Promptfoo / Garak
内容审核	有害内容检测	Llama Guard / OpenAI Moderation

[!TIP] Inspect 是政府级安全评估的首选 英国 AI 安全研究所出品，100+ 预构建评估项，已被 Anthropic、DeepMind 等头部公司采用。

名称	简介	标签	亮点
Inspect	英国 AI 安全研究所评估框架，100+ 预构建评估项	security, data-analysis, compliance	英国 AISI 出品 100+ 预构建评估 Anthropic/DeepMind 采用
HarmBench	AI 安全中心发布的标准化红队基准，510 种有害行为	security, data-analysis, academic	510 种有害行为 18 种对抗攻击方法学术界标准基准

更新频率：每季度更新 自动化：运行 python scripts/build_docs.py 从 YAML 重新渲染表格。