📊 安全评估框架
最后更新:2026-06-08 数据来源:
data/safety-and-compliance.yaml自动生成
🔬 安全评估:量化 AI 系统的安全性
安全评估的核心:用标准化基准测试衡量模型的安全性和对齐程度。
| 评估维度 | 评估内容 | 推荐工具 |
|---|---|---|
| 政府级合规 | 100+ 预构建评估项,Anthropic/DeepMind 采用 | Inspect |
| 学术研究 | 510 种有害行为,18 种对抗攻击方法 | HarmBench |
| 红队测试 | 漏洞扫描与攻击模拟 | Promptfoo / Garak |
| 内容审核 | 有害内容检测 | Llama Guard / OpenAI Moderation |
[!TIP] Inspect 是政府级安全评估的首选 英国 AI 安全研究所出品,100+ 预构建评估项,已被 Anthropic、DeepMind 等头部公司采用。
📋 安全评估工具总览
| 名称 | 简介 | 标签 | 亮点 |
|---|---|---|---|
| Inspect | 英国 AI 安全研究所评估框架,100+ 预构建评估项 | security, data-analysis, compliance | 英国 AISI 出品 100+ 预构建评估 Anthropic/DeepMind 采用 |
| HarmBench | AI 安全中心发布的标准化红队基准,510 种有害行为 | security, data-analysis, academic | 510 种有害行为 18 种对抗攻击方法 学术界标准基准 |
💡 工具对比
| 维度 | Inspect | HarmBench |
|---|---|---|
| 出品方 | 英国 AISI | AI 安全中心 |
| Stars | 1.2K | 900 |
| 评估项 | 100+ | 510 种有害行为 |
| 对抗攻击 | 内置 | 18 种方法 |
| 政府采用 | ✅ | ❌ |
| 学术采用 | ✅ | ✅ |
| 适用场景 | 政府级合规评估 | 学术安全研究 |
更新频率:每季度更新 自动化:运行
python scripts/build_docs.py从 YAML 重新渲染表格。