API 网关与路由

最后更新：2026-06-08 数据来源：data/infrastructure.yaml 自动生成

💰 为什么要用 API 网关？

对个人/小团队来说，API 网关解决的核心问题是省钱。

场景：你的 Agent 一天调用 1000 次 LLM，其中 800 次是简单问答，200 次是复杂推理。

方案	简单任务 (800次)	复杂任务 (200次)	日成本
全用 GPT-5.5	800 × $0.015 = $12	200 × $0.075 = $15	$27
路由：简单用 nano，复杂用 5.5	800 × $0.001 = $0.8	200 × $0.075 = $15	$15.8

省了 41%，而且简单任务的质量几乎没有下降。

[!TIP] 什么时候不需要网关？

只用一个模型供应商 → 直接调 API

一天调用量 < 100 次 → 不值得折腾

所有任务复杂度差不多 → 没有路由空间

📋 API 网关总览

📱 端侧推理

工具	Provider数	功能	核心亮点
Cloudflare AI Gateway	10+	边缘路由, 限流, 缓存	边缘节点低延迟多 Provider 支持限流/日志

🔀 代理

工具	Provider数	功能	核心亮点
✅ LiteLLM	100+	负载均衡, 故障转移, 限流, 缓存	统一 OpenAI 格式 100+ Provider 支持负载均衡/故障转移

📋 管理

工具	Provider数	功能	核心亮点
✅ OneAPI	50+	限流, 计费, 密钥分发	多渠道 Token 管理 Azure/OpenAI/国产模型限流/计费/密钥分发
✅ CC Switch	['Claude Code', 'Codex', 'Gemini CLI', 'OpenCode', 'Hermes Agent']	配置切换, 多工具管理, 跨平台	Claude Code/Codex/Gemini 统一管理跨平台桌面应用 Tauri 2 构建

🔗 聚合

工具	Provider数	功能	核心亮点
✅ one-api	-	-	国产多模型代理计费系统 37K Stars
OpenRouter	200+	自动路由, 按量付费	200+ 模型按用量付费自动路由最优 Provider
✅ new-api	50+	聚合分发, 计费, 限流	统一 OpenAI 兼容 API 多模型聚合分发国内生态首选

🚪 网关

工具	Provider数	功能	核心亮点
✅ Portkey	100+	可观测, 重试, Guardrails, A/B	可观测性自动重试/回退 Guardrails/缓存
✅ Kong	['通用 API + AI 插件']	限流, 负载均衡, 插件, 可观测	企业级 API 网关标准 AI 插件生态高性能/高可用
✅ Higress	['国内模型 + 国际模型']	AI路由, 限流, 缓存, Wasm插件	阿里云出品 AI 原生设计 Envoy 底座

🔄 多模型路由实战

核心思路：根据任务复杂度自动选择模型。

任务类型	推荐模型	价格 (输入/输出)
日常对话 / 简单问答	GPT-5.4-nano / DeepSeek-V4-Flash	$0.10 / $0.40
代码生成 / 文档撰写	GPT-5.4-mini / Claude Haiku 4	$0.40 / $1.60
复杂推理 / 系统设计	GPT-5.5 / Claude Opus 4	$5.00 / $25.00

用 LiteLLM 实现路由：

# pip install litellm
from litellm import completion

def smart_route(prompt: str, complexity: str = "simple"):
    """根据任务复杂度选择模型"""
    models = {
        "simple": "deepseek/deepseek-chat",   # $0.07/MTok
        "medium": "gpt-5.4-mini",             # $0.40/MTok
        "complex": "gpt-5.5",                 # $5.00/MTok
    }
    return completion(
        model=models[complexity],
        messages=[{"role": "user", "content": prompt}]
    )

# 简单任务 → 便宜模型
smart_route("今天天气怎么样？", "simple")

# 复杂任务 → 旗舰模型
smart_route("设计一个分布式任务调度系统", "complex")

[!TIP] 缓存是最大的省钱利器 如果你的 Agent 有大量重复 Context（如系统提示），开启 Prompt 缓存可以将月账单砍掉 50-80%。DeepSeek 的缓存命中价格仅 $0.004/MTok，比直接调用便宜 17 倍。

🌏 工具速查

工具	Stars	定位	适合谁
CC Switch	94K	桌面 AI 模型管理	本地实验，模型对比
one-api	37K	多模型统一代理	国内团队，多供应商
new-api	37K	one-api 增强版	需要更多功能
LiteLLM	15K	AI 多模型代理	开发者，自建路由
OpenRouter	—	云端多模型路由	不想自建，按量付费
Higress	8.5K	阿里云原生网关	阿里云用户
Kong	43K	企业级 API 网关	传统 API + AI 混合

更新频率：每季度更新 自动化：运行 python scripts/build_docs.py 从 YAML 重新渲染表格。