API 网关与路由

最后更新:2026-06-08 数据来源:data/infrastructure.yaml 自动生成


💰 为什么要用 API 网关?

对个人/小团队来说,API 网关解决的核心问题是省钱

场景:你的 Agent 一天调用 1000 次 LLM,其中 800 次是简单问答,200 次是复杂推理。

方案 简单任务 (800次) 复杂任务 (200次) 日成本
全用 GPT-5.5 800 × $0.015 = $12 200 × $0.075 = $15 $27
路由:简单用 nano,复杂用 5.5 800 × $0.001 = $0.8 200 × $0.075 = $15 $15.8

省了 41%,而且简单任务的质量几乎没有下降。

[!TIP] 什么时候不需要网关?

  • 只用一个模型供应商 → 直接调 API
  • 一天调用量 < 100 次 → 不值得折腾
  • 所有任务复杂度差不多 → 没有路由空间

📋 API 网关总览

📱 端侧推理

工具 Provider数 功能 核心亮点
Cloudflare AI Gateway 10+ 边缘路由, 限流, 缓存 边缘节点低延迟
多 Provider 支持
限流/日志

🔀 代理

工具 Provider数 功能 核心亮点
LiteLLM 100+ 负载均衡, 故障转移, 限流, 缓存 统一 OpenAI 格式
100+ Provider 支持
负载均衡/故障转移

📋 管理

工具 Provider数 功能 核心亮点
OneAPI 50+ 限流, 计费, 密钥分发 多渠道 Token 管理
Azure/OpenAI/国产模型
限流/计费/密钥分发
CC Switch ['Claude Code', 'Codex', 'Gemini CLI', 'OpenCode', 'Hermes Agent'] 配置切换, 多工具管理, 跨平台 Claude Code/Codex/Gemini 统一管理
跨平台桌面应用
Tauri 2 构建

🔗 聚合

工具 Provider数 功能 核心亮点
one-api - - 国产多模型代理
计费系统
37K Stars
OpenRouter 200+ 自动路由, 按量付费 200+ 模型
按用量付费
自动路由最优 Provider
new-api 50+ 聚合分发, 计费, 限流 统一 OpenAI 兼容 API
多模型聚合分发
国内生态首选

🚪 网关

工具 Provider数 功能 核心亮点
Portkey 100+ 可观测, 重试, Guardrails, A/B 可观测性
自动重试/回退
Guardrails/缓存
Kong ['通用 API + AI 插件'] 限流, 负载均衡, 插件, 可观测 企业级 API 网关标准
AI 插件生态
高性能/高可用
Higress ['国内模型 + 国际模型'] AI路由, 限流, 缓存, Wasm插件 阿里云出品
AI 原生设计
Envoy 底座

🔄 多模型路由实战

核心思路:根据任务复杂度自动选择模型。

任务类型 推荐模型 价格 (输入/输出)
日常对话 / 简单问答 GPT-5.4-nano / DeepSeek-V4-Flash $0.10 / $0.40
代码生成 / 文档撰写 GPT-5.4-mini / Claude Haiku 4 $0.40 / $1.60
复杂推理 / 系统设计 GPT-5.5 / Claude Opus 4 $5.00 / $25.00

用 LiteLLM 实现路由

# pip install litellm
from litellm import completion

def smart_route(prompt: str, complexity: str = "simple"):
    """根据任务复杂度选择模型"""
    models = {
        "simple": "deepseek/deepseek-chat",   # $0.07/MTok
        "medium": "gpt-5.4-mini",             # $0.40/MTok
        "complex": "gpt-5.5",                 # $5.00/MTok
    }
    return completion(
        model=models[complexity],
        messages=[{"role": "user", "content": prompt}]
    )

# 简单任务 → 便宜模型
smart_route("今天天气怎么样?", "simple")

# 复杂任务 → 旗舰模型
smart_route("设计一个分布式任务调度系统", "complex")

[!TIP] 缓存是最大的省钱利器 如果你的 Agent 有大量重复 Context(如系统提示),开启 Prompt 缓存可以将月账单砍掉 50-80%。DeepSeek 的缓存命中价格仅 $0.004/MTok,比直接调用便宜 17 倍。

🌏 工具速查

工具 Stars 定位 适合谁
CC Switch 94K 桌面 AI 模型管理 本地实验,模型对比
one-api 37K 多模型统一代理 国内团队,多供应商
new-api 37K one-api 增强版 需要更多功能
LiteLLM 15K AI 多模型代理 开发者,自建路由
OpenRouter 云端多模型路由 不想自建,按量付费
Higress 8.5K 阿里云原生网关 阿里云用户
Kong 43K 企业级 API 网关 传统 API + AI 混合

更新频率:每季度更新 自动化:运行 python scripts/build_docs.py 从 YAML 重新渲染表格。