推理引擎与部署框架

最后更新:2026-06-08 数据来源:data/infrastructure.yaml 自动生成


🏗️ 本地部署实战

对个人开发者来说,最核心的问题是:我的显卡能跑什么模型?

显卡 显存 能跑的模型 (4-bit 量化) 推荐引擎
RTX 4090 24GB Qwen3-32B, Llama-3-70B (勉强) vLLM / Ollama
RTX 3090 24GB Qwen3-14B, DeepSeek-V4-16B Ollama / llama.cpp
RTX 4070 12GB Qwen3-8B, Phi-4-14B Ollama
Mac M4 Pro 24GB 统一 Qwen3-32B, Llama-3-70B (量化) Ollama / MLX
Mac M4 16GB 统一 Qwen3-14B, Phi-4-14B Ollama / MLX
CPU only Qwen3-8B (慢), Phi-4-mini llama.cpp

[!TIP] Mac 的统一内存是隐藏优势 Mac M4 Pro 的 24GB 统一内存可以全用于模型推理,实际可用显存比 RTX 4090 还多。跑 70B 模型用 Q4_K_M 量化,Mac 反而比 4090 更稳。

最简本地部署(Ollama)

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 一键运行
ollama run qwen3:14b          # 14B 模型,RTX 3090 可跑
ollama run deepseek-v4:16b    # DeepSeek 16B,中文优秀
ollama run phi4:14b            # Phi-4 14B,推理能力强

📋 推理引擎总览

☁️ 云端推理

引擎 语言 量化 最大模型 部署方式 核心亮点
vLLM Python AWQ, GPTQ, FP8, INT4 405B Docker, pip PagedAttention 连续批处理
多 LoRA 支持
OpenAI 兼容 API
SGLang Python AWQ, GPTQ, FP8 405B Docker, pip RadixAttention 高吞吐
结构化生成 (JSON/正则)
多模态支持
TensorRT-LLM C++/Python FP8, INT4, INT8 405B Docker, Triton NVIDIA GPU 深度优化
FP8/INT4 量化
推测解码
TGI (Text Generation Inference) Rust GPTQ, AWQ, bitsandbytes 70B Docker HuggingFace 生态集成
简单部署
Token 流式输出
LMDeploy Python/C++ W4A16, W8A16, KV-INT4 70B Docker, pip TurboMind 高吞吐
W4A16/KV Cache 量化
InternLM/Qwen/Llama 支持
xinference Python 取决于后端 405B Docker, pip 多后端 (vLLM/llama.cpp/TensorRT)
模型管理/分布式推理
OpenAI 兼容 API

💻 本地推理

引擎 语言 量化 最大模型 部署方式 核心亮点
Ollama Go GGUF 70B macOS, Linux, Windows 一键安装运行
REST API
模型库丰富
MLX LM - - - - Apple Silicon 优化
统一内存
5K Stars
LM Studio GGUF 70B macOS, Linux, Windows 图形界面
本地模型运行
内置模型搜索
GPT4All C++ GGUF 13B macOS, Linux, Windows 离线运行
简单易用
本地知识库
Jan TypeScript GGUF 70B macOS, Linux, Windows 开源桌面应用
本地模型运行
插件扩展
ExLlamaV2 Python/C++ EXL2, GPTQ, 2-8bit 70B Linux, Windows EXL2 混合精度量化 (2-8 bit)
24GB 显存跑 70B
速度极快
LocalAI Go GGUF, GPTQ 70B Docker, Linux, macOS 支持 LLM/语音/图像/视频
OpenAI 兼容 API
CPU/GPU 运行

📱 端侧推理

引擎 语言 量化 最大模型 部署方式 核心亮点
MLC-LLM Python/C++ Q4, Q8 70B 全平台, 移动端 通用 GPU 编译
全平台部署
高性能
Core ML Swift INT4, INT8 7B iOS, macOS Apple 设备原生优化
Neural Engine 加速
Swift 集成
ONNX Runtime C++/Python INT4, INT8, FP16 70B 全平台 跨平台推理
多硬件后端
生产级
WebLLM TypeScript Q4, Q8 7B 浏览器 浏览器端推理
WebGPU 加速
无需服务器
MNN C++ INT4, INT8, FP16 7B Android, iOS, 嵌入式 阿里出品
移动端优化
极致轻量

🚪 网关

引擎 语言 量化 最大模型 部署方式 核心亮点
llama.cpp C++ GGUF, Q4_K_M, Q5_K_M 70B 全平台 C++ 实现,无依赖
GGUF 量化格式
CPU/GPU 混合推理

⚡ 量化:花 5 分钟省 50% 显存

量化的核心取舍:用一点质量损失换巨大的显存节省

格式 精度 大小缩减 速度 质量损失 怎么用
FP8 8-bit ⭐⭐⭐⭐⭐ 极低 vLLM 直接支持
AWQ 4-bit ⭐⭐⭐⭐⭐ vLLM / AutoGPTQ
GPTQ 4-bit ⭐⭐⭐⭐ 兼容性最好
GGUF 2-8 bit 2-8× ⭐⭐⭐⭐ 可变 Ollama / llama.cpp 直接用
EXL2 2-6 bit 2-6× ⭐⭐⭐⭐⭐ 同大小最高 ExLlamaV2,极客玩家

[!TIP] 不知道选什么量化?

  • 用 Ollama → GGUF(ollama run 自动下载 GGUF)
  • 用 vLLM → AWQ 或 FP8(吞吐最高)
  • 用 ExLlamaV2 → EXL2(同显存塞更大模型)

量化对质量的影响有多大? 以 Qwen3-32B 为例:

量化 模型大小 MMLU 代码生成 数学推理
FP16 (原始) 64GB 78.5 82.3 71.2
AWQ-4bit 16GB 77.8 (-0.7) 81.5 (-0.8) 69.8 (-1.4)
GGUF-Q4 18GB 77.2 (-1.3) 80.9 (-1.4) 68.5 (-2.7)

[!TIP] 4-bit 量化的质量损失通常 < 2%,但显存节省 4 倍。除非你是做精度敏感的生产系统,否则 4-bit 完全够用。

🔥 2026 前沿:KV-Cache 与 MoE 部署

KV-Cache 优化:跑长上下文(32K+)时,KV-Cache 占用的显存比模型本身还多。

引擎 KV-Cache 策略 效果
vLLM PagedAttention 显存占用降低 40-60%
SGLang RadixAttention 多轮对话复用前缀 Cache,效果最佳
llama.cpp 量化 KV-Cache KV 也量化,进一步省显存

MoE 模型部署:MoE 模型(如 DeepSeek-V4-685B)总参数量巨大,但每次推理只激活部分 Expert。

显卡配置 能跑的 MoE 模型 策略
4×A100 (80GB) DeepSeek-V4-685B Expert 并行
2×A100 Mixtral-8x22B Expert 缓存 + 预加载
单卡 RTX 4090 Phi-4-MoE (激活 7B) 直接跑

更新频率:每季度更新 自动化:运行 python scripts/build_docs.py 从 YAML 重新渲染表格。