语言大模型

最后更新:2026-06-08 数据来源:各主流厂商官方文档实时抓取 + data/models.yaml 自动生成


🧭 旗舰大模型选型罗盘

面对 2026 年爆发式增长的模型矩阵,单纯对比参数已失去意义。我们总结了针对不同落地场景的最佳实战选型建议:

业务场景 / 架构需求 闭源旗舰 (性能天花板) 开源基座 (私有化) 极速低成本选项 特殊维度与极客备选
代码重构与系统设计 Claude Opus 4
(全局重构最优)
DeepSeek-V4-Pro
MiMo-V2.5-Pro
Claude Sonnet 4
Qwen3-Coder
Mistral Large 3
(主打远程工作流集成)
高频 Agent 与 API 调用 GPT-5.5 Instant MiMo-V2.5
Qwen3-235B
DeepSeek-V4-Flash
(每百万Token低于$0.1)
Gemini 3.5 Flash
强逻辑推理与数学计算 o3 DeepSeek-V4-Pro Phi-4 DeepSeek-R1
MiMo-7B-RL (端侧)
超大规模文档与财报解析 Gemini 3.5 Pro Llama 4 Scout (10M) Kimi K2-6 (长程优化) Claude Sonnet 4 (1M)
全模态交互与原生语音视觉 GPT-5.5 Pro GLM-5.1
混元 HY3
MiniMax M3 -

[!TIP] 关于 1M+ 超长上下文的落地警示 尽管模型厂商均标榜百万上下文,但在实际生产中,将全量代码丢入 Context 依然会引发"大海捞针"般的注意力衰减并消耗巨大 API 成本。高级 RAG + 128K 窗口依然是构建企业级应用的最优解。


📋 通用对话型模型总览

🌏 海外模型

模型与版本 核心参数 (上下文/输出) 价格 (入/出) 核心亮点 部署方式
🌏 GPT-5.5 Pro / Thinking
(API: gpt-5.5-pro-20260423)
In: 1M
Out: 128K
$5/$30 1M 上下文 + 128K 输出
Computer Use 原生支持
多级推理 (low/medium/high/xhigh)
☁️ 商业 API / 闭源
🌏 GPT-5.4 In: 128K
Out: 32K
$2/$8 高性价比编码模型
$2/MTok 输入
☁️ 商业 API / 闭源
🌏 GPT-5.5 Instant
(API: gpt-5.5-instant-20260505)
In: 128K
Out: 32K
$0.4/$1.6 日常任务高频使用
极低延迟与推理成本
☁️ 商业 API / 闭源
🌏 GPT-5.4-nano In: 128K
Out: 32K
$0.1/$0.4 超低延迟
极低成本
☁️ 商业 API / 闭源
🌏 Claude Opus 4.8
(API: claude-4-8-opus-20260528)
In: 1M
Out: 128K
$5/$25 1M 上下文 + 128K 输出
扩展+自适应推理
编码能力标杆
☁️ 商业 API / 闭源
🌏 Claude Sonnet 4.6
(API: claude-4-6-sonnet-20260215)
In: 1M
Out: 64K
$3/$15 1M 上下文 + 64K 输出
性价比最高
开发者首选
☁️ 商业 API / 闭源
🌏 Claude Haiku 4.5
(API: claude-4-5-haiku-20251022)
In: 200K
Out: 8K
$1/$5 200K 上下文
极低延迟
$1/$5 per MTok
☁️ 商业 API / 闭源
🌏 Gemini 3.5 Pro
(API: gemini-3.5-pro)
In: 2M
Out: 128K
未公布 2M 超长上下文
原生多模态与Deep Think
☁️ 商业 API / 闭源
🌏 Gemini 3.5 Flash
(API: gemini-3.5-flash)
In: 1M
Out: 64K
未公布 高频次Agent调用
高性价比多模态
☁️ 商业 API / 闭源
🌏 Grok 4 In: 128K
Out: 32K
未公布 实时全网搜索
Imagine API 图像生成
Voice API
☁️ 商业 API / 闭源
🌏 Cohere Command R3 In: 128K
Out: 8K
$2.5/$10 最高效的 RAG 召回
Citation 原生支持
企业级
☁️ 商业 API / 闭源
🌏 Mistral Vibe
(API: mistral-vibe)
In: 256K
Out: 8K
商业调用定价 原生支持 Work Mode
专研远程编码集成
替代 Le Chat 成为主力
☁️ 商业 API / 闭源
🌏 Llama 4 Maverick In: 1M
Out: 32K
开源自部署 400B MoE
1M 上下文
多模态
✅ 开源可部署
Llama 4
🌏 Llama 4 Scout In: 10M
Out: 32K
开源自部署 109B MoE
10M 超长上下文
vLLM 部署
✅ 开源可部署
Llama 4
🌏 Gemma 3 In: 128K
Out: 8K
开源自部署 1B-27B 多规格
128K 上下文
多模态
✅ 开源可部署
Gemma
🌏 Phi-4 In: 16K
Out: 16K
开源自部署 14B 参数
数学推理极强
端侧部署
✅ 开源可部署
MIT
🌏 Mistral Large 3
(API: mistral-large-3)
In: 256K
Out: 8K
开源自部署 675B MoE (41B 激活)
256K 超长上下文
原生多模态支持
✅ 开源可部署
Apache-2.0

🏯 国内模型

模型与版本 核心参数 (上下文/输出) 价格 (入/出) 核心亮点 部署方式
🏯 GLM-5.1 In: 128K
Out: 16K
未公布 智谱最新旗舰
全模态 (文本/视觉/图像/视频/语音)
GLM-5 系列最新
☁️ 商业 API / 闭源
🏯 Kimi K2-6 In: 128K
Out: 16K
未公布 超强长上下文
强化的代码推理
Agent 自主执行
☁️ 商业 API / 闭源
🏯 DeepSeek-V4-Pro
(API: deepseek-v4-pro)
In: 1M
Out: 384K
$0.435/$0.87 1.6T MoE (49B 激活)
1M 上下文, thinking 模式
384K 输出
✅ 开源可部署
Proprietary
🏯 DeepSeek-V4-Flash
(API: deepseek-v4-flash)
In: 1M
Out: 64K
$0.07/$0.28 284B MoE (13B 激活)
1M 上下文
极低成本 $0.004 cache hit
✅ 开源可部署
Proprietary
🏯 MiniMax M3 In: 1M
Out: 64K
未公布 MSA 架构
1M 上下文
Coding/Agentic 前沿
☁️ 商业 API / 闭源
🏯 腾讯混元 HY3 In: 256K
Out: 16K
免费/低价 文本/图像/视频/3D 全模态
MoE 架构
☁️ 商业 API / 闭源
🏯 Qwen3.7-Plus
(API: qwen3.7-plus)
In: 128K
Out: 8K
商业调用定价 专精 GUI 导航与屏幕感知
AndroidWorld 霸榜
纯 API 商业调用
☁️ 商业 API / 闭源
🏯 Qwen3.7-Max
(API: qwen3.7-max)
In: 128K
Out: 8K
商业调用定价 极致的中文与逻辑推理
长程上下文强关联
☁️ 商业 API / 闭源
🏯 Qwen3-Coder-480B In: 128K
Out: 16K
开源自部署 480B MoE 代码专精
开源代码模型标杆
✅ 开源可部署
Apache-2.0
🏯 ERNIE (文心一言) In: 128K
Out: 8K
免费/低价 千帆 Agent 平台
MCP 支持
百度搜索增强
☁️ 商业 API / 闭源
🏯 百川 M3 Plus In: 128K
Out: 8K
免费 免费使用
中文优化
☁️ 商业 API / 闭源
🏯 讯飞星火 4.0 In: 128K
Out: 8K
免费/低价 教育场景优化
语音能力突出
☁️ 商业 API / 闭源
🏯 Step 3 In: 128K
Out: 16K
未公布 Step Router 智能路由
Pro+Flash 双引擎
☁️ 商业 API / 闭源
🏯 DeepSeek-R1 In: 128K
Out: 64K
开源自部署 671B MoE
开源推理标杆
MIT 许可
✅ 开源可部署
MIT
🏯 MiMo-V2.5-Pro
(API: mimo-v2.5-pro)
In: 1M
Out: 64K
开源自部署 / API调用 1.02T 参数 MoE 架构
1M 超长上下文支持
Agent/Coding 开源综合第一
✅ 开源可部署
MIT
🏯 MiMo-V2.5 (基础版) In: 128K
Out: 16K
开源自部署 Agent 能力前沿
Pro/Omni/Flash 多版本
开源
✅ 开源可部署
Apache-2.0
🏯 MiMo-7B-RL In: 128K
Out: 16K
开源自部署 7B 参数
AIME 2024: 80.1 超 DeepSeek R1
小模型推理标杆
✅ 开源可部署
Apache-2.0
🏯 MiniCPM4-8B In: 128K
Out: 8K
开源自部署 8B 端侧部署
Apache 2.0
Ollama 支持
✅ 开源可部署
Apache-2.0

⚡ 推理能力速查

能力维度 顶级闭源 顶级开源 端侧小模型
数学推理 o3 DeepSeek-R1 MiMo-7B-RL
代码生成 Claude Opus 4 Qwen3-Coder-480B Phi-4
Agent 执行 GPT-5.5 MiMo-V2.5-Pro
长上下文 Gemini 3.5 (2M) Llama 4 Scout (10M)
中文能力 DeepSeek-V4 / Qwen3 MiniCPM4-8B
多模态 GPT-5.5 Pro GLM-5.1

更新频率:每季度更新,重大发布即时更新。 自动化:运行 python scripts/build_docs.py 从 YAML 重新渲染表格。