语言大模型

最后更新：2026-06-08 数据来源：各主流厂商官方文档实时抓取 + data/models.yaml 自动生成

🧭 旗舰大模型选型罗盘

面对 2026 年爆发式增长的模型矩阵，单纯对比参数已失去意义。我们总结了针对不同落地场景的最佳实战选型建议：

业务场景 / 架构需求	闭源旗舰 (性能天花板)	开源基座 (私有化)	极速低成本选项	特殊维度与极客备选
代码重构与系统设计	Claude Opus 4 (全局重构最优)	DeepSeek-V4-Pro MiMo-V2.5-Pro	Claude Sonnet 4 Qwen3-Coder	Mistral Large 3 (主打远程工作流集成)
高频 Agent 与 API 调用	GPT-5.5 Instant	MiMo-V2.5 Qwen3-235B	DeepSeek-V4-Flash (每百万Token低于$0.1)	Gemini 3.5 Flash
强逻辑推理与数学计算	o3	DeepSeek-V4-Pro	Phi-4	DeepSeek-R1 MiMo-7B-RL (端侧)
超大规模文档与财报解析	Gemini 3.5 Pro	Llama 4 Scout (10M)	Kimi K2-6 (长程优化)	Claude Sonnet 4 (1M)
全模态交互与原生语音视觉	GPT-5.5 Pro	GLM-5.1 混元 HY3	MiniMax M3	-

[!TIP] 关于 1M+ 超长上下文的落地警示 尽管模型厂商均标榜百万上下文，但在实际生产中，将全量代码丢入 Context 依然会引发"大海捞针"般的注意力衰减并消耗巨大 API 成本。高级 RAG + 128K 窗口依然是构建企业级应用的最优解。

📋 通用对话型模型总览

🌏 海外模型

模型与版本	核心参数 (上下文/输出)	价格 (入/出)	核心亮点	部署方式
🌏 GPT-5.5 Pro / Thinking (API: `gpt-5.5-pro-20260423`)	In: 1M Out: 128K	$5/$30	1M 上下文 + 128K 输出 Computer Use 原生支持多级推理 (low/medium/high/xhigh)	☁️ 商业 API / 闭源
🌏 GPT-5.4	In: 128K Out: 32K	$2/$8	高性价比编码模型 $2/MTok 输入	☁️ 商业 API / 闭源
🌏 GPT-5.5 Instant (API: `gpt-5.5-instant-20260505`)	In: 128K Out: 32K	$0.4/$1.6	日常任务高频使用极低延迟与推理成本	☁️ 商业 API / 闭源
🌏 GPT-5.4-nano	In: 128K Out: 32K	$0.1/$0.4	超低延迟极低成本	☁️ 商业 API / 闭源
🌏 Claude Opus 4.8 (API: `claude-4-8-opus-20260528`)	In: 1M Out: 128K	$5/$25	1M 上下文 + 128K 输出扩展+自适应推理编码能力标杆	☁️ 商业 API / 闭源
🌏 Claude Sonnet 4.6 (API: `claude-4-6-sonnet-20260215`)	In: 1M Out: 64K	$3/$15	1M 上下文 + 64K 输出性价比最高开发者首选	☁️ 商业 API / 闭源
🌏 Claude Haiku 4.5 (API: `claude-4-5-haiku-20251022`)	In: 200K Out: 8K	$1/$5	200K 上下文极低延迟 $1/$5 per MTok	☁️ 商业 API / 闭源
🌏 Gemini 3.5 Pro (API: `gemini-3.5-pro`)	In: 2M Out: 128K	未公布	2M 超长上下文原生多模态与Deep Think	☁️ 商业 API / 闭源
🌏 Gemini 3.5 Flash (API: `gemini-3.5-flash`)	In: 1M Out: 64K	未公布	高频次Agent调用高性价比多模态	☁️ 商业 API / 闭源
🌏 Grok 4	In: 128K Out: 32K	未公布	实时全网搜索 Imagine API 图像生成 Voice API	☁️ 商业 API / 闭源
🌏 Cohere Command R3	In: 128K Out: 8K	$2.5/$10	最高效的 RAG 召回 Citation 原生支持企业级	☁️ 商业 API / 闭源
🌏 Mistral Vibe (API: `mistral-vibe`)	In: 256K Out: 8K	商业调用定价	原生支持 Work Mode 专研远程编码集成替代 Le Chat 成为主力	☁️ 商业 API / 闭源
🌏 Llama 4 Maverick	In: 1M Out: 32K	开源自部署	400B MoE 1M 上下文多模态	✅ 开源可部署 `Llama 4`
🌏 Llama 4 Scout	In: 10M Out: 32K	开源自部署	109B MoE 10M 超长上下文 vLLM 部署	✅ 开源可部署 `Llama 4`
🌏 Gemma 3	In: 128K Out: 8K	开源自部署	1B-27B 多规格 128K 上下文多模态	✅ 开源可部署 `Gemma`
🌏 Phi-4	In: 16K Out: 16K	开源自部署	14B 参数数学推理极强端侧部署	✅ 开源可部署 `MIT`
🌏 Mistral Large 3 (API: `mistral-large-3`)	In: 256K Out: 8K	开源自部署	675B MoE (41B 激活) 256K 超长上下文原生多模态支持	✅ 开源可部署 `Apache-2.0`

🏯 国内模型

模型与版本	核心参数 (上下文/输出)	价格 (入/出)	核心亮点	部署方式
🏯 GLM-5.1	In: 200000 Out: 128000	未公布	最新旗舰 Coding 能力对齐 Claude Opus 4.6 长程任务显著提升，可自主工作长达 8 小时	☁️ 商业 API / 闭源
🏯 Kimi K2-6	In: 128K Out: 16K	未公布	超强长上下文强化的代码推理 Agent 自主执行	☁️ 商业 API / 闭源
🏯 DeepSeek-V4-Pro (API: `deepseek-v4-pro`)	In: 1M Out: 384K	$0.435/$0.87	1.6T MoE (49B 激活) 1M 上下文, thinking 模式 384K 输出	✅ 开源可部署 `Proprietary`
🏯 DeepSeek-V4-Flash (API: `deepseek-v4-flash`)	In: 1M Out: 64K	$0.07/$0.28	284B MoE (13B 激活) 1M 上下文极低成本 $0.004 cache hit	✅ 开源可部署 `Proprietary`
🏯 MiniMax M3	In: 1M Out: 64K	未公布	MSA 架构 1M 上下文 Coding/Agentic 前沿	☁️ 商业 API / 闭源
🏯 腾讯混元 HY3	In: 256K Out: 16K	免费/低价	文本/图像/视频/3D 全模态 MoE 架构	☁️ 商业 API / 闭源
🏯 Qwen3.7-Plus (API: `qwen3.7-plus`)	In: 128K Out: 8K	商业调用定价	专精 GUI 导航与屏幕感知 AndroidWorld 霸榜纯 API 商业调用	☁️ 商业 API / 闭源
🏯 Qwen3.7-Max (API: `qwen3.7-max`)	In: 128K Out: 8K	商业调用定价	极致的中文与逻辑推理长程上下文强关联	☁️ 商业 API / 闭源
🏯 Qwen3-Coder-480B	In: 128K Out: 16K	开源自部署	480B MoE 代码专精开源代码模型标杆	✅ 开源可部署 `Apache-2.0`
🏯 ERNIE (文心一言)	In: 128K Out: 8K	免费/低价	千帆 Agent 平台 MCP 支持百度搜索增强	☁️ 商业 API / 闭源
🏯 百川 M3 Plus	In: 128K Out: 8K	免费	免费使用中文优化	☁️ 商业 API / 闭源
🏯 讯飞星火 4.0	In: 128K Out: 8K	免费/低价	教育场景优化语音能力突出	☁️ 商业 API / 闭源
🏯 Step 3	In: 128K Out: 16K	未公布	Step Router 智能路由 Pro+Flash 双引擎	☁️ 商业 API / 闭源
🏯 DeepSeek-R1	In: 128K Out: 64K	开源自部署	671B MoE 开源推理标杆 MIT 许可	✅ 开源可部署 `MIT`
🏯 MiMo-V2.5-Pro (API: `mimo-v2.5-pro`)	In: 1M Out: 64K	开源自部署 / API调用	1.02T 参数 MoE 架构 1M 超长上下文支持 Agent/Coding 开源综合第一	✅ 开源可部署 `MIT`
🏯 MiMo-V2.5 (基础版)	In: 128K Out: 16K	开源自部署	Agent 能力前沿 Pro/Omni/Flash 多版本开源	✅ 开源可部署 `Apache-2.0`
🏯 MiMo-7B-RL	In: 128K Out: 16K	开源自部署	7B 参数 AIME 2024: 80.1 超 DeepSeek R1 小模型推理标杆	✅ 开源可部署 `Apache-2.0`
🏯 MiniCPM4-8B	In: 128K Out: 8K	开源自部署	8B 端侧部署 Apache 2.0 Ollama 支持	✅ 开源可部署 `Apache-2.0`

⚡ 推理能力速查

能力维度	顶级闭源	顶级开源	端侧小模型
数学推理	o3	DeepSeek-R1	MiMo-7B-RL
代码生成	Claude Opus 4	Qwen3-Coder-480B	Phi-4
Agent 执行	GPT-5.5	MiMo-V2.5-Pro	—
长上下文	Gemini 3.5 (2M)	Llama 4 Scout (10M)	—
中文能力	—	DeepSeek-V4 / Qwen3	MiniCPM4-8B
多模态	GPT-5.5 Pro	GLM-5.1	—

更新频率：每季度更新，重大发布即时更新。 自动化：运行 python scripts/build_docs.py 从 YAML 重新渲染表格。