月度趋势
最后更新:2026-06-11
2026-06 本月高光
| 事件 |
说明 |
| OpenAI GPT-5.5 发布 |
旗舰,智能最强,Agent 编码/计算机使用/知识工作前沿 |
| Anthropic Claude Fable 5 & Mythos 5 发布 |
全新旗舰,1M 上下文,超强复杂推理与 Agentic 工作流 |
| Anthropic Claude Opus 4.8 发布 |
Opus 级升级,编码/Agent/专业工作全面增强 |
| Google Gemini 3.5 发布 |
3.5 Flash + 3.1 Pro,Agent 工作流前沿 |
| Apple WWDC 2026 |
Siri AI 重磅升级,Apple Intelligence 全面进化 |
| OpenAI ChatGPT "Superapp" 改版 |
"Chat is dead",全面转向编码/图像/应用生态 |
| GitHub Copilot 按量计费改革 |
用户对新定价体系反应强烈 |
| NotebookLM 升级 Gemini 3.5 |
云计算机+智能搜索源功能 |
主要模型版本(2026年6月最新)
| 厂商 |
最新旗舰 |
发布时间 |
关键特性 |
| OpenAI |
GPT-5.5 / GPT-5.5 Pro |
2026-04-24 |
智能最强,Agent 编码 SOTA,计算机使用 78.7%,知识工作 84.9% |
| Anthropic |
Claude Fable 5 |
2026-06-09 |
1M 上下文,Project Glasswing (Mythos 5),最强推理与长文本 Agent |
| Anthropic |
Claude Opus 4.8 |
2026-05-28 |
编码/Agent/专业工作全面增强,动态工作流,快速模式 2.5x |
| Google |
Gemini 3.5 Flash / 3.1 Pro |
2026 Q2 |
Agent 工作流前沿,长上下文 128K+,多模态 |
| DeepSeek |
V4-Pro / V4-Flash |
2026 Q1 |
1M 上下文,开源 MoE,高性价比 |
| 智谱 |
GLM-5.1 |
2026 Q1 |
全模态矩阵,中文优化 |
| 月之暗面 |
Kimi K2-6 |
2026 Q1 |
长程代码编写+Agent 自主执行增强 |
| MiniMax |
M3 |
2026 Q1 |
MSA 架构,1M 上下文,Coding/Agentic 前沿 |
| 小米 |
MiMo V2.5 系列 |
2026 Q1 |
Pro/Omni/TTS/Flash,Agent 能力前沿,开源 |
| Meta |
Llama 4 Maverick/Scout |
2026 Q1 |
Scout 10M 上下文,开源 |
| xAI |
Grok 4 |
2026 Q1 |
Imagine API + Voice API |
| 阿里 |
Qwen3-Coder-480B |
2026 Q1 |
Agent 级编程,MoE 架构 |
GPT-5.5 详细能力
| 评测 |
GPT-5.5 |
GPT-5.4 |
Claude Opus 4.7 |
Gemini 3.1 Pro |
| Terminal-Bench 2.0 |
82.7% |
75.1% |
69.4% |
68.5% |
| Expert-SWE (Internal) |
73.1% |
68.5% |
- |
- |
| GDPval (wins or ties) |
84.9% |
83.0% |
80.3% |
67.3% |
| OSWorld-Verified |
78.7% |
75.0% |
78.0% |
- |
| BrowseComp |
84.4% |
82.7% |
79.3% |
85.9% |
| FrontierMath Tier 1–3 |
51.7% |
47.6% |
43.8% |
36.9% |
核心优势:Agent 编码、计算机使用、知识工作、科学研究
Claude Fable 5 详细能力
| 特性 |
说明 |
| 1M Token Context |
最高支持一百万 Token 上下文输入,128K 输出 |
| 极致复杂推理 |
设计用于复杂软件工程、长程科研与 Agentic 闭环工作流 |
| Project Glasswing |
针对受信任机构定向开放的无限制版本 (Claude Mythos 5) |
| 安全护栏机制 |
内置强大分类器系统,智能路由高敏请求至安全隔离层 |
| API 定价 |
极具竞争力的前沿定价:$10/1M In, $50/1M Out |
核心优势:超长上下文推理、全栈代码工程、前沿安全架构
Claude Opus 4.8 详细能力
| 特性 |
说明 |
| 动态工作流 |
Claude Code 新功能,处理超大规模问题 |
| 快速模式 |
2.5x 速度,成本降低 3 倍 |
| Agent 可靠性 |
工具调用更高效,长任务一致性更强 |
| 编码能力 |
CursorBench 全面超越前代 |
| 专业工作 |
法律/金融/教育等领域表现突出 |
核心优势:Agent 可靠性、编码一致性、专业工作质量
Gemini 3.5 详细能力
| 模型 |
定位 |
关键特性 |
| Gemini 3.5 Flash |
Agent 工作流旗舰 |
多 Agent 协调、实时生成、长上下文 |
| Gemini 3.1 Pro |
专业工作 |
深度推理、多模态、代码生成 |
| Gemini 3.1 Deep Think |
深度推理 |
复杂问题解决 |
| Gemini 3.1 Flash-Lite |
轻量级 |
高性价比 |
核心优势:Agent 工作流、多 Agent 协调、实时生成
生态重大变化
1. OpenAI ChatGPT "Superapp" 与模型选择器改版
- 简化选择器:用 Instant, Medium, High 等直观等级取代具体模型代号
- "Chat is dead":全面转向编码、图像生成、外部应用生态
- 鼓励用户使用 Codex、图像生成、第三方应用
2. GitHub Copilot 按量计费
- 从固定订阅转向按使用量计费
- 用户反应强烈,部分用户表示成本大幅上升
- 反映 AI 编码工具成本压力
3. Apple Siri AI 重大升级
- WWDC 2026 发布 Siri AI 全面升级
- 深度集成 Apple Intelligence
- 使用 NVIDIA GPU + Google Cloud 运行
- EU 地区因 DMA 法规延迟上线
4. Google NotebookLM 升级
- 升级到 Gemini 3.5
- 新增云计算机功能
- 智能搜索源功能
趋势方向
- Agent 成为核心:GPT-5.5、Claude Opus 4.8、Gemini 3.5 均以 Agent 能力为核心卖点
- 编码 Agent 爆发:Codex、Claude Code、Cursor 等工具全面 Agent 化
- 计算机使用成为标配:GPT-5.5 OSWorld 78.7%,Claude Opus 4.8 Online-Mind2Web 84%
- 多 Agent 协调:Gemini 3.5 专注多 Agent 工作流
- 成本压力显现:GitHub Copilot 改革反映 AI 工具成本问题
- 中国模型持续追赶:DeepSeek V4、GLM-5.1、Kimi K2-6 均达到前沿水平
- MCP 成为事实标准:所有主流 IDE/框架均已支持
- A2A 协议发布:Google 发布 Agent-to-Agent 协议,推动 Agent 互操作
停留关注
| 项目 |
状态 |
关注点 |
| GPT-5.4 |
逐步弃用 |
被 GPT-5.5 替代 |
| Claude Opus 4.7 |
逐步弃用 |
被 Opus 4.8 替代 |
| Gemini 3.1 Pro |
逐步弃用 |
被 Gemini 3.5 替代 |
| DeepSeek V3 |
弃用期 |
2026-07-24 弃用 |
| GPT-4o |
已弃用 |
被 GPT-5.x 替代 |
| Claude 3.5 |
已弃用 |
被 Claude 4.x 替代 |
数据来源
更新频率:每月更新。