ChatGPT default model upgraded to GPT-5.5 Instant
OpenAI 将 ChatGPT 默认模型升级为 GPT-5.5 Instant,结合 GPT-5.5 基础智力与极速回复。免费用户可用,幻觉减少 52.5%,新增记忆来源展示,回答更简洁温暖。
OpenAI 将 ChatGPT 默认模型升级为 GPT-5.5 Instant,结合 GPT-5.5 基础智力与极速回复。免费用户可用,幻觉减少 52.5%,新增记忆来源展示,回答更简洁温暖。
字节跳动豆包大模型团队宣布 Doubao-Seed-2.0-lite 升级,新增全模态理解能力,在保持轻量化的同时扩展视觉、音频等多模态输入支持。
百度正式发布文心 5.1,采用「多维弹性预训练」技术,总参数压缩至文心 5.0 的约 1/3,激活参数约 1/2,仅以业界同规模模型 6% 的预训练成本达到基础效果领先。LMArena 搜索榜国内第一、全球第四。
阶跃星辰发布 StepAudio 2.5 Realtime 实时语音大模型,能通过语调、语速等副语言感知用户情绪,支持开发者精细化定制 AI 角色性格与背景,打造更具活人感的对话体验。
默认模型升级成为头部厂商竞争新焦点 — OpenAI 与百度本周分别通过 GPT-5.5 Instant 和 ERNIE 5.1 完成默认模型 / 旗舰基座升级,且均强调「更低幻觉 + 更高效率」的组合优化,显示头部厂商正从单纯参数竞赛转向用户体验与成本效率的精细化打磨。
全模态轻量化模型加速渗透端侧场景 — 字节 Doubao-Seed-2.0-lite 在保持轻量定位的同时扩展全模态理解能力,表明「轻量模型 + 全模态」正成为端侧部署与消费级应用落地的核心路径,端侧模型不再局限于纯文本交互。
语音交互进入「实时情感化」新阶段 — 阶跃星辰 StepAudio 2.5 Realtime 聚焦副语言情绪感知与千万级人设自定义,标志着语音大模型从「准确识别」向「自然交互」跃迁,实时语音有望成为继文本 Agent 之后的下一个高频落地场景。
分析生成 · 2026-05-12 数据采集 · 2026-05-04 → 2026-05-10
| 排名 | 模型 | 厂商 | Tokens (B) | WoW | 变化 | 健康风险提示 |
|---|---|---|---|---|---|---|
| #1 | FREE tencent/hy3-preview-20260421:free | Tencent | 2,678 | -11.8% | 排名不变 | [FREE] 排名受免费驱动;P/C=63 正常;R/C=0.0 正常;App 集中度=12.9% 正常;无显著数据风险 |
| #2 | moonshotai/kimi-k2.6-20260420 | MoonshotAI | 1,614 | -11.1% | 排名不变 | P/C=232 偏高, 但 Programming%=122.7% 属编程场景正常模式;R/C=2.41 正常;App 集中度=8.7% 正常;无显著数据风险 |
| #3 | anthropic/claude-4.6-sonnet-20260217 | Anthropic | 1,453 | +7.9% | 排名不变 稳定名列前茅 | P/C=64 正常;R/C=0.07 正常;App 集中度=38.1% 正常;无显著数据风险 |
| #4 | anthropic/claude-4.7-opus-20260416 | Anthropic | 1,235 | +32.1% | 上升 1 位 | P/C=75 正常;R/C=0.02 正常;App 集中度=27.8% 正常;无显著数据风险 |
| #5 | deepseek/deepseek-v4-flash-20260423 | DeepSeek | 1,111 | +57.8% | 上升 4 位 排名大幅上升 | P/C=50 正常;R/C=1.18 正常;App 集中度=34.7% 正常;无显著数据风险;驱动因素:DeepSeek V4 系列 4 月 24 日发布 |
| #6 | google/gemini-3-flash-preview-20251217 | 1,075 | +10.5% | 下降 2 位 | P/C=22 正常;R/C=0.19 正常;App 集中度=16.5% 正常;无显著数据风险 | |
| #7 | deepseek/deepseek-v3.2-20251201 | DeepSeek | 868 | -4.4% | 下降 1 位 | P/C=27 正常;R/C=0.12 正常;App 集中度=11.7% 正常;无显著数据风险 |
| #8 | tencent/hy3-preview-20260421 | Tencent | 857 | N/A | 新上榜 | P/C=63 正常;R/C=0.0 正常;App 集中度=0.9% 正常;无显著数据风险 |
| #9 | deepseek/deepseek-v4-pro-20260423 | DeepSeek | 816 | N/A | 新上榜 | P/C=105 正常;R/C=1.49 正常;App 集中度=32.9% 正常;无显著数据风险 |
| 排名 | 厂商 | 最近两周上榜模型数 | 本周 tokens | 总量 WoW | 关键观察 | 厂商内部模型变动简述 |
|---|---|---|---|---|---|---|
| #1 | Anthropic | 2 / 3 | 3,736B | +11.0% | 总量稳居第一, 双旗舰驱动增长 | Sonnet 4.6 稳居 #3 且调用量温和增长 +7.9%;Opus 4.7 从 #5 上升至 #4, 调用量 +32.1%, 带动厂商总量上升;Opus 4.6 掉出 Top9, 新旧版本内部迁移迹象明显, 需持续观察。 |
| #2 | 1 / 1 | 3,610B | +4.1% | 总量温和增长, 单一模型支撑 | Gemini 3.1 Flash Preview 从 #4 降至 #6, 但调用量仍增长 +10.5%, 整体表现平稳。 | |
| #3 | Tencent | 2 / 1 | 3,535B | +16.5% | 总量显著增长, Hy3 免费版持续领跑 | Hy3 preview :free 虽下降 11.8% 但仍居 #1;Hy3 preview 付费版新上榜 #8, 免费与付费双轨并行, 需关注付费版后续留存。 |
| #4 | DeepSeek | 3 / 1 | 2,988B | +35.5% | 总量大幅跃升, V4 系列拉动明显 | V4 Flash 从 #9 跃升至 #5, 调用量 +57.8%;V4 Pro 新上榜 #9;V3.2 从 #6 降至 #7, 调用量 -4.4%, V4 系列内部替代效应显著。 |
| #5 | OpenAI | 0 / 0 | 2,630B | +2.3% | 总量平稳, 无模型进入 Top9 | 在榜模型表现平稳, 无显著内部迁移。 |
| #6 | MoonshotAI | 1 / 1 | 1,903B | -10.0% | 总量温和下滑 | Kimi K2.6 稳居 #2, 但调用量下降 11.1%, 需关注后续稳定性。 |
| #7 | Qwen | 0 / 0 | 1,302B | +7.2% | 总量温和增长, 无模型进入 Top9 | 在榜模型表现平稳, 无显著内部迁移。 |
| #8 | MiniMax | 0 / 1 | 1,028B | -5.0% | 总量温和下滑, M2.7 掉出 Top9 | M2.7 上周 #8 本周掉出榜单, 厂商总量承压, 无新模型对冲。 |
| #9 | Z.ai | 0 / 0 | 987B | -2.0% | 总量轻微下滑 | 在榜模型表现平稳, 无显著内部迁移。 |
DeepSeek 以月度级迭代节奏推动 V4 系列快速上位 — V4 Flash 上线两周内从 #9 跃升至 #5 (+57.8%), V4 Pro 新上榜 #9, 同期 V3.2 下降 4.4%, 内部替代共现。关注:V4 系列能否持续维持增长动能, 以及 V3.2 的进一步衰减。
免费 / 低价模型在 Top9 中占据重要位置, 调用量占比显著 — 本周 #1 为 Tencent Hy3 免费版 (2.68T tokens), DeepSeek V4 Flash 以 $0.14/1M 输入的极低定价实现 57.8% 爆发增长。关注:免费模型转收费后的 retention 变化, 以及性价比模型对付费模型的持续挤压。
中国厂商 (Tencent、DeepSeek、MoonshotAI、MiniMax、Qwen、Z.ai) 合计占 Top9 中 5 席, 总量占比超 60% — Tencent Hy3 以免费策略登顶, DeepSeek V4 系列快速切入, Kimi K2.6 稳居 #2。关注:中国厂商在全球开源模型生态中的份额持续提升, 以及海外头部 (Anthropic、Google、OpenAI) 的应对策略。
整体调用量 / 厂商份额 / 性能 / 编程类(4 张)
OpenRouter 平台 token 调用量份额排序
| 排名 | 模型 | 公司 | 04-27 份额 | 05-04 份额 | WoW Δ |
|---|---|---|---|---|---|
| 1 | tencent/hy3-preview-20260421:free | tencent | 15.12% | 12.33% | -11.8% |
| 2 | moonshotai/kimi-k2.6-20260420 | moonshotai | 9.05% | 7.43% | -11.1% |
| 3 | anthropic/claude-4.6-sonnet-20260217 | anthropic | 6.71% | 6.69% | +7.9% |
| 4 | anthropic/claude-4.7-opus-20260416 | anthropic | 4.66% | 5.69% | +32.1% |
| 5 | deepseek/deepseek-v4-flash-20260423 | deepseek | 3.51% | 5.11% | +57.8% |
| 6 | google/gemini-3-flash-preview-20251217 | 4.85% | 4.95% | +10.5% | |
| 7 | deepseek/deepseek-v3.2-20251201 | deepseek | 4.52% | 3.99% | -4.4% |
| 8 | tencent/hy3-preview-20260421 | tencent | — | 3.94% | NEW |
| 9 | deepseek/deepseek-v4-pro-20260423 | deepseek | — | 3.76% | NEW |
OpenRouter 平台厂商按 token 占比
| 排名 | 公司 | 04-27 份额 | 05-04 份额 | WoW Δ pp |
|---|---|---|---|---|
| 1 | anthropic | 14.11% | 14.51% | +0.40pp |
| 2 | 14.54% | 14.02% | -0.52pp | |
| 3 | tencent | 12.72% | 13.73% | +1.01pp |
| 4 | deepseek | 9.24% | 11.61% | +2.37pp |
| 5 | openai | 10.77% | 10.21% | -0.56pp |
| 6 | moonshotai | 8.86% | 7.39% | -1.47pp |
| 7 | qwen | 5.09% | 5.06% | -0.03pp |
| 8 | minimax | 4.54% | 3.99% | -0.55pp |
| 9 | z-ai | 4.22% | 3.83% | -0.39pp |
p50 throughput(最佳服务方)
| 排名 | 模型 | 速度 |
|---|---|---|
| 1 | morph/morph-v3-large | 3159 tok/s |
| 2 | relace/relace-apply-3 | 1571 tok/s |
| 3 | openai/gpt-oss-safeguard-20b | 566 tok/s |
| 4 | bytedance-seed/seedream-4.5 | 329 tok/s |
| 5 | openai/o3-mini-high | 273 tok/s |
| 6 | inception/mercury | 216 tok/s |
| 7 | openai/o3-mini | 214 tok/s |
| 8 | google/gemini-2.5-flash-lite | 188 tok/s |
| 9 | morph/morph-v3-fast | 180 tok/s |
OpenRouter 编程任务 token 累计
| 排名 | 模型 | 公司 | 调用量 (周) | WoW Δ |
|---|---|---|---|---|
| 1 | tencent/hy3-preview-20260421:free | tencent | 2.70T | -28.8% |
| 2 | moonshotai/kimi-k2.6-20260420 | moonshotai | 2.16T | -21.6% |
| 3 | anthropic/claude-4.7-opus-20260416 | anthropic | 594.71B | +56.5% |
| 4 | deepseek/deepseek-v4-pro-20260423 | deepseek | 541.64B | NEW |
| 5 | stepfun/step-3.5-flash | stepfun | 523.61B | -22.7% |
| 6 | anthropic/claude-4.6-sonnet-20260217 | anthropic | 514.75B | -13.5% |
| 7 | deepseek/deepseek-v4-flash-20260423 | deepseek | 476.90B | +166.4% |
| 8 | nvidia/nemotron-3-super-120b-a12b-20230311:free | nvidia | 370.99B | +7.6% |
| 9 | minimax/minimax-m2.7-20260318 | minimax | 352.53B | -27.7% |
大语言模型 / 代码 / 图像 / 理科 / 数学 / HLE / Agent / 综合智能 / 国内 OpenCompass × 2 + MedBench。分析生成 · 2026-05-12 数据采集 · 2026-05-12 · Δ 对照分析报告参考周期 2026-04-27 · AA Intelligence 因 2026-05-12 抓取局部异常,临时回退至 2026-05-08 (回退) 数据。
LMArena 文本对话盲测 ELO
用户对比投票 ELO 排名
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | claude-opus-4-7-thinking | Anthropic | 1503 | — |
| 2 | claude-opus-4-6-thinking | Anthropic | 1502 | — |
| 3 | claude-opus-4-6 | Anthropic | 1498 | — |
| 4 | gemini-3.1-pro-preview | 1492 | ↑1 | |
| 5 | claude-opus-4-7 | Anthropic | 1491 | ↓1 |
| 6 | muse-spark | Meta | 1490 | — |
| 7 | gemini-3-pro | 1486 | — | |
| 8 | gpt-5.5-high | OpenAI | 1484 | NEW |
| 9 | grok-4.20-beta1 | xAI | 1480 | ↓1 |
| 10 | gpt-5.2-chat-latest-20260210 | OpenAI | 1477 | NEW |
代码盲测 ELO + 真实代码任务解决率
代码任务对比投票 ELO
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | claude-opus-4-7-thinking | Anthropic | 1570 | — |
| 2 | claude-opus-4-7 | Anthropic | 1560 | — |
| 3 | claude-opus-4-6-thinking | Anthropic | 1549 | — |
| 4 | claude-opus-4-6 | Anthropic | 1544 | — |
| 5 | glm-5.1 | Z.ai | 1531 | — |
| 6 | claude-sonnet-4-6 | Anthropic | 1524 | ↑1 |
| 7 | kimi-k2.6 | Moonshot | 1523 | ↓1 |
| 8 | muse-spark | Meta | 1509 | — |
| 9 | gpt-5.5-high (codex-harness) | OpenAI | 1491 | NEW |
| 10 | claude-opus-4-5-20251101-thinking-32k | Anthropic | 1490 | ↓1 |
Opt@1 主流 scaffold 得分
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | Claude Opus 4.7 | Anthropic | 44.12 | — |
| 2 | Claude Opus 4.6 | Anthropic | 41.18 | — |
| 3 | GPT 5.5 | OpenAI | 40.20 | — |
| 4 | Claude Opus 4.6 | Anthropic | 33.33 | — |
| 5 | GPT 5.4 | OpenAI | 31.37 | — |
| 6 | GPT 5.2 | OpenAI | 27.45 | — |
| 7 | Claude Opus 4.5 | Anthropic | 26.47 | — |
| 8 | GPT 5.4 | OpenAI | 25.49 | — |
| 9 | Gemini 3.1 Pro | 22.55 | — | |
| 10 | Gemini 3 Pro | 18.63 | — |
Claude-4.6-Opus / GPT-5.4 (xhigh) 等改为新版 Claude Opus 4.6 / GPT 5.4), 本卡片的 Δ 对照基准已锁定为 2026-05-08 (而非全页面统一的 2026-04-27), 以避免改名带来的 NEW 误报。真实仓库 issue 解决率
| 排名 | 模型 | 公司 | 解决率 | Δ |
|---|---|---|---|---|
| 1 | Claude 4.5 Opus (high reasoning) | 76.8% | — | |
| 2 | Gemini 3 Flash (high reasoning) | 75.8% | — | |
| 3 | MiniMax M2.5 (high reasoning) | 75.8% | — | |
| 4 | Claude Opus 4.6 | 75.6% | — | |
| 5 | GPT-5-2 Codex | 72.8% | — | |
| 6 | GLM-5 (high reasoning) | 72.8% | — | |
| 7 | GPT-5-2 (high reasoning) | 72.8% | — | |
| 8 | GPT 5.2 Codex | 72.8% | — | |
| 9 | Claude 4.5 Sonnet (high reasoning) | 71.4% | — | |
| 10 | Kimi K2.5 (high reasoning) | 70.8% | — |
图像编辑 / 文生图 共 4 张
图像编辑投票 ELO
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | gpt-image-2 (medium) | OpenAI | 1470 | — |
| 2 | chatgpt-image-latest-high-fidelity (20251216) | OpenAI | 1392 | — |
| 3 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1386 | ↑2 | |
| 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1386 | ↓1 | |
| 5 | gemini-3-pro-image-preview (nano-banana-pro) | 1386 | ↓1 | |
| 6 | gpt-image-1.5-high-fidelity | OpenAI | 1373 | — |
| 7 | grok-imagine-image-quality | xAI | 1356 | NEW |
| 8 | uni-1.1-max | Luma AI | 1337 | NEW |
| 9 | grok-imagine-image | xAI | 1330 | ↓2 |
| 10 | grok-imagine-image-pro (20260207) | xAI | 1314 | ↓2 |
文生图投票 ELO
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | gpt-image-2 (medium) | OpenAI | 1398 | — |
| 2 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1268 | — | |
| 3 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1242 | — | |
| 4 | gpt-image-1.5-high-fidelity | OpenAI | 1240 | — |
| 5 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | — | |
| 6 | grok-imagine-image-quality | xAI | 1223 | NEW |
| 7 | uni-1.1-max | Luma AI | 1193 | NEW |
| 8 | uni-1.1 | Luma AI | 1190 | NEW |
| 9 | mai-image-2 | Microsoft AI | 1181 | ↓3 |
| 10 | reve-v1.5 | Reve | 1177 | ↓3 |
AA 平台图像编辑 ELO
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | GPT Image 1.5 (high) | OpenAI | 1262 | — |
| 2 | GPT Image 2 (high) | OpenAI | 1249 | — |
| 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1241 | — | |
| 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1231 | — | |
| 5 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1222 | — |
| 6 | grok-imagine-image | xAI | 1213 | — |
| 7 | grok-imagine-image-pro | xAI | 1212 | — |
| 8 | Kling Image 3.0 Omni | KlingAI | 1207 | NEW |
| 9 | FLUX.2 [max] | Black Forest Labs | 1206 | ↓1 |
| 10 | Wan 2.7 Pro | Alibaba | 1199 | NEW |
AA 平台文生图 ELO
| 排名 | 模型 | 公司 | ELO | Δ |
|---|---|---|---|---|
| 1 | GPT Image 2 (high) | OpenAI | 1338 | — |
| 2 | GPT Image 1.5 (high) | OpenAI | 1267 | — |
| 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1263 | — | |
| 4 | Nano Banana Pro (Gemini 3 Pro Image) | 1220 | — | |
| 5 | Seedream 4.0 | ByteDance Seed | 1198 | — |
| 6 | MAI-Image-2 | Microsoft | 1198 | ↑1 |
| 7 | FLUX.2 [max] | Black Forest Labs | 1197 | ↓1 |
| 8 | Peanut (Open Weights Coming Soon) | Peanut | 1188 | NEW |
| 9 | FLUX.2 [pro] | Black Forest Labs | 1186 | ↓1 |
| 10 | grok-imagine-image | xAI | 1182 | ↓1 |
PhD 级科学多选
研究级科学推理
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 94.60 | — |
| 2 | Gemini 3.1 Pro | 94.30 | — | |
| 3 | Claude Opus 4.7 | Anthropic | 94.20 | — |
| 4 | GPT-5.5 | OpenAI | 93.60 | — |
| 5 | GPT-5.2 Pro | OpenAI | 93.20 | — |
| 6 | GPT-5.4 | OpenAI | 92.80 | — |
| 7 | GPT-5.2 | OpenAI | 92.40 | — |
| 8 | Gemini 3 Pro | 91.90 | — | |
| 9 | Claude Opus 4.6 | Anthropic | 91.30 | — |
| 10 | Kimi K2.6 | Moonshot AI | 90.50 | — |
前沿数学问题准确率
前沿数学问题准确率
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% | — |
| 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% | — |
| 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% | — |
| 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% | — |
| 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% | — |
| 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% | — |
| 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% | — |
| 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% | — |
| 9 | GPT-5.2 (high) | OpenAI | 40.3% | — |
| 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% | — |
高难度知识推理
高难度知识推理
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | gemini-3.1-pro-preview (thinking high) | 46.44 | — | |
| 2 | gpt-5.4-pro-2026-03-05 | 44.32 | — | |
| 3 | Muse Spark | 40.56 | — | |
| 4 | gemini-3-pro-preview | 37.52 | — | |
| 5 | gpt-5.4-2026-03-05 (xhigh thinking) | 36.24 | — | |
| 6 | claude-opus-4-7 | 36.20 | — | |
| 7 | claude-opus-4-6-thinking-max | 34.44 | — | |
| 8 | gpt-5-pro-2025-10-06 | 31.64 | — | |
| 9 | gpt-5.2-2025-12-11 | 27.80 | — | |
| 10 | gpt-5-2025-08-07 | 25.32 | — |
工具调用 + 多步推理
通用 agent 平均分(level 1/2/3 加权)
| 排名 | 模型 | 公司 | 平均分 | Δ |
|---|---|---|---|---|
| 1 | OPS-Agentic-Search | Alibaba Cloud | 92.36 | — |
| 2 | openJiuwen-deepagent | openJiuwen | 91.69 | — |
| 3 | Lemon | LR AILab of Lenovo CTO Org | 91.36 | — |
| 4 | JoinAI_V2.2 | JoinAI-CMCC | 90.70 | — |
| 5 | Nemotron-ToolOrchestra-0107 | NVIDIA | 90.37 | ↑1 |
| 6 | Nemotron-ToolOrchestra-0106 | NVIDIA | 90.37 | ↓1 |
| 7 | JoinAI_V2.1 | JoinAI-CMCC | 90.03 | — |
| 8 | SU Zero - Shuqian Series Pro MAX | Suzhou AI Lab, Shuqian Tech | 90.03 | — |
| 9 | HALO V1217-1 | Microsoft AI Asia - Ads | 89.37 | ↑1 |
| 10 | ShawnAgent_v3.1 | 89.37 | ↓1 |
AA 综合智能评分(多基准加权)
综合智能评分(实时)
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | GPT-5.5 (xhigh) | openai | 60.20 | — |
| 2 | Claude Opus 4.7 (Adaptive Reasoning, Max Effort) | anthropic | 57.30 | — |
| 3 | Gemini 3.1 Pro Preview | 57.20 | — | |
| 4 | GPT-5.4 (xhigh) | openai | 56.80 | — |
| 5 | Kimi K2.6 | moonshotai | 53.90 | — |
| 6 | MiMo-V2.5-Pro | xiaomi | 53.80 | — |
| 7 | GPT-5.3 Codex (xhigh) | openai | 53.60 | — |
| 8 | Grok 4.3 | x-ai | 53.20 | NEW |
| 9 | Claude Opus 4.6 (Adaptive Reasoning, Max Effort) | anthropic | 53.00 | ↓1 |
| 10 | Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort) | anthropic | 51.70 | ↓1 |
OpenCompass 中文综合评测
OpenCompass 综合评测
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | Gemini-3-Pro-Preview | 76.50 | — | |
| 2 | Qwen3-Max-2026-01-23 | Alibaba | 74.40 | — |
| 3 | Claude Opus 4.5 (Thinking) | Anthropic | 74.20 | — |
| 4 | Kimi-K2.5 | Moonshot | 73.30 | — |
| 5 | GPT-5.2-2025-12-11 (high) | OpenAI | 73.10 | — |
| 6 | GLM-4.7 | Zhipu AI | 72.80 | — |
| 7 | Kimi-K2-Thinking | Moonshot | 71.10 | — |
| 8 | DeepSeek-V3.2 | DeepSeek | 70.80 | — |
| 9 | Claude Sonnet 4.5 (Thinking) | Anthropic | 69.40 | — |
| 10 | Tencent HY 2.0 Think | Tencent | 69.10 | — |
OpenCompass 多模态综合评测
OpenCompass 多模态综合评测
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | Gemini-3.1-Pro-Preview | 66.62 | — | |
| 2 | Qwen3.5-397B | Alibaba | 65.41 | — |
| 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.19 | — |
| 4 | Kimi-k2.5 | Moonshot AI | 63.05 | — |
| 5 | SenseNova-V6-5-Pro-20251215 | SenseTime | 55.61 | — |
| 6 | Claude-Opus-4-6 | Anthropic | 55.16 | — |
| 7 | GLM4_6V | Zhipu AI | 52.54 | — |
| 8 | GPT-5.4 | OpenAI | 51.55 | — |
| 9 | Step3-VL-10B | StepFun | 48.80 | — |
| 10 | Ovis2.6-30B-A3B | Alibaba | 48.37 | — |
中文医疗领域专项评测
中文医疗领域评测
| 排名 | 模型 | 公司 | 得分 | Δ |
|---|---|---|---|---|
| 1 | 京医千询 | 京东健康 | 72.60 | — |
| 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.10 | — |
| 3 | 千问健康大模型 | 千问C端 | 71.20 | — |
| 4 | 华为云健康管理大模型 | Huawei | 71.00 | — |
| 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.80 | — |
| 6 | 微医医疗大模型 | 微医 | 68.20 | — |
| 7 | AntAngelMed | MedAIBase | 68.00 | — |
| 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.70 | — |
| 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.00 | — |
| 10 | Grok-4 | xAI | 58.40 | — |
周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。
本期 (2026-05-04 → 2026-05-10) 大盘 21.72T tokens, 环比 +8.2%; 上一窗口集中发布的 5 款旗舰模型本期进入 token 沉淀期; 4 周均值 +6.5%, 大盘仍在结构性上行段。
本周 OpenRouter 共流转 21.72T tokens, 环比 +8.2% — 较上周 20.07T 继续上行, 但增速从 +9.8% 略缓。
大盘仍处历史高位;增速放缓主因是上周 4-23 → 4-24 的旗舰发布窗口已经过去, 本周进入新模型的 token 沉淀期。上周 5 家头部厂商 8 天密集发布旗舰 — Anthropic Opus 4.7 (4-16)、Moonshot Kimi K2.6 (4-20)、OpenAI GPT-5.5 (4-23)、Tencent Hy3 preview (4-24)、DeepSeek V4 系列 (4-24)。
本周 Top 9 中已有 6 款来自这一发布密集期;后面 4 章节每一处变化都和其中某一款相关 — 这也是为什么本周值得专门拆开看。大盘 4 周均值 +6.5%, 本周 +8.2% 仍高于均值。
连续 4 周环比正增长 (依次 +5.1% / +6.4% / +9.8% / +8.2%) — 增速虽较上周回落, 但仍处结构性扩张段。后续判断关键是 Hy3 [FREE] 免费期结束后是否会带来 token 回吐。本期 2026-05-04 → 2026-05-10 · Δ 对照上一窗口 2026-04-27 → 2026-05-03
本周 Top 9 出现首次的「双版本现象」: Tencent 与 DeepSeek 同时各有两款模型入榜。三个数字撑起本周叙事 — Hy3 [FREE] 首次衰退、V4 Flash 单周冲到第 5、Hy3 付费版 + V4 Pro 双双新上榜。
首次衰退 #1 — Hy3 Preview [FREE]:2.68T tokens · -11.8% WoW · 仍蝉联第 1, 但出现首次回吐。
上周空降 #1 (3.03T) 之后, 本周开始可见 decay 信号。免费通道结束前的标准 launch-spike → decay 轨迹, 后续两周是检验「免费转付费」机制的关键节点。最大单模型涨幅 #5 — DeepSeek V4 Flash:第 9 → 第 5 (上升 4 位) · +57.8% WoW · 1.11T tokens。
$0.14 / $0.28 per 1M tokens 的定价 (Claude Opus 4.7 的 1/35) + 1M token 上下文 + SWE-Bench 80.6%。性价比最敏感的开发者层面立刻投票, 一周内吃下整个 V3.2 流失的份额。双版本新入榜 — Hy3 付费版 #8 + V4 Pro #9:同周各有两家厂商把自家第二款也送进 Top 9。
Hy3 paid (857B) 是免费版的姊妹付费档, 验证「免费 → 付费」转化雏形;V4 Pro (816B, $1.74/$3.48) 与 V4 Flash 同期发布, 高低价位双线攻入榜单 — Top 9 第一次出现「同厂双产品」格局。2026-04-27 → 2026-05-04 · 单位 B tokens · 按厂商着色
把 4 个连续 7 天窗口叠在一起看, 浮现 4 种不同的产品轨迹: V4 Flash 是最陡的「跃升曲线」、Hy3 是「空降后持稳」、Sonnet 4.6 是「平滑下滑」、V3.2 是「连续退让」。
DeepSeek V4 Flash 是最陡的跃升曲线: 04-27 窗口 #9 入榜, 下一窗口 (05-04 起) 跳到 #5。
单周上升 4 位在近期 Top 9 内属于罕见幅度;价格 + 上下文窗口 + 代码能力三档同时拉满, 开发者用脚投票最快的产品轨迹之一。Hy3 Preview [FREE] 是「空降后持稳」: 04-27 窗口 #1 入榜, 05-04 窗口仍守住 #1。
尽管 token 量 -11.8%, 排名未跌 — 体量优势仍足以拉开与 #2 的距离。后续两周是检验是否能稳定在 Top 3 的关键。Claude Sonnet 4.6 是平滑下滑曲线: 1 → 2 → 3 → 3 (4 周连续退一档后稳住第 3)。
绝对调用量并未明显下滑 (+7.9% WoW 本周), 排名下降主要是分母被新进者拉大造成的相对位移 — 不是产品衰退。DeepSeek V3.2 连续退让: 2 → 3 → 6 → 7 (4 周连续掉 5 档)。
先后被外部 (Hy3 / K2.6) 和自家 (V4 Flash) 两次替代。同厂内部新旧版本迁移完成后, V3.2 的份额转给 V4 系列;模型迭代周期压缩至月度级的最清晰案例。X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines
本周厂商份额 pp 变动幅度全部收窄至 ±3pp 以内, 与上周 Tencent +12.72pp 的极端值形成鲜明对比。3 家正向 / 5 家负向 — 多家竞争而非单家垄断的格局。
DeepSeek +2.37pp — 本周最大单家上升: 全部来自 V4 系列双版本入榜。
V4 Flash 单模型 +57.8% (#5)、V4 Pro 新上榜 (#9), 抵消 V3.2 -4.4% 的下滑。厂商总量从 2.20T 升至 2.99T (+35.5%)。Tencent +1.01pp — 增速大幅放缓: 上周 +12.72pp 后本周仅 +1.01pp, 但仍是正向。
免费版 Hy3 -11.8% 但被付费版新上榜 (857B) 抵消, 厂商总量小幅扩张。腰部从 0 变成 1 (paid 版), 但暂时还撑不起免费版回吐的部分。Anthropic +0.40pp — 由负转正: 上周 -3.34pp 的承压后本周转为温和回升。
Opus 4.7 +32.1% 推动厂商总量 +11.0%, Sonnet 4.6 +7.9% 同步贡献。「上周下降是稀释而非衰退」的判断在本周得到验证 — 内部新旧版本迁移已平稳过渡。Moonshot AI -1.47pp — 本周最大单家下降: launch spike 衰退期。
Kimi K2.6 -11.1% 拖累厂商总量 -10%。属于典型「上周首发夺冠 → 本周自然回落」的曲线;评测端的 Top 5 位置尚未让出, 但调用量层面已开始 decay。百分点变动 · 中线 0 · 绿正红负
本周中国厂商累计份额 44.67% → 45.61% (+0.94pp), 较上周 +12.07pp 的猛冲明显放缓但仍在上行;海外三家从 39.42% → 38.74% (-0.68pp), 退守速度也减慢;长尾继续被压缩, Others 29.76% → 28.53% (-1.23pp)。
国产阵营继续上行至 45.61% (+0.94pp): 从冲刺转为爬坡。
Tencent (12.72→13.73) + DeepSeek (9.24→11.61) + Moonshot (8.86→7.39) + Qwen (5.09→5.06) + MiniMax (4.54→3.99) + Z.ai (4.22→3.83) 累计 token 池。注意是「6 家中 3 家上升、3 家下降」的混合走势 — 上周由 Tencent 单家拉起, 本周变成 DeepSeek 主推。海外三家份额暂稳: 39.42% → 38.74% (-0.68pp), 退守速度大幅减慢。
Anthropic +0.40pp (恢复)、OpenAI -0.56pp、Google -0.52pp。上周三家合计 -6.05pp 的恐慌式回吐, 本周收敛至 -0.68pp。其中 Anthropic 由负转正是关键 — 「上周下降是稀释而非衰退」的判断得到验证。长尾继续被挤压: Others 29.76% → 28.53% (-1.23pp), 已连续两周失血。
头部 6 家继续分食长尾流量。这两周累计长尾流失 11.4pp — 「新发布密集期会先吃长尾再切对手」的结构性规律在第二周仍在生效。双层 doughnut · 7 段