| 榜单名称 | 本周主要变动模型 | 数据质量警报 |
|---|---|---|
| LMArena Text | 无重大变化 | 数据正常 |
| LMArena Code | Qwen3.7-Max 新上榜并空降第 4 名 | 数据正常 |
| LMArena Image Edit | grok-imagine-image-quality-1388 上升5位(#8 → #3), grok-imagine-image-quality-1374 新上榜(本周 #8) | 数据正常 |
| LMArena Text to Image | mai-image-2.5-preview (新上榜);grok-imagine-image (跌出) | 数据正常 |
| AA Image Editing | FLUX.2 [max] (新上榜);HiDream-O1-ImageOpen Weights (跌出) | 数据正常 |
| AA Text to Image | MAI-Image-2 (下降3位);Recraft V4.1 Utility Pro (新上榜);FLUX.2 [pro] (跌出) | 数据正常 |
| GPQA | Claude Opus 4.8 (新上榜);Qwen3.7 Max (新上榜);Claude Opus 4.6 (跌出);Kimi K2.6 (跌出) | 数据正常 |
| MedBench | 无重大变化 | 数据正常 |
| OpenCompass LLM | 无重大变化 | 数据正常 |
| OpenCompass Multimodal | 无重大变化 | 数据正常 |
| LiveCodeBench GSO | GPT 5.4 (上升3位);Claude Opus 4.6 (新上榜);GPT 5.4 (新上榜);Claude Opus 4.6 (跌出);GPT 5.4 (跌出) | 数据正常 |
| SWE-bench | 无重大变化 | 数据正常 |
| Scale HLE | 无重大变化 | 数据正常 |
| Epoch FrontierMath | 无重大变化 | 数据正常 |
| Hugging Face GAIA | 无重大变化 | 数据正常 |
| OpenRouter 模型调用量 | mimo-v2.5-pro (新上榜);nemotron-3-super-120b-a12b (新上榜) | 数据正常 |
| OpenRouter 厂商调用量 | xiaomi (总量爆发增长);moonshotai (总量下滑) | 数据正常 |
| OpenRouter 编程调用量 | claude-4.7-opus (上升3位);kimi-k2.6 (下降3位);claude-4.6-sonnet (上升4位);gpt-5.5 (新上榜) | 数据正常 |
| OpenRouter 模型吞吐量 | 无重要变化 | 数据正常 |
本周榜单变化总览
数据采集 · 2026-05-22 → 2026-05-28 · 19 张榜单 / 11 有变化本周大模型行业重要动态
监控窗口 · 2026-05-22 → 2026-05-28 · 6 条核心进展OpenAI对GPT-5.5 Instant进行能力升级,改善响应风格与质量,使回答更易读、对话更自然、任务节奏更合理。同时宣布o3和GPT-4.5将从ChatGPT逐步退役,o3于8月26日退役(90天过渡期),GPT-4.5于6月27日退役(30天过渡期),仅影响ChatGPT产品端
Anthropic于5月28日发布Claude Opus 4.8,在编码与推理方面较Opus 4.7显著提升,代码缺陷漏检概率降低四倍,SWE-bench Pro达69.2%。新增Dynamic Workflows支持单次会话数百个并行子代理,Fast Mode提速2.5倍且定价降至此前三分之一
小米于5月27日宣布MiMo-V2.5系列API永久降价,最高降幅达99%,不再区分上下文窗口长度,Pro档缓存命中输入降至0.025元/百万Tokens。Token Plan计费体系同步优化,同等价格下用量提升至原5-8倍,在有效期内用户额度全量重置,新价格全球同步生效
快手推出可灵AI 2.1系列视频生成模型,1080p分辨率生成5秒视频仅需不到1分钟,标准模式(720p)仅需20灵感值。该升级大幅降低高质量视频生成成本门槛,加速AI视频生成技术的普惠化与商业化落地
美团正式开源LongCat-Video-Avatar 1.5数字人视频模型,定位为商业级应用。采用DMD蒸馏将推理压缩至8步,效率提升约15倍,支持真人、动漫、动物等多类主体及多人对话场景,复杂语音输入下保持唇部运动精准平滑。项目已完整开源至GitHub、HuggingFace和ModelScope
阶跃发布开源模型 Step 3.7 Flash,具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力
本周大模型行业趋势洞察
数据周期 · 2026-05-22 → 2026-05-28 · 3 条核心趋势本周大模型行业呈现两大核心动向:一是代码生成赛道格局因Anthropic能力突破而发生重构,kimi的先发优势被Claude系列侵蚀;二是多家厂商以免费和降价策略(免费、降价99%等)争夺市场份额,价格战进入白热化阶段。
代码生成领域格局重构:Anthropic以质量优势侵蚀kimi先发地位 — 代码生成赛道本周发生显著格局变化。Anthropic发布的Claude Opus 4.8,将代码缺陷漏检概率降低75%,SWE-bench Pro达69.2%,编码能力大幅提升直接反映在榜单上——claude-4.7-opus在编程调用量升至第2位,将kimi-k2.6从编程榜首推至第4位,后者在 openRouter 模型调用量也跌出Top 9。表明开发者转向"质量优先"选型逻辑,编码能力的质量差距正快速转化为市场份额差距。
价格战进入极端化:免费与近免费策略成为获客核心手段 — 多家厂商本周以极端定价策略争夺市场:小米MiMo-V2.5系列API永久降价最高99%,Pro档缓存命中输入降至0.025元/百万Tokens;Owl Alpha以免费策略冲入 OpenRouter 调用量第5位;nvidia nemotron以接近免费定价进入Top 10。免费策略短期拉动调用量效果显著,中长期效应需要持续观察。
多模态视频模型加速商业化与普惠化落地 — 快手推出可灵AI 2.1视频生成模型,1080p/5秒视频生成仅需不到1分钟,大幅降低视频生成成本门槛。美团同期开源LongCat-Video-Avatar 1.5数字人模型,采用DMD蒸馏将推理压缩至8步(效率提升约15倍)。两家厂商在视频和数字人方向同步发力,反映了多模态模型从实验室走向商业应用的关键拐点——成本与效率的突破正加速AI视频技术普惠化。
OpenRouter 平台调用量与性能
数据采集 · 2026-05-22 → 2026-05-28 · 对照周期 · 2026-05-15 → 2026-05-21
1. 模型性价比与极致性能形成双轨竞争,市场分层明显。 DeepSeek-v4-flash 以不足 Claude 1/25 的定价稳居调用量榜首;小米 mimo-v2.5-pro 周环比增长475%,主要也是因为中等定价+高性能。而 Claude-Opus-4.7 凭借全榜最高的 benchmark 实现 73% 的 WoW 爆发增长,说明高端场景愿为性能支付显著溢价。
2. 编程场景头部格局剧烈洗牌,高性能或者高性价比驱动开发者迁移。 本周编程调用量前三发生显著变动:DeepSeek-v4-flash 与 Claude-4.7-Opus 分别跃升 2 位和 3 位,而上周第一的 Kimi-k2.6 跌至第 4。这表明开发者对代码生成场景的模型选择高度务实,性能优势或者性价比优势会引发快速迁移。
3. 部分模型凭借免费或超低价在 openrouter 榜单上榜,其增长质量和可持续性需要进一步观察。 Owl-alpha 与 Nemotron-3-super 依赖免费或近零定价冲入前十,但前者 top5 集中度达 73%、后者 benchmark 基本全面垫底;如果仅靠价格补贴拉新,缺乏模型质量支撑,难以建立中长期用户粘性。
4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings
2.1 OpenRouter 模型调用量榜单 数据采集 · 2026-05-22 → 2026-05-28
来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10
| 排名 | 模型 | 厂商 | Tokens (T) | WoW | 变化定性 | 健康度风险提示 |
|---|---|---|---|---|---|---|
| 1 | deepseek-v4-flash | deepseek | 3.53 | +17% | [稳定] | 无显著风险 |
| 2 | hy3-preview | tencent | 3.11 | +6% | [稳定] | 无显著风险 |
| 3 | claude-opus-4.7 | anthropic | 2.64 | +73% | [排名小幅上升1位] | 无显著风险 |
| 4 | claude-sonnet-4.6 | anthropic | 2.05 | +25% | [排名小幅下降1位] | 无显著风险 |
| 5 | owl-alpha | openrouter | 1.38 | +17% | [稳定] | top5集中度73% |
| 6 | deepseek-v4-pro | deepseek | 1.21 | +24% | [排名小幅上升2位] | 无显著风险 |
| 7 | gemini-3-flash-preview | 1.01 | -11% | [排名小幅下降1位] | 无显著风险 | |
| 8 | deepseek-v3.2 | deepseek | 0.96 | -12% | [排名小幅下降1位] | 无显著风险 |
| 9 | mimo-v2.5-pro | xiaomi | 0.82 | +475% | [新上榜] | P/C=229>200 |
| 10 | nemotron-3-super-120b-a12b | nvidia | 0.66 | +12% | [新上榜], [FREE] 排名受免费驱动 | P/C=235>200 |
核心驱动力是高性价比。input 定价仅 0.0897,在 Top 10 非免费模型中是偏低的,而 intelligence(47)、coding(39)、agentic(61)三项指标均处于中上水平(intelligence 排名 3/8),足以覆盖大多数实际应用场景。开发者可以用 claude-opus-4.7 1/25 的成本获得接近的通用能力,性价比优势是其稳居榜首的根本原因。top5 集中度 23% 说明用户分布健康,非依赖单一应用。
低价策略精准切中价格敏感用户群。input 定价 0.0334 是 deepseek-v4-flash(0.09)的 37%,对成本极度敏感的长尾应用具有吸引力,top5 集中度仅 1% 印证了这一点,说明其用户高度分散在大量中小应用中。intelligence(42)和 coding(36)在榜单内中等偏下,虽非顶尖但对轻量场景够用。WoW 仅 6% 增长平缓,提示价格敏感用户群已接近饱和,进一步增长需靠性能提升而非降价。
模型性能全面领先驱动高端市场认可。intelligence 57、coding 53、agentic 71 三项 benchmark 均为 Top 10 第一,在代码生成、复杂推理、Agent 构建等对质量要求苛刻的高端场景几乎无替代品。WoW 73% 爆发增长说明企业级用户愿意为性能溢价付费。同时定价为全榜最高(input 约 2.26),是 deepseek-v4-flash 的约 25 倍,价格天花板使其无法覆盖中低端用户,整体看该模型性能第一,价格是最大制约因素。
零成本是核心因素。input/output 均为 0(免费),对尝鲜用户有天然吸引力。R/C=0 表明其无推理过程,intelligence/coding/agentic 三项 benchmark 全部缺失,模型真实能力未知。 Top5 集中度高达 73%,超过 70% 警戒线,意味着调用量高度依赖少数头部应用。免费拉新有效,但模型质量和用户集中度构成双重风险。
模型性能优秀,爆发式增长的同时伴随着高P/C信号。WoW 475% 从第 33 位飙升至第 9 位,但 P/C=229 有高输入分析。intelligence/coding/agentic 三项 benchmark 在 top 10 中基本都排名第二,显示出该模型性能相当优秀。Input 定价 0.4736 在 top 10中处于中等位置,但在中国模型阵营中定价相对偏高。综合判断:增长主要由高性价比驱动的。另外小米官方已经官宣 API 大幅度降价,后期其在 openrouter 平台上的定价竞争策略也值得关注
nvidia 品牌效应 + 接近免费的定价吸引开发者试用。input 定价几乎为零,对想尝试大模型但预算有限的开发者有吸引力。WoW 12% 增长温和而非爆发,说明增长来自自然流量而非激进推广。但 benchmark 数据显示 intelligence(36)、coding(31)、agentic(40)三项指标均处于垫底水平,并不具备质量优势。P/C=235 偏高提示高输入模型,top5 集中度 57% 也偏高。作为新进入者能否在 Top 10 站稳脚跟留住试用用户,还有待观察。
2.2 OpenRouter 厂商调用量榜单 数据采集 · 2026-05-22 → 2026-05-28
来源:openrouter.ai/rankings · 厂商按 token 调用量
| 排名 | 厂商 | 最近两周上榜模型数 | 本周总量 (T) | 总量 WoW | 关键观察 | 厂商内部模型变动简述 |
|---|---|---|---|---|---|---|
| 1 | deepseek | 3 | 5.89 | +10% | 总量稳定增长 | deepseek-v4-flash 排名稳定;deepseek-v4-pro 排名上升2位;deepseek-v3.2 排名下降1位 |
| 2 | anthropic | 2 | 5.64 | +35% | 总量稳定增长 | claude-opus-4.7 排名上升1位;claude-sonnet-4.6 排名下降1位 |
| 3 | 1 | 3.91 | -1% | 总量下滑 | gemini-3-flash-preview 排名下降1位 | |
| 4 | tencent | 1 | 3.11 | +6% | 总量稳定增长 | hy3-preview 排名稳定 |
| 5 | openai | 0 | 2.38 | +9% | 总量稳定增长 | 无上榜模型 |
| 6 | openrouter | 1 | 1.38 | +17% | 总量稳定增长 | owl-alpha 排名稳定 |
| 7 | xiaomi | 1 | 1.35 | +300% | 总量爆发增长 | mimo-v2.5-pro 新上榜 |
| 8 | z-ai | 0 | 0.95 | -1% | 总量下滑 | 无上榜模型 |
| 9 | qwen | 0 | 0.9 | +4% | 总量稳定增长 | 无上榜模型 |
| 10 | moonshotai | 0 | 0.82 | -18% | 总量下滑 | 无上榜模型 |
- 厂商解读 (报告 2.2)
- deepseek · 本周总量 5.89T,市场份额 20.45%,总量 WoW 10%。在榜模型包括 deepseek-v4-flash, deepseek-v4-pro, deepseek-v3.2。v4-flash 以极致性价比守住第一,v4-pro 承接高端推理需求,v3.2 维持存量用户,三代模型形成完整价格梯度,覆盖从散客试用到企业级推理全谱系需求。
- anthropic · 本周总量 5.64T,市场份额 19.56%,总量 WoW 35%。在榜模型包括 claude-opus-4.7, claude-sonnet-4.6。opus 以全榜第一的性能锚定高端市场,sonnet 以中等定价覆盖性价比用户,双模型策略有效。但市占率与 deepseek 仅差 0.89 个百分点,定价过高是其进一步扩大的最大障碍。
- xiaomi · 本周总量 1.35T,市场份额 4.69%,总量 WoW 300%。在榜模型包括 mimo-v2.5-pro。mimo-v2.5-pro 新上榜即冲至第 9 位,该模型综合性能相当优秀,但 P/C=229 有高输入风险。
- moonshotai · 本周总量 0.82T,市场份额 2.83%,总量 WoW -18%。kimi 定价相对较高,最近两周被替代效应比较明显。
2.3 OpenRouter 编程类调用量榜单 数据采集 · 2026-05-22 → 2026-05-28
来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | deepseek-v4-flash | deepseek | 855.9B | 上升2位 | 1 | kimi-k2.6 | moonshotai | 1159.6B |
| 2 | claude-4.7-opus | anthropic | 736.6B | 上升3位 | 2 | hy3-preview | tencent | 716.3B |
| 3 | hy3-preview | tencent | 654.4B | 下降1位 | 3 | deepseek-v4-flash | deepseek | 550.9B |
| 4 | kimi-k2.6 | moonshotai | 524.3B | 下降3位 | 4 | step-3.5-flash | stepfun | 536.3B |
| 5 | claude-4.6-sonnet | anthropic | 475.3B | 上升4位 | 5 | claude-4.7-opus | anthropic | 521.3B |
| 6 | step-3.5-flash | stepfun | 470.9B | 下降2位 | 6 | nemotron-3-super-120b-a12b | nvidia | 415.0B |
| 7 | nemotron-3-super-120b-a12b | nvidia | 430.4B | 下降1位 | 7 | deepseek-v4-pro | deepseek | 403.2B |
| 8 | deepseek-v4-pro | deepseek | 412.3B | 下降1位 | 8 | ring-2.6-1t | inclusionai | 396.5B |
| 9 | gpt-5.5 | openai | 291.0B | 新上榜 | 9 | claude-4.6-sonnet | anthropic | 388.1B |
2.4 OpenRouter 模型吞吐量榜单 数据采集 · 2026-05-22 → 2026-05-28
来源:openrouter.ai/rankings · 吞吐量指标 · 本周快照 Top 10
| 排名 | 模型 | 公司 | 指标 (本周) |
|---|---|---|---|
| 1 | gpt-oss-120b | openai | 912 |
| 2 | gpt-oss-20b | openai | 711 |
| 3 | gpt-oss-safeguard-20b | openai | 635 |
| 4 | GLM 4.7 | z-ai | 384 |
| 5 | Qwen3 32B | qwen | 369 |
| 6 | Mercury 2 | inception | 350 |
| 7 | MiniMax M2.5 | minimax | 277 |
| 8 | Llama 3.1 8B Instruct | meta-llama | 209 |
| 9 | Llama 4 Scout | meta-llama | 187 |
| 10 | o3 Mini | openai | 185 |
其他榜单 — 15 张外部基准
数据采集 · 2026-05-22 → 2026-05-28 · 对照周期 · 2026-05-15 → 2026-05-21 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源
LMArena Text 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-opus-4-6-thinking | Anthropic | 1502 | 持平 | 1 | claude-opus-4-6-thinking | Anthropic | 1502 |
| 2 | claude-opus-4-7-thinking | Anthropic | 1500 | 持平 | 2 | claude-opus-4-7-thinking | Anthropic | 1500 |
| 3 | claude-opus-4-6 | Anthropic | 1498 | 持平 | 3 | claude-opus-4-6 | Anthropic | 1498 |
| 4 | claude-opus-4-7 | Anthropic | 1494 | 持平 | 4 | claude-opus-4-7 | Anthropic | 1492 |
| 5 | muse-spark | Meta | 1489 | 持平 | 5 | muse-spark | Meta | 1489 |
| 6 | gemini-3.1-pro-preview | 1487 | 持平 | 6 | gemini-3.1-pro-preview | 1488 | ||
| 7 | gemini-3-pro | 1486 | 持平 | 7 | gemini-3-pro | 1486 | ||
| 8 | gpt-5.5-high | OpenAI | 1482 | 持平 | 8 | gpt-5.5-high | OpenAI | 1481 |
| 9 | gpt-5.4-high | OpenAI | 1480 | 上升1位 | 9 | gemini-3.5-flash | 1480 | |
| 10 | gemini-3.5-flash | 1479 | 下降1位 | 10 | gpt-5.4-high | OpenAI | 1480 | |
- 本周榜单主要变化无重大变化
LMArena Code 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-opus-4-7-thinking | Anthropic | 1567 | 持平 | 1 | claude-opus-4-7-thinking | Anthropic | 1567 |
| 2 | claude-opus-4-7 | Anthropic | 1562 | 持平 | 2 | claude-opus-4-7 | Anthropic | 1560 |
| 3 | claude-opus-4-6-thinking | Anthropic | 1542 | 持平 | 3 | claude-opus-4-6-thinking | Anthropic | 1545 |
| 4 | qwen3.7-max-20260517 | Alibaba | 1541 | 新上榜 | 4 | claude-opus-4-6 | Anthropic | 1540 |
| 5 | claude-opus-4-6 | Anthropic | 1538 | 排名下降 1 位 | 5 | glm-5.1 | Z.ai | 1532 |
| 6 | glm-5.1 | Z.ai | 1533 | 排名下降 1 位 | 6 | claude-sonnet-4-6 | Anthropic | 1524 |
| 7 | claude-sonnet-4-6 | Anthropic | 1523 | 排名下降 1 位 | 7 | kimi-k2.6 | Moonshot | 1519 |
| 8 | kimi-k2.6 | Moonshot | 1518 | 排名下降 1 位 | 8 | muse-spark | Meta | 1509 |
| 9 | muse-spark | Meta | 1508 | 排名下降 1 位 | 9 | gemini-3.5-flash | 1507 | |
| 10 | gemini-3.5-flash | 1506 | 排名下降 1 位 | 10 | gpt-5.5-xhigh (codex-harness) | OpenAI | 1503 | |
- 本周榜单主要变化
- Qwen3.7-Max 新上榜并空降第4名,引发连锁反应,原第4至第9名模型集体顺延下降1位,上周第10名的 GPT-5.5-xhigh 因此掉出榜单。
LMArena Image Edit 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1467 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1467 |
| 2 | chatgpt-image-latest-high-fidelity | OpenAI | 1392 | 持平 | 2 | chatgpt-image-latest-high-fidelity | OpenAI | 1392 |
| 3 | grok-imagine-image-quality | xAI | 1388 | 上升5位 | 3 | grok-imagine-image-quality | xAI | 1388 |
| 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1387 | 持平 | 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1387 | ||
| 5 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | 持平 | 5 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | ||
| 6 | gemini-3-pro-image-preview (nano-banana-pro) | 1387 | 持平 | 6 | gemini-3-pro-image-preview (nano-banana-pro) | 1387 | ||
| 7 | gpt-image-1.5-high-fidelity | OpenAI | 1374 | 持平 | 7 | gpt-image-1.5-high-fidelity | OpenAI | 1374 |
| 8 | grok-imagine-image-quality | xAI | 1359 | 新上榜 | 8 | grok-imagine-image-quality | xAI | 1359 |
| 9 | uni-1.1-max | Luma AI | 1339 | 持平 | 9 | uni-1.1-max | Luma AI | 1339 |
| 10 | grok-imagine-image | xAI | 1332 | 持平 | 10 | grok-imagine-image | xAI | 1332 |
- 本周榜单主要变化
- grok-imagine-image-quality-1388:上升5位(#8 → #3)
- grok-imagine-image-quality-1374:新上榜(本周 #8)
- 原因分析
- xAI 的 Grok Imagine 图像质量评估模型排名大幅提升,可能受益于 xAI 近期对图像生成质量的优化迭代。该模型专注于图像质量评估维度,在 LMArena 的图像编辑质量投票中获得用户认可。
- 其排名跃升反映了用户对图像生成质量评估需求的增加,以及 xAI 在图像生成领域的技术投入开始显现效果。
LMArena Text to Image 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1388 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1389 |
| 2 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1271 | 持平 | 2 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1270 | ||
| 3 | mai-image-2.5-preview | Microsoft AI | 1254 | 新上榜 | 3 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1243 | |
| 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1245 | 下降1位 | 4 | gpt-image-1.5-high-fidelity | OpenAI | 1241 | |
| 5 | gpt-image-1.5-high-fidelity | OpenAI | 1241 | 下降1位 | 5 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | |
| 6 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | 下降1位 | 6 | grok-imagine-image-quality | xAI | 1228 | |
| 7 | grok-imagine-image-quality | xAI | 1228 | 下降1位 | 7 | uni-1.1-max | Luma AI | 1192 |
| 8 | uni-1.1-max | Luma AI | 1192 | 下降1位 | 8 | mai-image-2 | Microsoft AI | 1182 |
| 9 | mai-image-2 | Microsoft AI | 1182 | 下降1位 | 9 | uni-1.1 | Luma AI | 1176 |
| 10 | uni-1.1 | Luma AI | 1176 | 下降1位 | 10 | grok-imagine-image | xAI | 1173 |
- 本周榜单主要变化
- mai-image-2.5-preview:新上榜(本周 #3)
- grok-imagine-image:跌出榜单(上周 #10)
AA Image Editing 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 1.5 (high) | OpenAI | 1261 | 持平 | 1 | GPT Image 1.5 (high) | OpenAI | 1263 |
| 2 | GPT Image 2 (high) | OpenAI | 1252 | 持平 | 2 | GPT Image 2 (high) | OpenAI | 1253 |
| 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1242 | 持平 | 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1240 | ||
| 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1239 | 持平 | 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1236 | ||
| 5 | grok-imagine-image-quality | xAI | 1229 | 持平 | 5 | grok-imagine-image-quality | xAI | 1229 |
| 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1224 | 持平 | 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1224 |
| 7 | grok-imagine-image | xAI | 1213 | 持平 | 7 | grok-imagine-image | xAI | 1215 |
| 8 | Luma UNI 1 Max | Luma Labs | 1210 | 持平 | 8 | Luma UNI 1 Max | Luma Labs | 1211 |
| 9 | Kling Image 3.0 Omni | KlingAI | 1209 | 上升1位 | 9 | HiDream-O1-ImageOpen Weights | HiDream | 1211 |
| 10 | FLUX.2 [max] | Black Forest Labs | 1207 | 新上榜 | 10 | Kling Image 3.0 Omni | KlingAI | 1209 |
- 本周榜单主要变化
- FLUX.2 [max]:新上榜(本周 #10)
- HiDream-O1-ImageOpen Weights:跌出榜单(上周 #9)
AA Text to Image 数据采集 · 2026-05-22 → 2026-05-28
来源:https://artificialanalysis.ai/image/leaderboard/text-to-image
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 2 (high) | OpenAI | 1338 | 持平 | 1 | GPT Image 2 (high) | OpenAI | 1339 |
| 2 | GPT Image 1.5 (high) | OpenAI | 1268 | 持平 | 2 | GPT Image 1.5 (high) | OpenAI | 1267 |
| 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1260 | 持平 | 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1264 | ||
| 4 | Nano Banana Pro (Gemini 3 Pro Image) | 1219 | 持平 | 4 | Nano Banana Pro (Gemini 3 Pro Image) | 1219 | ||
| 5 | Recraft V4.1 Utility Pro | Recraft | 1203 | 新上榜 | 5 | grok-imagine-image-quality | xAI | 1210 |
| 6 | grok-imagine-image-quality | xAI | 1203 | 下降1位 | 6 | MAI-Image-2 | Microsoft | 1196 |
| 7 | Seedream 4.0 | ByteDance Seed | 1195 | 上升1位 | 7 | FLUX.2 [max] | Black Forest Labs | 1196 |
| 8 | FLUX.2 [max] | Black Forest Labs | 1194 | 下降1位 | 8 | Seedream 4.0 | ByteDance Seed | 1195 |
| 9 | MAI-Image-2 | Microsoft | 1194 | 下降3位 | 9 | Recraft V4.1 Utility | Recraft | 1191 |
| 10 | Recraft V4.1 Utility | Recraft | 1192 | 下降1位 | 10 | FLUX.2 [pro] | Black Forest Labs | 1190 |
- 本周榜单主要变化
- MAI-Image-2:下降3位(#6 → #9)
- Recraft V4.1 Utility Pro:新上榜(本周 #5)
- FLUX.2 [pro]:跌出榜单(上周 #10)
- 原因分析
- MAI-Image-2 排名下滑受近期多个高质量文生图模型发布的影响,GPT-Image-2 和 grok-imagine-image-quality 等模型的竞争加剧分流了用户投票。
- MAI-Image-2 作为较早发布的文生图模型,在生成质量和多样性上可能已落后于新迭代模型,反映了文生图领域技术迭代速度快的特点。
GPQA 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Mythos Preview | Anthropic | 94.6 | 持平 | 1 | Claude Mythos Preview | Anthropic | 94.6 |
| 2 | Gemini 3.1 Pro | 94.3 | 持平 | 2 | Gemini 3.1 Pro | 94.3 | ||
| 3 | Claude Opus 4.7 | Anthropic | 94.2 | 持平 | 3 | Claude Opus 4.7 | Anthropic | 94.2 |
| 4 | Claude Opus 4.8 | Anthropic | 93.6 | 新上榜 | 4 | GPT-5.5 | OpenAI | 93.6 |
| 5 | GPT-5.5 | OpenAI | 93.6 | 下降1位 | 5 | GPT-5.2 Pro | OpenAI | 93.2 |
| 6 | GPT-5.2 Pro | OpenAI | 93.2 | 下降1位 | 6 | GPT-5.4 | OpenAI | 92.8 |
| 7 | GPT-5.4 | OpenAI | 92.8 | 下降1位 | 7 | GPT-5.2 | OpenAI | 92.4 |
| 8 | Qwen3.7 Max | Alibaba Cloud / Qwen Team | 92.4 | 新上榜 | 8 | Gemini 3 Pro | 91.9 | |
| 9 | GPT-5.2 | OpenAI | 92.4 | 下降2位 | 9 | Claude Opus 4.6 | Anthropic | 91.3 |
| 10 | Gemini 3 Pro | 91.9 | 下降2位 | 10 | Kimi K2.6 | Moonshot AI | 90.5 | |
- 本周榜单主要变化
- Claude Opus 4.8:新上榜(本周 #4)
- Qwen3.7 Max:新上榜(本周 #8)
- Claude Opus 4.6:跌出榜单(上周 #9)
- Kimi K2.6:跌出榜单(上周 #10)
- 原因分析
- GPQA 榜单有 2 款模型新上榜、2 款跌出,但整体排名变化幅度较小(均 < 3 位)。这反映了 GPQA 领域模型能力差距较小,排名受特定模型在物理推理上的细微优势影响。
- GPQA 作为高难度学术基准,整体变化相对缓慢。新上榜模型可能在物理推理的特定子领域有小幅优势。
MedBench 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | 京医千询 | 京东健康 | 72.6 | 持平 | 1 | 京医千询 | 京东健康 | 72.6 |
| 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 | 持平 | 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 |
| 3 | 千问健康大模型 | 千问C端 | 71.2 | 持平 | 3 | 千问健康大模型 | 千问C端 | 71.2 |
| 4 | 华为云健康管理大模型 | Huawei | 71.0 | 持平 | 4 | 华为云健康管理大模型 | Huawei | 71.0 |
| 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 | 持平 | 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 |
| 6 | 微医医疗大模型 | 微医 | 68.2 | 持平 | 6 | 微医医疗大模型 | 微医 | 68.2 |
| 7 | AntAngelMed | MedAIBase | 68.0 | 持平 | 7 | AntAngelMed | MedAIBase | 68.0 |
| 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 | 持平 | 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 |
| 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 | 持平 | 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 |
| 10 | Grok-4 | xAI | 58.4 | 持平 | 10 | Grok-4 | xAI | 58.4 |
- 本周榜单主要变化无重大变化
OpenCompass LLM 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.4 (high) | OpenAI | 67.3 | 持平 | 1 | GPT-5.4 (high) | OpenAI | 67.3 |
| 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 | 持平 | 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 |
| 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 | 持平 | 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 |
| 4 | Doubao-Seed-2-0-Pro (high) | ByteDance | 63.5 | 持平 | 4 | Doubao-Seed-2-0-Pro (high) | ByteDance | 63.5 |
| 5 | Kimi-K2.6 | Moonshot | 63.4 | 持平 | 5 | Kimi-K2.6 | Moonshot | 63.4 |
| 6 | Gemini-3.1-Pro-Preview | 63.2 | 持平 | 6 | Gemini-3.1-Pro-Preview | 63.2 | ||
| 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 | 持平 | 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 |
| 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 | 持平 | 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 |
| 9 | Doubao-Seed-2-0-Lite (high) | ByteDance | 60.4 | 持平 | 9 | Doubao-Seed-2-0-Lite (high) | ByteDance | 60.4 |
| 10 | GLM-5.1 | Zhipu AI | 59.0 | 持平 | 10 | GLM-5.1 | Zhipu AI | 59.0 |
- 本周榜单主要变化无重大变化
OpenCompass Multimodal 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Gemini-3.1-Pro-Preview | 66.6 | 持平 | 1 | Gemini-3.1-Pro-Preview | 66.6 | ||
| 2 | Qwen3.5-397B | Alibaba | 65.4 | 持平 | 2 | Qwen3.5-397B | Alibaba | 65.4 |
| 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.2 | 持平 | 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.2 |
| 4 | Kimi-k2.5 | Moonshot AI | 63.0 | 持平 | 4 | Kimi-k2.5 | Moonshot AI | 63.0 |
| 5 | SenseNova-V6-5-Pro | SenseTime | 55.6 | 持平 | 5 | SenseNova-V6-5-Pro | SenseTime | 55.6 |
| 6 | Claude-Opus-4-6 | Anthropic | 55.2 | 持平 | 6 | Claude-Opus-4-6 | Anthropic | 55.2 |
| 7 | GLM4_6V | Zhipu AI | 52.5 | 持平 | 7 | GLM4_6V | Zhipu AI | 52.5 |
| 8 | GPT-5.4 | OpenAI | 51.5 | 持平 | 8 | GPT-5.4 | OpenAI | 51.5 |
| 9 | Step3-VL-10B | StepFun | 48.8 | 持平 | 9 | Step3-VL-10B | StepFun | 48.8 |
| 10 | Ovis2.6-30B-A3B | Alibaba | 48.4 | 持平 | 10 | Ovis2.6-30B-A3B | Alibaba | 48.4 |
- 本周榜单主要变化无重大变化
LiveCodeBench GSO 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Opus 4.7 | Anthropic | 44.1 | 持平 | 1 | Claude Opus 4.7 | Anthropic | 44.1 |
| 2 | Claude Opus 4.6 | Anthropic | 41.2 | 上升2位 | 2 | Claude Opus 4.6 | Anthropic | 41.2 |
| 3 | GPT 5.5 | OpenAI | 40.2 | 持平 | 3 | GPT 5.5 | OpenAI | 40.2 |
| 4 | Claude Opus 4.6 | Anthropic | 33.3 | 新上榜 | 4 | Claude Opus 4.6 | Anthropic | 33.3 |
| 5 | GPT 5.4 | OpenAI | 31.4 | 上升3位 | 5 | GPT 5.4 | OpenAI | 31.4 |
| 6 | GPT 5.2 | OpenAI | 27.4 | 持平 | 6 | GPT 5.2 | OpenAI | 27.4 |
| 7 | Claude Opus 4.5 | Anthropic | 26.5 | 持平 | 7 | Claude Opus 4.5 | Anthropic | 26.5 |
| 8 | GPT 5.4 | OpenAI | 25.5 | 新上榜 | 8 | GPT 5.4 | OpenAI | 25.5 |
| 9 | Gemini 3.1 Pro | 22.6 | 持平 | 9 | Gemini 3.1 Pro | 22.6 | ||
| 10 | Gemini 3 Pro | 18.6 | 持平 | 10 | Gemini 3 Pro | 18.6 | ||
- 本周榜单主要变化
- GPT 5.4:上升3位(#8 → #5)
- Claude Opus 4.6:新上榜(本周 #4)
- GPT 5.4:新上榜(本周 #8)
- Claude Opus 4.6:跌出榜单(上周 #2)
- GPT 5.4:跌出榜单(上周 #5)
- 原因分析
- OpenAI GPT 5.4 排名上升反映了其代码生成能力的持续提升,可能受益于 OpenAI 在代码训练数据和方法上的优化,特别是在多语言代码生成和复杂算法实现方面的改进。
- 其排名上升也与 OpenAI 近期对开发者生态的投入有关,包括更完善的 API 文档和代码辅助工具集成。
SWE-bench 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 2 | Gemini 3 Flash (high reasoning) | 75.8% | 持平 | 2 | Gemini 3 Flash (high reasoning) | 75.8% | ||
| 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% | 持平 | 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% |
| 4 | Claude Opus 4.6 | Anthropic | 75.6% | 持平 | 4 | Claude Opus 4.6 | Anthropic | 75.6% |
| 5 | GPT-5-2 Codex | OpenAI | 72.8% | 持平 | 5 | GPT-5-2 Codex | OpenAI | 72.8% |
| 6 | GLM-5 (high reasoning) | 智谱 AI | 72.8% | 持平 | 6 | GLM-5 (high reasoning) | 智谱 AI | 72.8% |
| 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% | 持平 | 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% |
| 8 | GPT 5.2 Codex | OpenAI | 72.8% | 持平 | 8 | GPT 5.2 Codex | OpenAI | 72.8% |
| 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% | 持平 | 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% |
| 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% | 持平 | 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% |
- 本周榜单主要变化无重大变化
Scale HLE 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 2 | gpt-5.4-pro | OpenAI | 44.3 | 持平 | 2 | gpt-5.4-pro | OpenAI | 44.3 |
| 3 | Muse Spark | Mistral AI | 40.6 | 持平 | 3 | Muse Spark | Mistral AI | 40.6 |
| 4 | gemini-3-pro-preview | 37.5 | 持平 | 4 | gemini-3-pro-preview | 37.5 | ||
| 5 | gpt-5.4 (xhigh thinking) | OpenAI | 36.2 | 持平 | 5 | gpt-5.4 (xhigh thinking) | OpenAI | 36.2 |
| 6 | claude-opus-4-7 | Anthropic | 36.2 | 持平 | 6 | claude-opus-4-7 | Anthropic | 36.2 |
| 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 | 持平 | 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 |
| 8 | gpt-5-pro | OpenAI | 31.6 | 持平 | 8 | gpt-5-pro | OpenAI | 31.6 |
| 9 | gpt-5.2 | OpenAI | 27.8 | 持平 | 9 | gpt-5.2 | OpenAI | 27.8 |
| 10 | gpt-5 | OpenAI | 25.3 | 持平 | 10 | gpt-5 | OpenAI | 25.3 |
- 本周榜单主要变化无重大变化
Epoch FrontierMath 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% | 持平 | 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% |
| 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% | 持平 | 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% |
| 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% | 持平 | 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% |
| 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% | 持平 | 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% |
| 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% | 持平 | 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% |
| 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% | 持平 | 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% |
| 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% | 持平 | 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% |
| 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% | 持平 | 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% |
| 9 | GPT-5.2 (high) | OpenAI | 40.3% | 持平 | 9 | GPT-5.2 (high) | OpenAI | 40.3% |
| 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% | 持平 | 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% |
- 本周榜单主要变化无重大变化
Hugging Face GAIA 数据采集 · 2026-05-22 → 2026-05-28
| 本周 · 2026-05-22 → 2026-05-28 | 上周 · 2026-05-15 → 2026-05-21 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | OPS-Agentic-Search | Alibaba Cloud | 92.4 | 持平 | 1 | OPS-Agentic-Search | Alibaba Cloud | 92.4 |
| 2 | openJiuwen-deepagent | openJiuwen | 91.7 | 持平 | 2 | openJiuwen-deepagent | openJiuwen | 91.7 |
| 3 | Lemon | LR AILab of Lenovo CTO Org | 91.4 | 持平 | 3 | Lemon | LR AILab of Lenovo CTO Org | 91.4 |
| 4 | JoinAI_V2.2 | JoinAI-CMCC | 90.7 | 持平 | 4 | JoinAI_V2.2 | JoinAI-CMCC | 90.7 |
| 5 | Nemotron-ToolOrchestra-0107 | NVIDIA | 90.4 | 持平 | 5 | Nemotron-ToolOrchestra-0107 | NVIDIA | 90.4 |
| 6 | Nemotron-ToolOrchestra-0106 | NVIDIA | 90.4 | 持平 | 6 | Nemotron-ToolOrchestra-0106 | NVIDIA | 90.4 |
| 7 | JoinAI_V2.1 | JoinAI-CMCC | 90.0 | 持平 | 7 | JoinAI_V2.1 | JoinAI-CMCC | 90.0 |
| 8 | SU Zero - Shuqian Series Pro MAX | Suzhou AI Lab, Shuqian Tech | 90.0 | 持平 | 8 | SU Zero - Shuqian Series Pro MAX | Suzhou AI Lab, Shuqian Tech | 90.0 |
| 9 | HALO V1217-1 | Microsoft AI Asia - Ads | 89.4 | 持平 | 9 | HALO V1217-1 | Microsoft AI Asia - Ads | 89.4 |
| 10 | ShawnAgent_v3.1 | 89.4 | 持平 | 10 | ShawnAgent_v3.1 | 89.4 | ||
- 本周榜单主要变化无重大变化
动态分析
周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。
本周大盘三项核心指标
本周 OpenRouter 共流转 30.12T tokens, 环比 +10.0% — 较上周 27.38T 继续增长。
新模型发布: Anthropic Claude Opus 4.8 (5-28 发布) 当周仅末日反映,完整效应将在下窗口呈现。
WoW +10.0%, 大盘进入稳态扩张 — Anthropic +35% / xiaomi NEW +4.49pp 是本周两个最显著的厂商级变化。
本期关键指标 数据采集 · 2026-05-22 → 2026-05-28
本期 2026-05-22 → 2026-05-28 · Δ 对照上一窗口 2026-05-18 → 2026-05-24
- 05-28 Anthropic Claude Opus 4.8 (SWE-bench Pro 69.2%)
- 05-27 小米 MiMo-V2.5 API 降价 99%
本周 Top 10 的 3 处关键变动
Anthropic 双旗舰加速 — Opus 4.7 +73% / Sonnet 4.6 +25%:Opus 4.7 升 1 位至 #3 (2.64T) · Sonnet 4.6 微降 1 位至 #4 (2.05T)。
V4 Flash 与 Hy3 持续守 #1 / #2 — 两款 +17% / +6% WoW:V4 Flash 3.44T (vs 上周 2.95T) · Hy3 3.08T (vs 上周 2.90T)。
两款新模型同窗新入 Top 10 — xiaomi MiMo-V2.5-Pro #9 (0.82T) + nvidia Nemotron #10 (0.66T):
Token 调用量 · Top 10 数据采集 · 2026-05-22 → 2026-05-28
本周窗口 2026-05-22 → 05-28 (Fri-Thu) · 单位 B tokens · 按厂商着色
近 4 周 Top 模型排名走势
DeepSeek V4 Flash 守冠 2 窗口: 04-27 #9 → 05-11 #2 → 05-18 #1 → 05-22 #1 (4 窗累计上升 8 位)。
Tencent Hy3 付费版让位后守 #2: 05-11 窗口 #1 (2.66T) → 05-18 #2 (3.07T) → 05-22 #2 (3.08T, +0.2%)。
Anthropic 双旗舰 4 窗稳定 Top 5: Opus 4.7 04-20 #4 → 04-27 #5 → 05-11 #4 → 05-18 #3 → 05-22 #3;Sonnet 4.6 04-20/27 #3 → 05-11/18 #4。
xiaomi MiMo-V2.5-Pro 新进 Top 10: 04-20 #— → 04-27 #— → 05-11 #— → 05-18 #— → 05-22 #9 (0.82T NEW)。
排名变迁 · 近 4 周 数据采集 · 04-27 → 05-28
X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines · 05-04 窗口数据缺失
厂商份额变化分布: Anthropic +2.25pp 加速追赶, xiaomi NEW 入榜, Moonshot 跌出
Anthropic +3.46pp — 头部追赶加速: 双旗舰本周合计 +1.53T 至 4.69T。
xiaomi NEW +4.49pp — 直接入榜 Top 10: MiMo-V2.5-Pro 单模型 0.82T 支撑。
Moonshot -3.63pp — 跌出厂商 Top 10: Kimi K2.6 已跌出模型 Top 10。
DeepSeek 0.00pp — 守 #1 厂商但与大盘同步增长: 三模型同窗位列 Top 10。
厂商份额 Δ 数据采集 · 2026-05-18 → 2026-05-22
百分点变动 · 中线 0 · 绿正红负 · 05-22→05-28 vs 05-15→05-21
Anthropic +3.46pp 追近 DeepSeek 至 0.82pp, xiaomi NEW 入榜, Moonshot 跌出 Top 10
Anthropic +3.46pp 追近 DeepSeek 至 0.82pp: 14 周以来差距最小。
xiaomi NEW +4.49pp 入榜 #7 厂商: MiMo-V2.5-Pro 单模型推动。
Moonshot 跌出 Top 10: 份额 3.63% → 2.71% (-0.92pp)。
厂商份额组成 数据采集 · 05-22 → 05-28 (外环) vs 05-15 → 05-21 (内环)
双层 doughnut · 10 段
查证与发现 — 多周完整数据视图
这一页通过视觉化的形式展示更多细节数据和趋势 —— 挑任意一周看榜单、看长期趋势、跨数据集做对比,补足周报无法展开的细节。
国产阵营 OpenRouter token 调用量份额: 14 个 7 天窗口稳定在 ~40% 区间, 最新窗口 44.3%
每条色带是一家厂商的 OpenRouter token 调用量份额,纵向加总恒为 100%,横轴为滚动 14 个 7 天窗口。用右上按钮可单看国产或海外阵营,观察份额随时间此消彼长。
OpenRouter token 调用量 #1 在 14 个 7 天窗口内易主 7 次, DeepSeek V4 Flash 连冠 2 窗口
拖动上方的时间条,回放任一 7 天窗口的 OpenRouter token 调用量榜单,看清榜首在 14 个窗口里如何反复易主。
OpenRouter 新模型上线: 2026-04-20 / 04-27 起两窗口连续高峰,随后 (2026-05-12 → 05-24) 进入静默期
每个点代表一次新模型上线,横向按窗口排列、颜色区分厂商,描边点为日后进入过 Top 9 的模型;点的疏密即各周的发布节奏。
OpenRouter token 份额: 开源 vs 闭源差距由 37.0pp 收窄至 ~2pp (滚动 14 个 7 天窗口)
把所有厂商并入开源、闭源两大阵营后的份额对决;两条色带此长彼消,反映 14 个窗口里开闭源之间的差距如何收窄。
5 款开源模型 OpenRouter token 量生命周期: 上线后约 8 个 7 天窗口降至峰值 1/3
将 5 款开源模型对齐到「上线后第 N 个窗口」,叠看它们从首发冲顶到回落的生命周期曲线有多相似。
6 个能力榜 Top 8 国产/海外分布 (leaderboards.db 2026-05-29 快照)
每一行是一个能力榜的 Top 8 席位构成,绿色为国产、灰色为海外,一眼看清各榜单的阵营版图。反映的是能力评估格局,与 OpenRouter 的市场份额不是一回事。
OpenRouter Top 10 模型任务构成 (编程占比, 类别数据滞后一周): StepFun Step 3.5 Flash 71% 最高
每一行是一款 Top 模型,横向色段表示其 token 在各任务类别上的占比,凸显谁更偏编程。类别数据按 OR 周度发布,较本期主窗口滞后约一周。
OpenRouter 吞吐量快照 (2026-06-01): OpenAI gpt-oss 三款占据 Top 3, 量级跨入千 tok/s 区间
按 p50 生成速度 (tok/s) 排出的单日吞吐量 Top 10,数值越高代表出字越快。此口径与分析师 §2.4 原表不同源,不宜直接横比。
历史周报
过往周报归档,可按发布日期、模型或主题搜索。