Panda Leaderboard · 大模型榜单中心
本周报会在每周五进行更新
编辑 · 2026-05-29

本周榜单变化总览

数据采集 · 2026-05-22 → 2026-05-28 · 19 张榜单 / 11 有变化
19 张榜单本周主要变动对比周期:2026-05-22 → 2026-05-28 vs 2026-05-15 → 2026-05-21
榜单名称本周主要变动模型数据质量警报
LMArena Text无重大变化数据正常
LMArena CodeQwen3.7-Max 新上榜并空降第 4 名数据正常
LMArena Image Editgrok-imagine-image-quality-1388 上升5位(#8 → #3), grok-imagine-image-quality-1374 新上榜(本周 #8)数据正常
LMArena Text to Imagemai-image-2.5-preview (新上榜);grok-imagine-image (跌出)数据正常
AA Image EditingFLUX.2 [max] (新上榜);HiDream-O1-ImageOpen Weights (跌出)数据正常
AA Text to ImageMAI-Image-2 (下降3位);Recraft V4.1 Utility Pro (新上榜);FLUX.2 [pro] (跌出)数据正常
GPQAClaude Opus 4.8 (新上榜);Qwen3.7 Max (新上榜);Claude Opus 4.6 (跌出);Kimi K2.6 (跌出)数据正常
MedBench无重大变化数据正常
OpenCompass LLM无重大变化数据正常
OpenCompass Multimodal无重大变化数据正常
LiveCodeBench GSOGPT 5.4 (上升3位);Claude Opus 4.6 (新上榜);GPT 5.4 (新上榜);Claude Opus 4.6 (跌出);GPT 5.4 (跌出)数据正常
SWE-bench无重大变化数据正常
Scale HLE无重大变化数据正常
Epoch FrontierMath无重大变化数据正常
Hugging Face GAIA无重大变化数据正常
OpenRouter 模型调用量mimo-v2.5-pro (新上榜);nemotron-3-super-120b-a12b (新上榜)数据正常
OpenRouter 厂商调用量xiaomi (总量爆发增长);moonshotai (总量下滑)数据正常
OpenRouter 编程调用量claude-4.7-opus (上升3位);kimi-k2.6 (下降3位);claude-4.6-sonnet (上升4位);gpt-5.5 (新上榜)数据正常
OpenRouter 模型吞吐量无重要变化数据正常

本周大模型行业重要动态

监控窗口 · 2026-05-22 → 2026-05-28 · 6 条核心进展
01
OpenAI

OpenAI对GPT-5.5 Instant进行能力升级,改善响应风格与质量,使回答更易读、对话更自然、任务节奏更合理。同时宣布o3和GPT-4.5将从ChatGPT逐步退役,o3于8月26日退役(90天过渡期),GPT-4.5于6月27日退役(30天过渡期),仅影响ChatGPT产品端

来源 · OpenAI Help Center
02
Anthropic

Anthropic于5月28日发布Claude Opus 4.8,在编码与推理方面较Opus 4.7显著提升,代码缺陷漏检概率降低四倍,SWE-bench Pro达69.2%。新增Dynamic Workflows支持单次会话数百个并行子代理,Fast Mode提速2.5倍且定价降至此前三分之一

来源 · Anthropic Help Center
03
小米

小米于5月27日宣布MiMo-V2.5系列API永久降价,最高降幅达99%,不再区分上下文窗口长度,Pro档缓存命中输入降至0.025元/百万Tokens。Token Plan计费体系同步优化,同等价格下用量提升至原5-8倍,在有效期内用户额度全量重置,新价格全球同步生效

来源 · IT之家 ithome.com
04
快手

快手推出可灵AI 2.1系列视频生成模型,1080p分辨率生成5秒视频仅需不到1分钟,标准模式(720p)仅需20灵感值。该升级大幅降低高质量视频生成成本门槛,加速AI视频生成技术的普惠化与商业化落地

来源 · 快手官方
05
美团

美团正式开源LongCat-Video-Avatar 1.5数字人视频模型,定位为商业级应用。采用DMD蒸馏将推理压缩至8步,效率提升约15倍,支持真人、动漫、动物等多类主体及多人对话场景,复杂语音输入下保持唇部运动精准平滑。项目已完整开源至GitHub、HuggingFace和ModelScope

来源 · 美团技术团队官方博客 tech.meituan.com
06
阶跃星辰

阶跃发布开源模型 Step 3.7 Flash,具备原生多模态理解能力,并打通了搜索、工具调用、GUI 感知、代码生成等完整 Agent Loop 执行能力

来源 · https://mp.weixin.qq.com/s/fM5f8RdOcffedNLq4QSgnA

本周大模型行业趋势洞察

数据周期 · 2026-05-22 → 2026-05-28 · 3 条核心趋势
二、OpenRouter 分析

OpenRouter 平台调用量与性能

数据采集 · 2026-05-22 → 2026-05-28 · 对照周期 · 2026-05-15 → 2026-05-21

本周 OpenRouter 综合分析报告周期 · 2026-05-22 → 2026-05-28对照周期 · 2026-05-15 → 2026-05-21

1. 模型性价比与极致性能形成双轨竞争,市场分层明显。 DeepSeek-v4-flash 以不足 Claude 1/25 的定价稳居调用量榜首;小米 mimo-v2.5-pro 周环比增长475%,主要也是因为中等定价+高性能。而 Claude-Opus-4.7 凭借全榜最高的 benchmark 实现 73% 的 WoW 爆发增长,说明高端场景愿为性能支付显著溢价。

2. 编程场景头部格局剧烈洗牌,高性能或者高性价比驱动开发者迁移。 本周编程调用量前三发生显著变动:DeepSeek-v4-flash 与 Claude-4.7-Opus 分别跃升 2 位和 3 位,而上周第一的 Kimi-k2.6 跌至第 4。这表明开发者对代码生成场景的模型选择高度务实,性能优势或者性价比优势会引发快速迁移。

3. 部分模型凭借免费或超低价在 openrouter 榜单上榜,其增长质量和可持续性需要进一步观察。 Owl-alpha 与 Nemotron-3-super 依赖免费或近零定价冲入前十,但前者 top5 集中度达 73%、后者 benchmark 基本全面垫底;如果仅靠价格补贴拉新,缺乏模型质量支撑,难以建立中长期用户粘性。

OpenRouter 子榜单 · 2.1 模型调用量 / 2.2 厂商调用量 / 2.3 编程调用量 / 2.4 模型吞吐量

4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings

2.1 OpenRouter 模型调用量榜单 数据采集 · 2026-05-22 → 2026-05-28

来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10

排名模型厂商Tokens (T)WoW变化定性健康度风险提示
1deepseek-v4-flashdeepseek3.53+17%[稳定]无显著风险
2hy3-previewtencent3.11+6%[稳定]无显著风险
3claude-opus-4.7anthropic2.64+73%[排名小幅上升1位]无显著风险
4claude-sonnet-4.6anthropic2.05+25%[排名小幅下降1位]无显著风险
5owl-alphaopenrouter1.38+17%[稳定]top5集中度73%
6deepseek-v4-prodeepseek1.21+24%[排名小幅上升2位]无显著风险
7gemini-3-flash-previewgoogle1.01-11%[排名小幅下降1位]无显著风险
8deepseek-v3.2deepseek0.96-12%[排名小幅下降1位]无显著风险
9mimo-v2.5-proxiaomi0.82+475%[新上榜]P/C=229>200
10nemotron-3-super-120b-a12bnvidia0.66+12%[新上榜], [FREE] 排名受免费驱动P/C=235>200
模型解读 · 报告 2.1(6 / 10 款模型附详细分析)
deepseek-v4-flash#1 → #1(变化 0 位)WoW 17%[稳定]
P/C60R/C1.653top5 App 集中度23%intelligence index47coding index39agentic index61input price0.0897

核心驱动力是高性价比。input 定价仅 0.0897,在 Top 10 非免费模型中是偏低的,而 intelligence(47)、coding(39)、agentic(61)三项指标均处于中上水平(intelligence 排名 3/8),足以覆盖大多数实际应用场景。开发者可以用 claude-opus-4.7 1/25 的成本获得接近的通用能力,性价比优势是其稳居榜首的根本原因。top5 集中度 23% 说明用户分布健康,非依赖单一应用。

hy3-preview#2 → #2(变化 0 位)WoW 6%[稳定]
P/C92R/C1.0001top5 App 集中度1%intelligence index42coding index36agentic index56input price0.0334

低价策略精准切中价格敏感用户群。input 定价 0.0334 是 deepseek-v4-flash(0.09)的 37%,对成本极度敏感的长尾应用具有吸引力,top5 集中度仅 1% 印证了这一点,说明其用户高度分散在大量中小应用中。intelligence(42)和 coding(36)在榜单内中等偏下,虽非顶尖但对轻量场景够用。WoW 仅 6% 增长平缓,提示价格敏感用户群已接近饱和,进一步增长需靠性能提升而非降价。

claude-opus-4.7#4 → #3(变化 +1 位)WoW 73%[排名小幅上升1位]
P/C56R/C0.0125top5 App 集中度12%intelligence index57coding index53agentic index71input price2.2605

模型性能全面领先驱动高端市场认可。intelligence 57、coding 53、agentic 71 三项 benchmark 均为 Top 10 第一,在代码生成、复杂推理、Agent 构建等对质量要求苛刻的高端场景几乎无替代品。WoW 73% 爆发增长说明企业级用户愿意为性能溢价付费。同时定价为全榜最高(input 约 2.26),是 deepseek-v4-flash 的约 25 倍,价格天花板使其无法覆盖中低端用户,整体看该模型性能第一,价格是最大制约因素

owl-alpha#5 → #5(变化 0 位)WoW 17%[稳定]
P/C54R/C0.000top5 App 集中度73%input price0.0000

零成本是核心因素。input/output 均为 0(免费),对尝鲜用户有天然吸引力。R/C=0 表明其无推理过程,intelligence/coding/agentic 三项 benchmark 全部缺失,模型真实能力未知。 Top5 集中度高达 73%,超过 70% 警戒线,意味着调用量高度依赖少数头部应用。免费拉新有效,但模型质量和用户集中度构成双重风险

mimo-v2.5-pro#33 → #9(变化 +24 位)WoW 475%[新上榜]
P/C229R/C0.8839top5 App 集中度18%intelligence index54coding index46agentic index67input price0.4736

模型性能优秀,爆发式增长的同时伴随着高P/C信号。WoW 475% 从第 33 位飙升至第 9 位,但 P/C=229 有高输入分析。intelligence/coding/agentic 三项 benchmark 在 top 10 中基本都排名第二,显示出该模型性能相当优秀。Input 定价 0.4736 在 top 10中处于中等位置,但在中国模型阵营中定价相对偏高。综合判断:增长主要由高性价比驱动的。另外小米官方已经官宣 API 大幅度降价,后期其在 openrouter 平台上的定价竞争策略也值得关注

nemotron-3-super-120b-a12b#12 → #10(变化 +2 位)WoW 12%[新上榜]
P/C235R/C2.5154top5 App 集中度57%intelligence index36coding index31agentic index40input price0.00000009

nvidia 品牌效应 + 接近免费的定价吸引开发者试用。input 定价几乎为零,对想尝试大模型但预算有限的开发者有吸引力。WoW 12% 增长温和而非爆发,说明增长来自自然流量而非激进推广。但 benchmark 数据显示 intelligence(36)、coding(31)、agentic(40)三项指标均处于垫底水平,并不具备质量优势。P/C=235 偏高提示高输入模型,top5 集中度 57% 也偏高。作为新进入者能否在 Top 10 站稳脚跟留住试用用户,还有待观察

2.2 OpenRouter 厂商调用量榜单 数据采集 · 2026-05-22 → 2026-05-28

来源:openrouter.ai/rankings · 厂商按 token 调用量

排名厂商最近两周上榜模型数本周总量 (T)总量 WoW关键观察厂商内部模型变动简述
1deepseek35.89+10%总量稳定增长deepseek-v4-flash 排名稳定;deepseek-v4-pro 排名上升2位;deepseek-v3.2 排名下降1位
2anthropic25.64+35%总量稳定增长claude-opus-4.7 排名上升1位;claude-sonnet-4.6 排名下降1位
3google13.91-1%总量下滑gemini-3-flash-preview 排名下降1位
4tencent13.11+6%总量稳定增长hy3-preview 排名稳定
5openai02.38+9%总量稳定增长无上榜模型
6openrouter11.38+17%总量稳定增长owl-alpha 排名稳定
7xiaomi11.35+300%总量爆发增长mimo-v2.5-pro 新上榜
8z-ai00.95-1%总量下滑无上榜模型
9qwen00.9+4%总量稳定增长无上榜模型
10moonshotai00.82-18%总量下滑无上榜模型
  • 厂商解读 (报告 2.2)
    • deepseek · 本周总量 5.89T,市场份额 20.45%,总量 WoW 10%。在榜模型包括 deepseek-v4-flash, deepseek-v4-pro, deepseek-v3.2。v4-flash 以极致性价比守住第一,v4-pro 承接高端推理需求,v3.2 维持存量用户,三代模型形成完整价格梯度,覆盖从散客试用到企业级推理全谱系需求。
    • anthropic · 本周总量 5.64T,市场份额 19.56%,总量 WoW 35%。在榜模型包括 claude-opus-4.7, claude-sonnet-4.6。opus 以全榜第一的性能锚定高端市场,sonnet 以中等定价覆盖性价比用户,双模型策略有效。但市占率与 deepseek 仅差 0.89 个百分点,定价过高是其进一步扩大的最大障碍。
    • xiaomi · 本周总量 1.35T,市场份额 4.69%,总量 WoW 300%。在榜模型包括 mimo-v2.5-pro。mimo-v2.5-pro 新上榜即冲至第 9 位,该模型综合性能相当优秀,但 P/C=229 有高输入风险。
    • moonshotai · 本周总量 0.82T,市场份额 2.83%,总量 WoW -18%。kimi 定价相对较高,最近两周被替代效应比较明显。

2.3 OpenRouter 编程类调用量榜单 数据采集 · 2026-05-22 → 2026-05-28

来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1deepseek-v4-flashdeepseek855.9B上升2位1kimi-k2.6moonshotai1159.6B
2claude-4.7-opusanthropic736.6B上升3位2hy3-previewtencent716.3B
3hy3-previewtencent654.4B下降1位3deepseek-v4-flashdeepseek550.9B
4kimi-k2.6moonshotai524.3B下降3位4step-3.5-flashstepfun536.3B
5claude-4.6-sonnetanthropic475.3B上升4位5claude-4.7-opusanthropic521.3B
6step-3.5-flashstepfun470.9B下降2位6nemotron-3-super-120b-a12bnvidia415.0B
7nemotron-3-super-120b-a12bnvidia430.4B下降1位7deepseek-v4-prodeepseek403.2B
8deepseek-v4-prodeepseek412.3B下降1位8ring-2.6-1tinclusionai396.5B
9gpt-5.5openai291.0B新上榜9claude-4.6-sonnetanthropic388.1B

2.4 OpenRouter 模型吞吐量榜单 数据采集 · 2026-05-22 → 2026-05-28

来源:openrouter.ai/rankings · 吞吐量指标 · 本周快照 Top 10

排名模型公司指标 (本周)
1gpt-oss-120bopenai912
2gpt-oss-20bopenai711
3gpt-oss-safeguard-20bopenai635
4GLM 4.7z-ai384
5Qwen3 32Bqwen369
6Mercury 2inception350
7MiniMax M2.5minimax277
8Llama 3.1 8B Instructmeta-llama209
9Llama 4 Scoutmeta-llama187
10o3 Miniopenai185
三、其他榜单

其他榜单 — 15 张外部基准

数据采集 · 2026-05-22 → 2026-05-28 · 对照周期 · 2026-05-15 → 2026-05-21 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源

1. LMArena Text

LMArena Text 数据采集 · 2026-05-22 → 2026-05-28

来源:https://lmarena.ai/zh/leaderboard/text

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1claude-opus-4-6-thinkingAnthropic1502持平1claude-opus-4-6-thinkingAnthropic1502
2claude-opus-4-7-thinkingAnthropic1500持平2claude-opus-4-7-thinkingAnthropic1500
3claude-opus-4-6Anthropic1498持平3claude-opus-4-6Anthropic1498
4claude-opus-4-7Anthropic1494持平4claude-opus-4-7Anthropic1492
5muse-sparkMeta1489持平5muse-sparkMeta1489
6gemini-3.1-pro-previewGoogle1487持平6gemini-3.1-pro-previewGoogle1488
7gemini-3-proGoogle1486持平7gemini-3-proGoogle1486
8gpt-5.5-highOpenAI1482持平8gpt-5.5-highOpenAI1481
9gpt-5.4-highOpenAI1480上升1位9gemini-3.5-flashGoogle1480
10gemini-3.5-flashGoogle1479下降1位10gpt-5.4-highOpenAI1480
  • 本周榜单主要变化无重大变化
2. LMArena Code

LMArena Code 数据采集 · 2026-05-22 → 2026-05-28

来源:https://arena.ai/leaderboard/code/webdev

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1claude-opus-4-7-thinkingAnthropic1567持平1claude-opus-4-7-thinkingAnthropic1567
2claude-opus-4-7Anthropic1562持平2claude-opus-4-7Anthropic1560
3claude-opus-4-6-thinkingAnthropic1542持平3claude-opus-4-6-thinkingAnthropic1545
4qwen3.7-max-20260517Alibaba1541新上榜4claude-opus-4-6Anthropic1540
5claude-opus-4-6Anthropic1538排名下降 1 位5glm-5.1Z.ai1532
6glm-5.1Z.ai1533排名下降 1 位6claude-sonnet-4-6Anthropic1524
7claude-sonnet-4-6Anthropic1523排名下降 1 位7kimi-k2.6Moonshot1519
8kimi-k2.6Moonshot1518排名下降 1 位8muse-sparkMeta1509
9muse-sparkMeta1508排名下降 1 位9gemini-3.5-flashGoogle1507
10gemini-3.5-flashGoogle1506排名下降 1 位10gpt-5.5-xhigh (codex-harness)OpenAI1503
  • 本周榜单主要变化
    • Qwen3.7-Max 新上榜并空降第4名,引发连锁反应,原第4至第9名模型集体顺延下降1位,上周第10名的 GPT-5.5-xhigh 因此掉出榜单。
3. LMArena Image Edit

LMArena Image Edit 数据采集 · 2026-05-22 → 2026-05-28

来源:https://lmarena.ai/leaderboard/image-edit

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1467持平1gpt-image-2 (medium)OpenAI1467
2chatgpt-image-latest-high-fidelityOpenAI1392持平2chatgpt-image-latest-high-fidelityOpenAI1392
3grok-imagine-image-qualityxAI1388上升5位3grok-imagine-image-qualityxAI1388
4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1387持平4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1387
5gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387持平5gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
6gemini-3-pro-image-preview (nano-banana-pro)Google1387持平6gemini-3-pro-image-preview (nano-banana-pro)Google1387
7gpt-image-1.5-high-fidelityOpenAI1374持平7gpt-image-1.5-high-fidelityOpenAI1374
8grok-imagine-image-qualityxAI1359新上榜8grok-imagine-image-qualityxAI1359
9uni-1.1-maxLuma AI1339持平9uni-1.1-maxLuma AI1339
10grok-imagine-imagexAI1332持平10grok-imagine-imagexAI1332
  • 本周榜单主要变化
    • grok-imagine-image-quality-1388:上升5位(#8 → #3)
    • grok-imagine-image-quality-1374:新上榜(本周 #8)
  • 原因分析
    • xAI 的 Grok Imagine 图像质量评估模型排名大幅提升,可能受益于 xAI 近期对图像生成质量的优化迭代。该模型专注于图像质量评估维度,在 LMArena 的图像编辑质量投票中获得用户认可。
    • 其排名跃升反映了用户对图像生成质量评估需求的增加,以及 xAI 在图像生成领域的技术投入开始显现效果。
4. LMArena Text to Image

LMArena Text to Image 数据采集 · 2026-05-22 → 2026-05-28

来源:https://lmarena.ai/zh/leaderboard/text-to-image

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1388持平1gpt-image-2 (medium)OpenAI1389
2gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1271持平2gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1270
3mai-image-2.5-previewMicrosoft AI1254新上榜3gemini-3-pro-image-preview-2k (nano-banana-pro)Google1243
4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245下降1位4gpt-image-1.5-high-fidelityOpenAI1241
5gpt-image-1.5-high-fidelityOpenAI1241下降1位5gemini-3-pro-image-preview (nano-banana-pro)Google1232
6gemini-3-pro-image-preview (nano-banana-pro)Google1232下降1位6grok-imagine-image-qualityxAI1228
7grok-imagine-image-qualityxAI1228下降1位7uni-1.1-maxLuma AI1192
8uni-1.1-maxLuma AI1192下降1位8mai-image-2Microsoft AI1182
9mai-image-2Microsoft AI1182下降1位9uni-1.1Luma AI1176
10uni-1.1Luma AI1176下降1位10grok-imagine-imagexAI1173
  • 本周榜单主要变化
    • mai-image-2.5-preview:新上榜(本周 #3)
    • grok-imagine-image:跌出榜单(上周 #10)
5. AA Image Editing

AA Image Editing 数据采集 · 2026-05-22 → 2026-05-28

来源:https://artificialanalysis.ai/image/leaderboard/editing

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1GPT Image 1.5 (high)OpenAI1261持平1GPT Image 1.5 (high)OpenAI1263
2GPT Image 2 (high)OpenAI1252持平2GPT Image 2 (high)OpenAI1253
3Nano Banana Pro (Gemini 3 Pro Image)Google1242持平3Nano Banana Pro (Gemini 3 Pro Image)Google1240
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1239持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1236
5grok-imagine-image-qualityxAI1229持平5grok-imagine-image-qualityxAI1229
6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1224持平6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1224
7grok-imagine-imagexAI1213持平7grok-imagine-imagexAI1215
8Luma UNI 1 MaxLuma Labs1210持平8Luma UNI 1 MaxLuma Labs1211
9Kling Image 3.0 OmniKlingAI1209上升1位9HiDream-O1-ImageOpen WeightsHiDream1211
10FLUX.2 [max]Black Forest Labs1207新上榜10Kling Image 3.0 OmniKlingAI1209
  • 本周榜单主要变化
    • FLUX.2 [max]:新上榜(本周 #10)
    • HiDream-O1-ImageOpen Weights:跌出榜单(上周 #9)
6. AA Text to Image

AA Text to Image 数据采集 · 2026-05-22 → 2026-05-28

来源:https://artificialanalysis.ai/image/leaderboard/text-to-image

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1GPT Image 2 (high)OpenAI1338持平1GPT Image 2 (high)OpenAI1339
2GPT Image 1.5 (high)OpenAI1268持平2GPT Image 1.5 (high)OpenAI1267
3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1260持平3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1264
4Nano Banana Pro (Gemini 3 Pro Image)Google1219持平4Nano Banana Pro (Gemini 3 Pro Image)Google1219
5Recraft V4.1 Utility ProRecraft1203新上榜5grok-imagine-image-qualityxAI1210
6grok-imagine-image-qualityxAI1203下降1位6MAI-Image-2Microsoft1196
7Seedream 4.0ByteDance Seed1195上升1位7FLUX.2 [max]Black Forest Labs1196
8FLUX.2 [max]Black Forest Labs1194下降1位8Seedream 4.0ByteDance Seed1195
9MAI-Image-2Microsoft1194下降3位9Recraft V4.1 UtilityRecraft1191
10Recraft V4.1 UtilityRecraft1192下降1位10FLUX.2 [pro]Black Forest Labs1190
  • 本周榜单主要变化
    • MAI-Image-2:下降3位(#6 → #9)
    • Recraft V4.1 Utility Pro:新上榜(本周 #5)
    • FLUX.2 [pro]:跌出榜单(上周 #10)
  • 原因分析
    • MAI-Image-2 排名下滑受近期多个高质量文生图模型发布的影响,GPT-Image-2 和 grok-imagine-image-quality 等模型的竞争加剧分流了用户投票。
    • MAI-Image-2 作为较早发布的文生图模型,在生成质量和多样性上可能已落后于新迭代模型,反映了文生图领域技术迭代速度快的特点。
7. GPQA

GPQA 数据采集 · 2026-05-22 → 2026-05-28

来源:https://llm-stats.com/benchmarks/gpqa

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6新上榜4GPT-5.5OpenAI93.6
5GPT-5.5OpenAI93.6下降1位5GPT-5.2 ProOpenAI93.2
6GPT-5.2 ProOpenAI93.2下降1位6GPT-5.4OpenAI92.8
7GPT-5.4OpenAI92.8下降1位7GPT-5.2OpenAI92.4
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4新上榜8Gemini 3 ProGoogle91.9
9GPT-5.2OpenAI92.4下降2位9Claude Opus 4.6Anthropic91.3
10Gemini 3 ProGoogle91.9下降2位10Kimi K2.6Moonshot AI90.5
  • 本周榜单主要变化
    • Claude Opus 4.8:新上榜(本周 #4)
    • Qwen3.7 Max:新上榜(本周 #8)
    • Claude Opus 4.6:跌出榜单(上周 #9)
    • Kimi K2.6:跌出榜单(上周 #10)
  • 原因分析
    • GPQA 榜单有 2 款模型新上榜、2 款跌出,但整体排名变化幅度较小(均 < 3 位)。这反映了 GPQA 领域模型能力差距较小,排名受特定模型在物理推理上的细微优势影响。
    • GPQA 作为高难度学术基准,整体变化相对缓慢。新上榜模型可能在物理推理的特定子领域有小幅优势。
8. MedBench

MedBench 数据采集 · 2026-05-22 → 2026-05-28

来源:https://medbench.org.cn/

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1京医千询京东健康72.6持平1京医千询京东健康72.6
2卓睦鸟医疗大模型广州中康数字科技有限公司72.1持平2卓睦鸟医疗大模型广州中康数字科技有限公司72.1
3千问健康大模型千问C端71.2持平3千问健康大模型千问C端71.2
4华为云健康管理大模型Huawei71.0持平4华为云健康管理大模型Huawei71.0
5WiseDiag v2杭州智诊科技有限公司69.8持平5WiseDiag v2杭州智诊科技有限公司69.8
6微医医疗大模型微医68.2持平6微医医疗大模型微医68.2
7AntAngelMedMedAIBase68.0持平7AntAngelMedMedAIBase68.0
8UniGPT-Med-U1云知声智能科技股份有限公司65.7持平8UniGPT-Med-U1云知声智能科技股份有限公司65.7
9惠每医疗大模型上海新创惠每科技有限公司60.0持平9惠每医疗大模型上海新创惠每科技有限公司60.0
10Grok-4xAI58.4持平10Grok-4xAI58.4
  • 本周榜单主要变化无重大变化
9. OpenCompass LLM

OpenCompass LLM 数据采集 · 2026-05-22 → 2026-05-28

来源:https://rank.opencompass.org.cn/home

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1GPT-5.4 (high)OpenAI67.3持平1GPT-5.4 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite (high)ByteDance60.4
10GLM-5.1Zhipu AI59.0持平10GLM-5.1Zhipu AI59.0
  • 本周榜单主要变化无重大变化
10. OpenCompass Multimodal

OpenCompass Multimodal 数据采集 · 2026-05-22 → 2026-05-28

来源:https://rank.opencompass.org.cn/home

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1Gemini-3.1-Pro-PreviewGoogle66.6持平1Gemini-3.1-Pro-PreviewGoogle66.6
2Qwen3.5-397BAlibaba65.4持平2Qwen3.5-397BAlibaba65.4
3Doubao-Seed-2.0-Pro (medium)ByteDance63.2持平3Doubao-Seed-2.0-Pro (medium)ByteDance63.2
4Kimi-k2.5Moonshot AI63.0持平4Kimi-k2.5Moonshot AI63.0
5SenseNova-V6-5-ProSenseTime55.6持平5SenseNova-V6-5-ProSenseTime55.6
6Claude-Opus-4-6Anthropic55.2持平6Claude-Opus-4-6Anthropic55.2
7GLM4_6VZhipu AI52.5持平7GLM4_6VZhipu AI52.5
8GPT-5.4OpenAI51.5持平8GPT-5.4OpenAI51.5
9Step3-VL-10BStepFun48.8持平9Step3-VL-10BStepFun48.8
10Ovis2.6-30B-A3BAlibaba48.4持平10Ovis2.6-30B-A3BAlibaba48.4
  • 本周榜单主要变化无重大变化
11. LiveCodeBench GSO

LiveCodeBench GSO 数据采集 · 2026-05-22 → 2026-05-28

来源:https://livecodebench.github.io/gso.html

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2上升2位2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3新上榜4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4上升3位5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5新上榜8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6
  • 本周榜单主要变化
    • GPT 5.4:上升3位(#8 → #5)
    • Claude Opus 4.6:新上榜(本周 #4)
    • GPT 5.4:新上榜(本周 #8)
    • Claude Opus 4.6:跌出榜单(上周 #2)
    • GPT 5.4:跌出榜单(上周 #5)
  • 原因分析
    • OpenAI GPT 5.4 排名上升反映了其代码生成能力的持续提升,可能受益于 OpenAI 在代码训练数据和方法上的优化,特别是在多语言代码生成和复杂算法实现方面的改进。
    • 其排名上升也与 OpenAI 近期对开发者生态的投入有关,包括更完善的 API 文档和代码辅助工具集成。
12. SWE-bench

SWE-bench 数据采集 · 2026-05-22 → 2026-05-28

来源:https://www.swebench.com/

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)智谱 AI72.8%持平6GLM-5 (high reasoning)智谱 AI72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot70.8%持平10Kimi K2.5 (high reasoning)Moonshot70.8%
  • 本周榜单主要变化无重大变化
13. Scale HLE

Scale HLE 数据采集 · 2026-05-22 → 2026-05-28

来源:https://scale.com/leaderboard/humanitys_last_exam

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
2gpt-5.4-proOpenAI44.3持平2gpt-5.4-proOpenAI44.3
3Muse SparkMistral AI40.6持平3Muse SparkMistral AI40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4 (xhigh thinking)OpenAI36.2持平5gpt-5.4 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-proOpenAI31.6持平8gpt-5-proOpenAI31.6
9gpt-5.2OpenAI27.8持平9gpt-5.2OpenAI27.8
10gpt-5OpenAI25.3持平10gpt-5OpenAI25.3
  • 本周榜单主要变化无重大变化
14. Epoch FrontierMath

Epoch FrontierMath 数据采集 · 2026-05-22 → 2026-05-28

来源:https://epoch.ai/frontiermath/tiers-1-4

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1GPT-5.5 Pro (high)OpenAI52.4%持平1GPT-5.5 Pro (high)OpenAI52.4%
2GPT-5.5 (xhigh)OpenAI51.7%持平2GPT-5.5 (xhigh)OpenAI51.7%
3GPT-5.5 Pro (xhigh)OpenAI51.0%持平3GPT-5.5 Pro (xhigh)OpenAI51.0%
4GPT-5.4 Pro (xhigh)OpenAI50.0%持平4GPT-5.4 Pro (xhigh)OpenAI50.0%
5GPT-5.4 (xhigh)OpenAI47.6%持平5GPT-5.4 (xhigh)OpenAI47.6%
6Claude Opus 4.7 (xhigh)Anthropic43.8%持平6Claude Opus 4.7 (xhigh)Anthropic43.8%
7Claude Opus 4.6 (max)Anthropic40.7%持平7Claude Opus 4.6 (max)Anthropic40.7%
8GPT-5.2 (xhigh)OpenAI40.7%持平8GPT-5.2 (xhigh)OpenAI40.7%
9GPT-5.2 (high)OpenAI40.3%持平9GPT-5.2 (high)OpenAI40.3%
10Claude Opus 4.6 (32k thinking)Anthropic40.0%持平10Claude Opus 4.6 (32k thinking)Anthropic40.0%
  • 本周榜单主要变化无重大变化
15. Hugging Face GAIA

Hugging Face GAIA 数据采集 · 2026-05-22 → 2026-05-28

来源:https://huggingface.co/spaces/gaia-benchmark/leaderboard

本周 · 2026-05-22 → 2026-05-28上周 · 2026-05-15 → 2026-05-21
排名模型公司指标变化排名模型公司指标
1OPS-Agentic-SearchAlibaba Cloud92.4持平1OPS-Agentic-SearchAlibaba Cloud92.4
2openJiuwen-deepagentopenJiuwen91.7持平2openJiuwen-deepagentopenJiuwen91.7
3LemonLR AILab of Lenovo CTO Org91.4持平3LemonLR AILab of Lenovo CTO Org91.4
4JoinAI_V2.2JoinAI-CMCC90.7持平4JoinAI_V2.2JoinAI-CMCC90.7
5Nemotron-ToolOrchestra-0107NVIDIA90.4持平5Nemotron-ToolOrchestra-0107NVIDIA90.4
6Nemotron-ToolOrchestra-0106NVIDIA90.4持平6Nemotron-ToolOrchestra-0106NVIDIA90.4
7JoinAI_V2.1JoinAI-CMCC90.0持平7JoinAI_V2.1JoinAI-CMCC90.0
8SU Zero - Shuqian Series Pro MAXSuzhou AI Lab, Shuqian Tech90.0持平8SU Zero - Shuqian Series Pro MAXSuzhou AI Lab, Shuqian Tech90.0
9HALO V1217-1Microsoft AI Asia - Ads89.4持平9HALO V1217-1Microsoft AI Asia - Ads89.4
10ShawnAgent_v3.189.4持平10ShawnAgent_v3.189.4
  • 本周榜单主要变化无重大变化
02 DYNAMIC ANALYSIS

动态分析

周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。

本期数据 · 2026-05-22 → 05-28 (Fri-Thu 7 天窗口) · 已与周报 hero 数据窗口对齐
A · 01本周一览

本周大盘三项核心指标

01

本周 OpenRouter 共流转 30.12T tokens, 环比 +10.0% — 较上周 27.38T 继续增长。

02

新模型发布: Anthropic Claude Opus 4.8 (5-28 发布) 当周仅末日反映,完整效应将在下窗口呈现。

03

WoW +10.0%, 大盘进入稳态扩张 — Anthropic +35% / xiaomi NEW +4.49pp 是本周两个最显著的厂商级变化。

本期关键指标 数据采集 · 2026-05-22 → 2026-05-28

本期 2026-05-22 → 2026-05-28 · Δ 对照上一窗口 2026-05-18 → 2026-05-24

live
本周 token 总量
30.12T
+10.0% WoW · vs 上周 · 27.38T
近 4 周大盘 WoW 涨幅
本周新模型发布 · 5 主体有进展
5 / 21
OpenAI / Anthropic / 小米 / 快手 / 美团
本期主要发布 · 2026-05-22 → 05-28
  • 05-28 Anthropic Claude Opus 4.8 (SWE-bench Pro 69.2%)
  • 05-27 小米 MiMo-V2.5 API 降价 99%
  • +3: OpenAI GPT-5.5 升级 · 快手可灵 AI 2.1 · 美团 LongCat 开源
近 4 周平均周环比
+8.4%
本周 +10.0% 略高于均值
本周 vs 近 4 周均值
本周
+10.0%
4W avg
+8.9%
略高于近 4 周均值
B · 02调用量 Top 10 · 2026-05-22 → 2026-05-28

本周 Top 10 的 3 处关键变动

01

Anthropic 双旗舰加速 — Opus 4.7 +73% / Sonnet 4.6 +25%:Opus 4.7 升 1 位至 #3 (2.64T) · Sonnet 4.6 微降 1 位至 #4 (2.05T)。

02

V4 Flash 与 Hy3 持续守 #1 / #2 — 两款 +17% / +6% WoW:V4 Flash 3.44T (vs 上周 2.95T) · Hy3 3.08T (vs 上周 2.90T)。

03

两款新模型同窗新入 Top 10 — xiaomi MiMo-V2.5-Pro #9 (0.82T) + nvidia Nemotron #10 (0.66T):

Token 调用量 · Top 10 数据采集 · 2026-05-22 → 2026-05-28

本周窗口 2026-05-22 → 05-28 (Fri-Thu) · 单位 B tokens · 按厂商着色

10 / 10
横向条形 · 降序 · `tabular-nums` — · 全量视图
C · 03排名变迁 · 近 4 周

近 4 周 Top 模型排名走势

01

DeepSeek V4 Flash 守冠 2 窗口: 04-27 #9 → 05-11 #2 → 05-18 #1 → 05-22 #1 (4 窗累计上升 8 位)。

02

Tencent Hy3 付费版让位后守 #2: 05-11 窗口 #1 (2.66T) → 05-18 #2 (3.07T) → 05-22 #2 (3.08T, +0.2%)。

03

Anthropic 双旗舰 4 窗稳定 Top 5: Opus 4.7 04-20 #4 → 04-27 #5 → 05-11 #4 → 05-18 #3 → 05-22 #3;Sonnet 4.6 04-20/27 #3 → 05-11/18 #4。

04

xiaomi MiMo-V2.5-Pro 新进 Top 10: 04-20 #— → 04-27 #— → 05-11 #— → 05-18 #— → 05-22 #9 (0.82T NEW)。

排名变迁 · 近 4 周 数据采集 · 04-27 → 05-28

X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines · 05-04 窗口数据缺失

6 lines
线段断点表示当周未进 Top · 不插值 — · 全量视图
D · 04厂商份额 Δ · 2026-05-15 → 05-21 vs 2026-05-22 → 05-28

厂商份额变化分布: Anthropic +2.25pp 加速追赶, xiaomi NEW 入榜, Moonshot 跌出

01

Anthropic +3.46pp — 头部追赶加速: 双旗舰本周合计 +1.53T 至 4.69T。

02

xiaomi NEW +4.49pp — 直接入榜 Top 10: MiMo-V2.5-Pro 单模型 0.82T 支撑。

03

Moonshot -3.63pp — 跌出厂商 Top 10: Kimi K2.6 已跌出模型 Top 10。

04

DeepSeek 0.00pp — 守 #1 厂商但与大盘同步增长: 三模型同窗位列 Top 10。

厂商份额 Δ 数据采集 · 2026-05-18 → 2026-05-22

百分点变动 · 中线 0 · 绿正红负 · 05-22→05-28 vs 05-15→05-21

10 厂商
正向 + 6 家 · 负向 - 4 家 — · 全量视图
E · 05区域版图 · 05-22 → 05-28 vs 05-15 → 05-21

Anthropic +3.46pp 追近 DeepSeek 至 0.82pp, xiaomi NEW 入榜, Moonshot 跌出 Top 10

01

Anthropic +3.46pp 追近 DeepSeek 至 0.82pp: 14 周以来差距最小。

02

xiaomi NEW +4.49pp 入榜 #7 厂商: MiMo-V2.5-Pro 单模型推动。

03

Moonshot 跌出 Top 10: 份额 3.63% → 2.71% (-0.92pp)。

厂商份额组成 数据采集 · 05-22 → 05-28 (外环) vs 05-15 → 05-21 (内环)

双层 doughnut · 10 段

% of total tokens
03 EXPLORATORY DASHBOARD

查证与发现 — 多周完整数据视图

这一页通过视觉化的形式展示更多细节数据和趋势 —— 挑任意一周看榜单、看长期趋势、跨数据集做对比,补足周报无法展开的细节。

本期数据 · 2026-05-22 → 05-28 (Fri-Thu 7 天窗口) · 已与周报 hero 数据窗口对齐
数据窗口 滚动 14 周 · 当前 2026-02-16 → 2026-05-28 (前 13 窗口以周一为起点 Mon-Sun;最新窗口 2026-05-22 → 05-28 Fri-Thu, 与周报 hero 对齐;2026-05-04 → 05-10 窗口数据缺失) 覆盖 15 厂商 · 模型周纪录 · launches 数据截至 2026-05-07 openrouter-explorer-data.json
01 · 时间轴

国产阵营 OpenRouter token 调用量份额: 14 个 7 天窗口稳定在 ~40% 区间, 最新窗口 44.3%

每条色带是一家厂商的 OpenRouter token 调用量份额,纵向加总恒为 100%,横轴为滚动 14 个 7 天窗口。用右上按钮可单看国产或海外阵营,观察份额随时间此消彼长。

100% 堆叠面积 · 按周 14 weeks · 15 providers
02 · 时间轴

OpenRouter token 调用量 #1 在 14 个 7 天窗口内易主 7 次, DeepSeek V4 Flash 连冠 2 窗口

拖动上方的时间条,回放任一 7 天窗口的 OpenRouter token 调用量榜单,看清榜首在 14 个窗口里如何反复易主。

tokens · billions
03 · 对比

OpenRouter 新模型上线: 2026-04-20 / 04-27 起两窗口连续高峰,随后 (2026-05-12 → 05-24) 进入静默期

每个点代表一次新模型上线,横向按窗口排列、颜色区分厂商,描边点为日后进入过 Top 9 的模型;点的疏密即各周的发布节奏。

总发布数
进过 Top 9
最忙一周
每个点 = 1 次模型上线 · 颜色 = 厂商 · 描边 = 后来进入 Top 9 129 launches
04 · 时间轴 · 阵营对决

OpenRouter token 份额: 开源 vs 闭源差距由 37.0pp 收窄至 ~2pp (滚动 14 个 7 天窗口)

把所有厂商并入开源、闭源两大阵营后的份额对决;两条色带此长彼消,反映 14 个窗口里开闭源之间的差距如何收窄。

100% 堆叠面积 · 14 周 14 providers · OS/closed 静态分组
05 · 时间轴 · 兴衰曲线

5 款开源模型 OpenRouter token 量生命周期: 上线后约 8 个 7 天窗口降至峰值 1/3

将 5 款开源模型对齐到「上线后第 N 个窗口」,叠看它们从首发冲顶到回落的生命周期曲线有多相似。

x: 上线后第 N 周 · y: 周 token 总量 5 models · model_weekly
06 · 跨平台 · 阵营对比

6 个能力榜 Top 8 国产/海外分布 (leaderboards.db 2026-05-29 快照)

每一行是一个能力榜的 Top 8 席位构成,绿色为国产、灰色为海外,一眼看清各榜单的阵营版图。反映的是能力评估格局,与 OpenRouter 的市场份额不是一回事。

LMArena Text Arena对话偏好 ELO
海外 8/8
0% · 国产
LMArena Code Arena代码任务 ELO
国产 3
海外 5
38% · 国产
SWE-bench Verified真实代码 issue 解决率
国产 2
海外 6
25% · 国产
GPQA Diamond研究生级科学推理
国产 1
海外 7
12% · 国产
OpenCompass · 中文综合中文综合评测
国产 5
海外 3
62% · 国产
HuggingFace GAIA Agent多步推理 + 工具调用
国产 6
海外 2
75% · 国产
每行 = 1 个能力榜的 Top 8 · 国产(绿)vs 海外(灰) leaderboards.db · 6 sources
07 · 任务构成 · 头条发现

OpenRouter Top 10 模型任务构成 (编程占比, 类别数据滞后一周): StepFun Step 3.5 Flash 71% 最高

每一行是一款 Top 模型,横向色段表示其 token 在各任务类别上的占比,凸显谁更偏编程。类别数据按 OR 周度发布,较本期主窗口滞后约一周。

横向堆叠 100% 占比 · 类别周窗 2026-05-18 → 05-24 9 rows · 5 segments
08 · 单点快照 · 吞吐量

OpenRouter 吞吐量快照 (2026-06-01): OpenAI gpt-oss 三款占据 Top 3, 量级跨入千 tok/s 区间

按 p50 生成速度 (tok/s) 排出的单日吞吐量 Top 10,数值越高代表出字越快。此口径与分析师 §2.4 原表不同源,不宜直接横比。

排名 模型 公司 p50 throughput (tok/s)
1openai/gpt-oss-120bopenai912
2openai/gpt-oss-20bopenai711
3openai/gpt-oss-safeguard-20bopenai635
4z-ai/glm-4.7-20251222z-ai384
5qwen/qwen3-32b-04-28qwen369
6inception/mercury-2-20260304inception350
7minimax/minimax-m2.5-20260211minimax277
8meta-llama/llama-3.1-8b-instructmeta-llama209
9meta-llama/llama-4-scout-17b-16e-instructmeta-llama187
10openai/o3-mini-2025-01-31openai185
单点快照 · 2026-06-01 · 10 行 · 镜像 §2.4 同源数据 leaderboards.db · openrouter_performance
04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。