| 榜单名称 | 本周主要变动模型 |
|---|---|
| LMArena 文本竞技场 | Claude Opus 4.8-thinking 新上榜位居第 8,Gemini 3.5 Flash 跌出前十 |
| LMArena 代码竞技场 | Claude Opus 4.8 / 4.8-thinking、MiniMax M3 新上榜;Qwen 3.7 Max、Claude Sonnet 4.6 排名下降 |
| LMArena 图像编辑竞技场 | Microsoft MAI-Image-2.5 空降第 2,Reve 2.0 新上榜第 9 |
| LMArena 文生图竞技场 | Reve 2.0 新上榜位列第 2,Ideogram 4.0 新上榜第 9 |
| Artificial Analysis 图像编辑 | 无重大变化 |
| Artificial Analysis 文生图 | 无重大变化 |
| GPQA | 无重大变化 |
| MedBench | 无重大变化 |
| OpenCompass LLM | 无重大变化 |
| OpenCompass 多模态 | 无重大变化 |
| LiveCodeBench GSO | 无重大变化 |
| HuggingFace GAIA | ZTE Co-Sight Pro 空降榜首,CustomGPT.ai 多个版本集中入榜 |
| Scale HLE | 无重大变化 |
| Epoch FrontierMath | 无重大变化 |
| SWE-bench | 无重大变化 |
| OpenRouter 模型调用量榜单 | MiniMax M3、Claude Opus 4.8 新上榜;Claude Opus 4.7 排名大幅下降 5 位 |
| OpenRouter 厂商调用量榜单 | MiniMax 跃居第 4,总量爆发增长 317%;Anthropic 总量下滑 5% |
| OpenRouter 编程调用量榜单 | MiniMax M3 空降第 2,Claude Opus 4.7 降 5 位,Opus 4.8 新上榜 |
| OpenRouter 模型吞吐量榜单 | gpt-oss-20b 下降 3 位;Llama 3.3 70B、Nemotron 3 Nano Omni 新上榜 |
本周榜单变化总览
数据采集 · 本周 2026-06-01 → 2026-06-07 · 19 张榜单 / 9 有变化本周大模型行业重要动态
监控窗口 · 本周 2026-06-01 → 2026-06-07 · 6 条核心进展2026-06-09 Anthropic 推出新旗舰 Claude Fable 5 及受限版 Mythos 5,二者为同一底层模型;Fable 5 为通用版并内置安全分类器(部分敏感问题转交 Opus 4.8 处理),SWE-Bench Pro 达 80.3% 创新高,Mythos 5 解除部分限制仅向网络防御与基础设施合作方开放。(信息来源:[anthropic.com](https://www.anthropic.com/news/claude-fable-5-mythos-5))
2026-06-03 Google DeepMind 开源 Gemma 4 12B 原生多模态模型,采用无编码器统一架构、首次支持原生音频输入,约 120 亿参数性能逼近 26B MoE,16GB 内存笔记本即可本地运行,以 Apache 2.0 许可发布。(信息来源:[aitoolly.com](https://aitoolly.com/ai-news/article/2026-06-04-google-deepmind-launches-gemma-4-12b-a-unified-encoder-free-multimodal-model-for-laptops))
2026-06-05 NVIDIA 正式发布并开源 Nemotron 3 Ultra,为 550B 总参/55B 激活的 MoE Mamba-Transformer 混合模型,专为长效智能体工作流优化,吞吐量较同级开源模型最高提升 5 倍,权重、训练配方与数据管线全面开放。(信息来源:[nvidianews.nvidia.com](https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models))
2026-06-01 MiniMax 发布原生多模态模型 M3,采用自研稀疏注意力架构 MSA 实现 1M 超长上下文,1M 上下文下每 token 计算量仅为上代的 1/20,SWE-Bench Pro 超越 GPT-5.5 与 Gemini 3.1 Pro,是首个同时具备前沿编码、1M 上下文与原生多模态的开源模型。(信息来源:[minimaxi.com](https://www.minimaxi.com/blog/minimax-m3))
2026-06-09 小米 MiMo 联合 TileRT 发布 MiMo-V2.5-Pro 的 UltraSpeed 模式,业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度,雷军亲自发文介绍;API 以 3 倍价格提供约 10 倍输出体验,采用申请制限时开放。(信息来源:[platform.xiaomimimo.com](https://platform.xiaomimimo.com/docs/en-US/model-intro/mimo-v2.5-pro-ultraspeed))
2026-06-03 xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,支持由单张图片生成最高 720p、带原生同步音频的视频,登顶 Artificial Analysis 图生视频竞技场榜首(Elo 1404)。(信息来源:[x.ai](https://x.ai/news/grok-imagine-1-5)) > 信息来源优先级说明:本报告所有来源均按 S→A→B→C→D 优先级严格筛选,优先采用官方一手来源。本周保留的 6 条动态来源均为 S 级官方一手来源(厂商官方博客、官方文档或官方新闻室)。
OpenRouter 平台调用量与性能
数据采集 · 本周 2026-06-01 → 2026-06-07 · 对照周期 · 上周 2026-05-25 → 2026-05-31
- 本周重点关注 1|中国低价阵营主导头部,价格战持续升级:调用量榜前四中国模型占据三席,且呈现价格"越打越低"态势。小米 MiMo-V2.5 于 5 月 27 日断崖式降价约 80% 后调用量激增 50% 升至第四、输入价(0.014)刷新全榜最低;DeepSeek V4 Flash 持续小幅降价稳守榜首,腾讯 Hy3 再降输出价并以低价巩固第二。低价正成为中国厂商抢占调用量的核心抓手,价格竞争烈度进一步加剧。
- 本周重点关注 2|Anthropic 完成旗舰代际切换,换代阵痛显现:新旗舰 Claude Opus 4.8 以全榜最强的智能(61)、编程(57)与 Agent(78)性能新入榜并暴涨 300%,且输入价反低于前代模型 Opus 4.7,导致后者被直接替代调用量暴跌 38%、排名下滑 5 位。新旧旗舰此消彼长,叠加 Sonnet 4.6 走弱,使 Anthropic 厂商总量短期承压,下滑 5%,待 4.8 放量成熟后可能有望修复。
- 本周重点关注 3|MiniMax M3 强势上线,成本周最大新星:M3 新发即空降调用量榜第三、编程榜第二(单周 1559B 逼近榜首),凭借在中国模型中名列前茅的综合性能(智能、Agent 均居全榜第三),精准切入编程市场,编程占比高达 62%,同时独力推动 MiniMax 厂商总量爆发增长 317%。但其增长高度依赖单一新品与 launch spike,且 top5 应用集中度偏高,定价回归常态后的留存表现是后续观察重点。
4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings
2.1 OpenRouter 模型调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07
来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10
| 排名 | 模型 | 厂商 | Tokens (T) | WoW | 变化定性 | 健康度风险提示 |
|---|---|---|---|---|---|---|
| 1 | DeepSeek: DeepSeek V4 Flash | deepseek | 3.69 | +19% | [稳定] | 56 |
| 2 | Tencent: Hy3 preview | tencent | 2.94 | -3% | [稳定] | 90 |
| 3 | MiniMax: MiniMax M3 | minimax | 2.50 | N/A | [新上榜] | 175 |
| 4 | Xiaomi: MiMo-V2.5 | xiaomi | 2.19 | +50% | [排名上升2位] | 121 |
| 5 | Owl Alpha | openrouter | 1.95 | +17% | [稳定] | 55 |
| 6 | Anthropic: Claude Sonnet 4.6 | anthropic | 1.76 | -9% | [排名下降2位] | 67 |
| 7 | DeepSeek: DeepSeek V4 Pro | deepseek | 1.70 | +35% | [稳定] | 85 |
| 8 | Anthropic: Claude Opus 4.7 | anthropic | 1.44 | -38% | [排名大幅下降5位] | 74 |
| 9 | DeepSeek: DeepSeek V3.2 | deepseek | 1.17 | +12% | [稳定] | 28 |
| 10 | Anthropic: Claude Opus 4.8 | anthropic | 1.16 | +300% | [新上榜] | 59 |
模型质量数据:| P/C=56 | R/C=1.3255 | top5 App 集中度=28% | Intelligence=47 | Coding=39 | Agentic=61 | Input Price=0.083 | Output Price=0.257 本周变化归因分析:V4 Flash 本周稳守榜首并保持近两成增长,其稳健表现源于"性能够用、价格极低"的组合。它的综合性能在前十中居于中段(Intelligence 47、Agentic 61 均处中游),算不上突出,但定价构成了护城河——输入价 0.083、输出价 0.257 同属全榜最低梯队,且近两周持续单边降价(输入价降约 18%、输出价降约 11%),节奏稳定无反弹,显示 DeepSeek 仍在以低价主动巩固份额。横向看,它在同价位的中国低价阵营中性能明显领先 Hy3 与 MiMo,面对本周强势入榜、性能更高的 M3 则以约一半输入价、近九分之一输出价筑起性价比壁垒。更关键的是其增长质量扎实:R/C 高达 1.33、top5 应用集中度仅 28%,表明调用来自真实分散的多元需求而非单一应用刷量。因此在 M3 入榜分流的冲击下,V4 Flash 仍是本周低价格局中最稳定的头部资产。
模型质量数据:| P/C=90 | R/C=0.8409 | top5 App 集中度=1% | Intelligence=42 | Coding=36 | Agentic=56 | Input Price=0.031 | Output Price=0.234 本周变化归因分析:Hy3 本周小幅回落 3%,但第二的位置依旧稳固。作为典型的"极致低价走量"模型,其性能在前十中偏中下(Intelligence 42、Coding 36、Agentic 56 均处后段),核心竞争力完全押注于价格——它拥有全榜最低的输入价(0.031)与输出价(0.234)并提供免费版本,且于 5 月 28 日前后再度将输出价下调约 10%,进一步拉开与其它模型的价差、强化最低价心智。需求结构也极为健康,top5 应用集中度仅 1%、全榜最分散,几乎不存在头部应用依赖风险。本周的轻微回落主要来自 MiniMax M3 入榜带来的边际分流,并非自身竞争力下滑。真正值得警惕的是同为极致低价的小米 MiMo——其激进降价后输入价(0.014)已低于 Hy3,对后者赖以立足的"最低价"定位构成直接挑战,后续需关注这一价格优势是否被进一步侵蚀。
模型质量数据:| P/C=175 | R/C=0.9812 | top5 App 集中度=42% | Intelligence=55 | Coding=43 | Agentic=69 | Input Price=0.188 | Output Price=2.222 本周变化归因分析:M3 于 5 月 31 日新发即空降第三,是本周最大新星。它的综合性能在前十中位居前列(Intelligence 55、Agentic 69 均排第三,仅次于两款 Opus),是中国模型中性能最接近 Anthropic 旗舰的一档,其核心竞争对象因此并非低价阵营,而是性能相近的高端模型——相较两款 Opus,它以约十分之一的输出价提供了仅次其后的智能与 Agent 能力,性价比突出。高达 62% 的 Programming 占比也印证了其精准的强编程定位获得专业用户认可。不过需注意,作为新模型其定价仍处发现期,上线首周输入价由 0.089 翻倍爬升至 0.188,呈典型的"引流低价、随后回调"路径;同时 top5 应用集中度达 42% 偏高,增量较依赖少数头部应用,叠加上线高峰效应,留存存在不确定性。后续表现取决于定价回归常态、高峰退潮后调用能否从头部应用向多元需求扩散。
模型质量数据:| P/C=121 | R/C=0.4969 | top5 App 集中度=8% | Intelligence=36 | Coding=37 | Agentic=51 | Input Price=0.014 | Output Price=0.279 本周变化归因分析:MiMo-V2.5 本周 +50%、排名升 2 位,几乎完全由大幅降价拉动,是典型的价格驱动型上升。该模型性能在前十中靠后(Intelligence 36、Agentic 51 均居末段),本身缺乏竞争力,但 5 月 27 日发生了榜内最激进的单次降价——输入价由约 0.111 骤降至 0.013(降幅约 88%)、输出价由约 1.53 降至 0.28(降幅约 82%),此后稳定维持极低水平,使其一举成为全榜输入价最低的模型,甚至低于长期"最便宜"的 Hy3,直接抢占低价心智。与此同时,小米更贵的 MiMo-V2.5-Pro 本周跌出榜单,表明部分增量来自用户由 Pro 版向降价标准版的内部迁移。后续需观察低价红利消退后,这些调用能否沉淀为稳定需求。
模型质量数据:| P/C=74 | R/C=0.0201 | top5 App 集中度=22% | Intelligence=57 | Coding=53 | Agentic=71 | Input Price=2.247 | Output Price=25.000 本周变化归因分析:Opus 4.7 本周暴跌 38%、排名跳水 5 位,但根源并非自身性能或价格出了问题——其性能仍居前十第二梯队(Intelligence 57、Coding 53、Agentic 71 三项均为榜单第二)。真正的原因是被同门新旗舰 Opus 4.8 直接内部替代:4.8 在智能、编程、Agent 三项全面超越 4.7,输入价反而更低、输出价持平,对高端用户而言是"更强且不更贵"的严格升级版,迁移动机极强。而 4.7 自身定价保持刚性,整月输出价锁定 25.0 毫无松动,本周也未见任何主动降价挽留用户。叠加其 R/C 仅 0.02、为全榜最低,调用高度依赖少数高价值场景,用户对更优替代品的迁移极为敏感,一旦新旗舰出现便快速流失。综合来看,这是 Anthropic 旗舰换代过程中的典型代际切换,后续大概率将延续向 4.8 让渡份额的趋势。
模型质量数据:| P/C=59 | R/C=0.0329 | top5 App 集中度=26% | Intelligence=61 | Coding=57 | Agentic=78 | Input Price=1.924 | Output Price=25.000 本周变化归因分析:Opus 4.8 作为新一代旗舰新入榜即暴涨 300%,增长动力来自性能与定价的双重优势。它的 Intelligence 61、Coding 57、Agentic 78 三项均为前十榜首,是全榜综合性能最强的模型,不仅对内全面超越 4.7,对外也拉开了与 M3 的性能差距(智能 61 vs 55、Agentic 78 vs 69)。定价上,其输入价 1.924 反而低于上一代 4.7(2.247),且上线首周由 2.45 持续下探约 22%,输出价锁定 25.0 不变,这种"更强且更便宜"的组合大幅降低了高端用户的迁移成本,直接承接了从 4.7 流出的份额。不过其增长主要局限于对价格不敏感、追求极致性能的高端场景——相对中国旗舰高出约一个数量级的输出价是明显短板,R/C 也仅 0.03,与 4.7 同样高度依赖少数高价值场景。后续能否在上线高峰后稳住位置,取决于高端场景对其性能溢价的持续买单意愿。
2.2 OpenRouter 厂商调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07
来源:openrouter.ai/rankings · 厂商按 token 调用量
| 排名 | 厂商 | 最近两周上榜模型数 | 本周总量 (T) | 总量 WoW | 关键观察 | 厂商内部模型变动简述 |
|---|---|---|---|---|---|---|
| 1 | deepseek | 3 | 6.72 | +20% | 总量稳定增长 | 内部模型阵容稳定 |
| 2 | anthropic | 3 | 5.27 | -5% | 总量下滑 | 新入榜模型:Anthropic: Claude Opus 4.8 |
| 3 | 1 | 4.08 | +5% | 总量稳定增长 | 本周无模型上榜,上周模型:Google: Gemini 3 Flash Preview | |
| 4 | minimax | 1 | 3.05 | +317% | 总量爆发增长 | 本周新上榜,入榜模型:MiniMax: MiniMax M3 |
| 5 | xiaomi | 2 | 2.95 | +5% | 总量稳定增长 | 跌出模型:Xiaomi: MiMo-V2.5-Pro |
| 6 | tencent | 1 | 2.94 | -3% | 总量下滑 | 内部模型阵容稳定 |
| 7 | openai | 0 | 2.23 | -4% | 总量下滑 | 内部模型无变动 |
| 8 | openrouter | 1 | 1.95 | +17% | 总量稳定增长 | 内部模型阵容稳定 |
| 9 | qwen | 0 | 1.14 | +21% | 总量稳定增长 | 内部模型无变动 |
2.3 OpenRouter 编程类调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07
来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | mimo-v2.5 | xiaomi | 2307 | 持平 | 1 | mimo-v2.5 | xiaomi | 1944 |
| 2 | minimax-m3 | minimax | 1559 | 新上榜 | 2 | claude-4.7-opus | anthropic | 890 |
| 3 | deepseek-v4-flash | deepseek | 885 | 上升2位 | 3 | hy3-preview | tencent | 844 |
| 4 | deepseek-v4-pro | deepseek | 785 | 上升4位 | 4 | mimo-v2.5-pro | xiaomi | 821 |
| 5 | hy3-preview | tencent | 772 | 下降2位 | 5 | deepseek-v4-flash | deepseek | 786 |
| 6 | step-3.7-flash | stepfun | 543 | 新上榜 | 6 | claude-4.6-sonnet | anthropic | 548 |
| 7 | claude-4.7-opus | anthropic | 530 | 下降5位 | 7 | nemotron-3-super-120b-a12b:free | nvidia | 480 |
| 8 | mimo-v2.5-pro | xiaomi | 467 | 下降4位 | 8 | deepseek-v4-pro | deepseek | 479 |
| 9 | claude-4.8-opus | anthropic | 422 | 新上榜 | 9 | kimi-k2.6 | moonshotai | 414 |
2.4 OpenRouter 模型吞吐量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07
来源:openrouter.ai/rankings · 吞吐量指标 · 本周 vs 上周 Top 9
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-oss-120b | openai | 721 | 持平 | 1 | gpt-oss-120b | openai | 912 |
| 2 | gpt-oss-safeguard-20b | openai | 529 | 上升1位 | 2 | gpt-oss-20b | openai | 711 |
| 3 | Qwen3 32B | qwen | 455 | 上升2位 | 3 | gpt-oss-safeguard-20b | openai | 635 |
| 4 | GLM 4.7 | z-ai | 432 | 持平 | 4 | GLM 4.7 | z-ai | 384 |
| 5 | gpt-oss-20b | openai | 329 | 下降3位 | 5 | Qwen3 32B | qwen | 369 |
| 6 | MiniMax M2.5 | minimax | 236 | 上升1位 | 6 | Mercury 2 | inception | 350 |
| 7 | Llama 3.1 8B Instruct | meta-llama | 221 | 上升1位 | 7 | MiniMax M2.5 | minimax | 277 |
| 8 | Llama 3.3 70B Instruct | meta-llama | 208 | 新上榜 | 8 | Llama 3.1 8B Instruct | meta-llama | 209 |
| 9 | Nemotron 3 Nano Omni (free) | nvidia | 196 | 新上榜 | 9 | Llama 4 Scout | meta-llama | 187 |
其他榜单 — 15 张外部基准
数据采集 · 本周 2026-06-01 → 2026-06-07 · 对照周期 · 上周 2026-05-25 → 2026-05-31 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源
1. Text Arena 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-opus-4-6-thinking | Anthropic | 1504 | 持平 | 1 | claude-opus-4-6-thinking | Anthropic | 1502 |
| 2 | claude-opus-4-7-thinking | Anthropic | 1501 | 持平 | 2 | claude-opus-4-7-thinking | Anthropic | 1500 |
| 3 | claude-opus-4-6 | Anthropic | 1498 | 持平 | 3 | claude-opus-4-6 | Anthropic | 1498 |
| 4 | claude-opus-4-7 | Anthropic | 1493 | 持平 | 4 | claude-opus-4-7 | Anthropic | 1494 |
| 5 | muse-spark | Meta | 1489 | 持平 | 5 | muse-spark | Meta | 1489 |
| 6 | gemini-3.1-pro-preview | 1488 | 持平 | 6 | gemini-3.1-pro-preview | 1487 | ||
| 7 | gemini-3-pro | 1486 | 持平 | 7 | gemini-3-pro | 1486 | ||
| 8 | claude-opus-4-8-thinking | Anthropic | 1482 | 新上榜 | 8 | gpt-5.5-high | OpenAI | 1482 |
| 9 | gpt-5.5-high | OpenAI | 1482 | 下降1位 | 9 | gpt-5.4-high | OpenAI | 1480 |
| 10 | gpt-5.4-high | OpenAI | 1479 | 下降1位 | 10 | gemini-3.5-flash | 1479 | |
- 本周榜单主要变化
- Claude Opus 4.8-thinking 新上榜位居第 8,Gemini 3.5 Flash 跌出前十。
- GPT-5.5-high 与 GPT-5.4-high 各下降 1 位,分别至第 9、10 名。
2. Code Arena 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-opus-4-7-thinking | Anthropic | 1567 | 持平 | 1 | claude-opus-4-7-thinking | Anthropic | 1567 |
| 2 | claude-opus-4-7 | Anthropic | 1557 | 持平 | 2 | claude-opus-4-7 | Anthropic | 1562 |
| 3 | claude-opus-4-8-thinking | Anthropic | 1552 | 新上榜 | 3 | claude-opus-4-6-thinking | Anthropic | 1542 |
| 4 | claude-opus-4-8 | Anthropic | 1545 | 新上榜 | 4 | qwen3.7-max | Alibaba | 1541 |
| 5 | claude-opus-4-6-thinking | Anthropic | 1543 | 下降2位 | 5 | claude-opus-4-6 | Anthropic | 1538 |
| 6 | claude-opus-4-6 | Anthropic | 1538 | 下降1位 | 6 | glm-5.1 | Z.ai | 1533 |
| 7 | qwen3.7-max | Alibaba | 1537 | 下降3位 | 7 | claude-sonnet-4-6 | Anthropic | 1523 |
| 8 | glm-5.1 | Z.ai | 1532 | 下降2位 | 8 | kimi-k2.6 | Moonshot | 1518 |
| 9 | minimax-m3 | MiniMax | 1528 | 新上榜 | 9 | muse-spark | Meta | 1508 |
| 10 | claude-sonnet-4-6 | Anthropic | 1522 | 下降3位 | 10 | gemini-3.5-flash | 1506 | |
- 本周榜单主要变化
- Claude Opus 4.8 及 4.8-thinking 双双新上榜,分列第 3、4 位。
- MiniMax M3 新上榜位列第 9;Qwen 3.7 Max 与 Claude Sonnet 4.6 均下降 3 位。
- Muse-spark、Kimi-k2.6、Gemini-3.5-flash 跌出前十。
3. LiveCodeBench 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Opus 4.7 | Anthropic | 44.1 | 持平 | 1 | Claude Opus 4.7 | Anthropic | 44.1 |
| 2 | Claude Opus 4.6 | Anthropic | 41.2 | 持平 | 2 | Claude Opus 4.6 | Anthropic | 41.2 |
| 3 | GPT 5.5 | OpenAI | 40.2 | 持平 | 3 | GPT 5.5 | OpenAI | 40.2 |
| 4 | Claude Opus 4.6 | Anthropic | 33.3 | 持平 | 4 | Claude Opus 4.6 | Anthropic | 33.3 |
| 5 | GPT 5.4 | OpenAI | 31.4 | 持平 | 5 | GPT 5.4 | OpenAI | 31.4 |
| 6 | GPT 5.2 | OpenAI | 27.4 | 持平 | 6 | GPT 5.2 | OpenAI | 27.4 |
| 7 | Claude Opus 4.5 | Anthropic | 26.5 | 持平 | 7 | Claude Opus 4.5 | Anthropic | 26.5 |
| 8 | GPT 5.4 | OpenAI | 25.5 | 持平 | 8 | GPT 5.4 | OpenAI | 25.5 |
| 9 | Gemini 3.1 Pro | 22.6 | 持平 | 9 | Gemini 3.1 Pro | 22.6 | ||
| 10 | Gemini 3 Pro | 18.6 | 持平 | 10 | Gemini 3 Pro | 18.6 | ||
- 本周榜单主要变化无重大变化
4. SWE-bench 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude 4.5 Opus (high reasoning) | Anthropic | 76.8% | 持平 | 1 | Claude 4.5 Opus (high reasoning) | Anthropic | 76.8% |
| 2 | Gemini 3 Flash (high reasoning) | 75.8% | 持平 | 2 | Gemini 3 Flash (high reasoning) | 75.8% | ||
| 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% | 持平 | 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% |
| 4 | Claude Opus 4.6 | Anthropic | 75.6% | 持平 | 4 | Claude Opus 4.6 | Anthropic | 75.6% |
| 5 | GPT-5-2 Codex | OpenAI | 72.8% | 持平 | 5 | GPT-5-2 Codex | OpenAI | 72.8% |
| 6 | GLM-5 (high reasoning) | Z.ai | 72.8% | 持平 | 6 | GLM-5 (high reasoning) | Z.ai | 72.8% |
| 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% | 持平 | 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% |
| 8 | GPT 5.2 Codex | OpenAI | 72.8% | 持平 | 8 | GPT 5.2 Codex | OpenAI | 72.8% |
| 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% | 持平 | 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% |
| 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% | 持平 | 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% |
- 本周榜单主要变化无重大变化
5. Image Edit Arena 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1465 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1467 |
| 2 | mai-image-2.5 | Microsoft AI | 1401 | 新上榜 | 2 | chatgpt-image-latest-high-fidelity | OpenAI | 1392 |
| 3 | chatgpt-image-latest-high-fidelity | OpenAI | 1390 | 下降1位 | 3 | grok-imagine-image-quality | xAI | 1388 |
| 4 | grok-imagine-image-quality | xAI | 1388 | 下降1位 | 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1387 | |
| 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1388 | 下降1位 | 5 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | ||
| 6 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | 下降1位 | 6 | gemini-3-pro-image-preview (nano-banana-pro) | 1387 | ||
| 7 | gemini-3-pro-image-preview (nano-banana-pro) | 1385 | 下降1位 | 7 | gpt-image-1.5-high-fidelity | OpenAI | 1374 | |
| 8 | gpt-image-1.5-high-fidelity | OpenAI | 1373 | 下降1位 | 8 | grok-imagine-image-quality | xAI | 1359 |
| 9 | reve-2.0 | Reve | 1356 | 新上榜 | 9 | uni-1.1-max | Luma AI | 1339 |
| 10 | grok-imagine-image-quality | xAI | 1355 | 下降2位 | 10 | grok-imagine-image | xAI | 1332 |
- 本周榜单主要变化
- Microsoft MAI-Image-2.5 空降第 2,Reve 2.0 新上榜第 9。
- uni-1.1-max 与 grok-imagine-image 跌出前十,其余模型普遍下降 1 位。
6. Text-to-Image Arena 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1385 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1388 |
| 2 | reve-2.0 | Reve | 1273 | 新上榜 | 2 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1271 | |
| 3 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1269 | 下降1位 | 3 | mai-image-2.5 | Microsoft AI | 1254 | |
| 4 | mai-image-2.5 | Microsoft AI | 1253 | 下降1位 | 4 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1245 | |
| 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1245 | 下降1位 | 5 | gpt-image-1.5-high-fidelity | OpenAI | 1241 | |
| 6 | gpt-image-1.5-high-fidelity | OpenAI | 1241 | 下降1位 | 6 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | |
| 7 | grok-imagine-image-quality | xAI | 1234 | 持平 | 7 | grok-imagine-image-quality | xAI | 1228 |
| 8 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | 下降2位 | 8 | uni-1.1-max | Luma AI | 1192 | |
| 9 | ideogram-4.0-quality | Ideogram | 1204 | 新上榜 | 9 | mai-image-2 | Microsoft AI | 1182 |
| 10 | uni-1.1-max | Luma AI | 1191 | 下降2位 | 10 | uni-1.1 | Luma AI | 1176 |
- 本周榜单主要变化
- Reve 2.0 新上榜位列第 2,Ideogram 4.0 新上榜第 9。
- Microsoft mai-image-2 与 Luma uni-1.1 跌出前十。
7. AA Image Editing 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 1.5 (high) | OpenAI | 1265 | 持平 | 1 | GPT Image 1.5 (high) | OpenAI | 1259 |
| 2 | GPT Image 2 (high) | OpenAI | 1259 | 持平 | 2 | GPT Image 2 (high) | OpenAI | 1252 |
| 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1251 | 持平 | 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1241 | ||
| 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1245 | 持平 | 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1241 | ||
| 5 | grok-imagine-image-quality | xAI | 1240 | 持平 | 5 | grok-imagine-image-quality | xAI | 1231 |
| 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1233 | 持平 | 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1224 |
| 7 | Luma UNI 1 Max | Luma Labs | 1221 | 上升1位 | 7 | grok-imagine-image | xAI | 1214 |
| 8 | grok-imagine-image | xAI | 1221 | 下降1位 | 8 | Luma UNI 1 Max | Luma Labs | 1210 |
| 9 | Kling Image 3.0 Omni | KlingAI | 1219 | 持平 | 9 | Kling Image 3.0 Omni | KlingAI | 1210 |
| 10 | FLUX.2 [max] | Black Forest Labs | 1215 | 持平 | 10 | FLUX.2 [max] | Black Forest Labs | 1209 |
- 本周榜单主要变化无重大变化
8. AA Text-to-Image 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 2 (high) | OpenAI | 1339 | 持平 | 1 | GPT Image 2 (high) | OpenAI | 1339 |
| 2 | GPT Image 1.5 (high) | OpenAI | 1266 | 持平 | 2 | GPT Image 1.5 (high) | OpenAI | 1267 |
| 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1260 | 持平 | 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1259 | ||
| 4 | Cosmos3-Super-Text2Image (agentic)Open Weights | NVIDIA | 1240 | 持平 | 4 | Cosmos3-Super-Text2Image (agentic)Open Weights | NVIDIA | 1243 |
| 5 | Nano Banana Pro (Gemini 3 Pro Image) | 1218 | 持平 | 5 | Nano Banana Pro (Gemini 3 Pro Image) | 1219 | ||
| 6 | Krea 2 Medium | Krea | 1210 | 持平 | 6 | Krea 2 Medium | Krea | 1211 |
| 7 | grok-imagine-image-quality | xAI | 1205 | 持平 | 7 | grok-imagine-image-quality | xAI | 1205 |
| 8 | Recraft V4.1 Utility Pro | Recraft | 1203 | 持平 | 8 | Recraft V4.1 Utility Pro | Recraft | 1204 |
| 9 | Recraft V4.1 Utility | Recraft | 1197 | 上升1位 | 9 | Seedream 4.0 | ByteDance Seed | 1196 |
| 10 | Seedream 4.0 | ByteDance Seed | 1194 | 下降1位 | 10 | Recraft V4.1 Utility | Recraft | 1194 |
- 本周榜单主要变化无重大变化
9. 前沿数学 (FrontierMath) 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% | 持平 | 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% |
| 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% | 持平 | 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% |
| 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% | 持平 | 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% |
| 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% | 持平 | 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% |
| 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% | 持平 | 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% |
| 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% | 持平 | 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% |
| 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% | 持平 | 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% |
| 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% | 持平 | 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% |
| 9 | GPT-5.2 (high) | OpenAI | 40.3% | 持平 | 9 | GPT-5.2 (high) | OpenAI | 40.3% |
| 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% | 持平 | 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% |
- 本周榜单主要变化无重大变化
10. HLE 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gemini-3.1-pro-preview (thinking high) | 46.4 | 持平 | 1 | gemini-3.1-pro-preview (thinking high) | 46.4 | ||
| 2 | gpt-5.4-pro-2026-03-05 | OpenAI | 44.3 | 持平 | 2 | gpt-5.4-pro-2026-03-05 | OpenAI | 44.3 |
| 3 | Muse Spark | Meta | 40.6 | 持平 | 3 | Muse Spark | Meta | 40.6 |
| 4 | gemini-3-pro-preview | 37.5 | 持平 | 4 | gemini-3-pro-preview | 37.5 | ||
| 5 | gpt-5.4-2026-03-05 (xhigh thinking) | OpenAI | 36.2 | 持平 | 5 | gpt-5.4-2026-03-05 (xhigh thinking) | OpenAI | 36.2 |
| 6 | claude-opus-4-7 | Anthropic | 36.2 | 持平 | 6 | claude-opus-4-7 | Anthropic | 36.2 |
| 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 | 持平 | 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 |
| 8 | gpt-5-pro-2025-10-06 | OpenAI | 31.6 | 持平 | 8 | gpt-5-pro-2025-10-06 | OpenAI | 31.6 |
| 9 | gpt-5.2-2025-12-11 | OpenAI | 27.8 | 持平 | 9 | gpt-5.2-2025-12-11 | OpenAI | 27.8 |
| 10 | gpt-5-2025-08-07 | OpenAI | 25.3 | 持平 | 10 | gpt-5-2025-08-07 | OpenAI | 25.3 |
- 本周榜单主要变化无重大变化
11. Agent (GAIA) 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Co-Sight Pro v1.0.1 | ZTE-AICloud | 93.0 | 新上榜 | 1 | OPS-Agentic-Search | Alibaba Cloud | 92.4 |
| 2 | OPS-Agentic-Search | Alibaba Cloud | 92.4 | 下降1位 | 2 | openJiuwen-deepagent | openJiuwen | 91.7 |
| 3 | CustomGPT.ai Research Lab v41 | CustomGPT.ai | 92.0 | 新上榜 | 3 | Lemon | LR AILab of Lenovo CTO Org | 91.4 |
| 4 | Co-Sight Pro v1.0.0 | ZTE-AICloud | 92.0 | 新上榜 | 4 | JoinAI_V2.2 | JoinAI-CMCC | 90.7 |
| 5 | CustomGPT.ai Research Lab v43 | CustomGPT.ai | 92.0 | 新上榜 | 5 | Nemotron-ToolOrchestra-0107 | NVIDIA | 90.4 |
| 6 | AuraAi | AI | 92.0 | 新上榜 | 6 | Nemotron-ToolOrchestra-0106 | NVIDIA | 90.4 |
| 7 | CustomGPT.ai Research Lab V42 | CustomGPT.ai | 92.0 | 新上榜 | 7 | JoinAI_V2.1 | JoinAI-CMCC | 90.0 |
| 8 | openJiuwen-deepagent | openJiuwen | 91.7 | 下降6位 | 8 | SU Zero - Shuqian Series Pro MAX | Suzhou AI Lab, Shuqian Tech | 90.0 |
| 9 | CustomGPT.ai Research Lab v39 | CustomGPT.ai | 91.7 | 新上榜 | 9 | HALO V1217-1 | Microsoft AI Asia - Ads | 89.4 |
| 10 | CustomGPT.ai Research Lab v35 | CustomGPT.ai | 91.4 | 新上榜 | 10 | ShawnAgent_v3.1 | 89.4 | |
- 本周榜单主要变化
- ZTE Co-Sight Pro 空降榜首,CustomGPT.ai 多个版本(v35~v43)集中入榜,占据第 3、5、7、9、10 位。
- openJiuwen-deepagent 骤降 6 位至第 8,Lemon、JoinAI、Nemotron 等多个系统跌出前十。
12. 国内 - 大语言模型 (OpenCompass) 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.4-2026-03-05 (high) | OpenAI | 67.3 | 持平 | 1 | GPT-5.4-2026-03-05 (high) | OpenAI | 67.3 |
| 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 | 持平 | 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 |
| 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 | 持平 | 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 |
| 4 | Doubao-Seed-2-0-Pro-260215 (high) | ByteDance | 63.5 | 持平 | 4 | Doubao-Seed-2-0-Pro-260215 (high) | ByteDance | 63.5 |
| 5 | Kimi-K2.6 | Moonshot | 63.4 | 持平 | 5 | Kimi-K2.6 | Moonshot | 63.4 |
| 6 | Gemini-3.1-Pro-Preview | 63.2 | 持平 | 6 | Gemini-3.1-Pro-Preview | 63.2 | ||
| 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 | 持平 | 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 |
| 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 | 持平 | 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 |
| 9 | Doubao-Seed-2-0-Lite-260215 (high) | ByteDance | 60.4 | 持平 | 9 | Doubao-Seed-2-0-Lite-260215 (high) | ByteDance | 60.4 |
| 10 | GLM-5.1 | Zhipu AI | 59.0 | 持平 | 10 | GLM-5.1 | Zhipu AI | 59.0 |
- 本周榜单主要变化无重大变化
13. 国内 - 多模态 (OpenCompass) 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Gemini-3.1-Pro-Preview | 66.6 | 持平 | 1 | Gemini-3.1-Pro-Preview | 66.6 | ||
| 2 | Qwen3.5-397B | Alibaba | 65.4 | 持平 | 2 | Qwen3.5-397B | Alibaba | 65.4 |
| 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.2 | 持平 | 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.2 |
| 4 | Kimi-k2.5 | Moonshot AI | 63.0 | 持平 | 4 | Kimi-k2.5 | Moonshot AI | 63.0 |
| 5 | SenseNova-V6-5-Pro | SenseTime | 55.6 | 持平 | 5 | SenseNova-V6-5-Pro | SenseTime | 55.6 |
| 6 | Claude-Opus-4-6 | Anthropic | 55.2 | 持平 | 6 | Claude-Opus-4-6 | Anthropic | 55.2 |
| 7 | GLM4_6V | Zhipu AI | 52.5 | 持平 | 7 | GLM4_6V | Zhipu AI | 52.5 |
| 8 | GPT-5.4 | OpenAI | 51.5 | 持平 | 8 | GPT-5.4 | OpenAI | 51.5 |
| 9 | Step3-VL-10B | StepFun | 48.8 | 持平 | 9 | Step3-VL-10B | StepFun | 48.8 |
| 10 | Ovis2.6-30B-A3B | Alibaba | 48.4 | 持平 | 10 | Ovis2.6-30B-A3B | Alibaba | 48.4 |
- 本周榜单主要变化无重大变化
14. 国内 - 医疗 (MedBench) 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | 京医千询 | 京东健康 | 72.6 | 持平 | 1 | 京医千询 | 京东健康 | 72.6 |
| 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 | 持平 | 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 |
| 3 | 千问健康大模型 | 千问C端 | 71.2 | 持平 | 3 | 千问健康大模型 | 千问C端 | 71.2 |
| 4 | 华为云健康管理大模型 | Huawei | 71.0 | 持平 | 4 | 华为云健康管理大模型 | Huawei | 71.0 |
| 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 | 持平 | 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 |
| 6 | 微医医疗大模型 | 微医 | 68.2 | 持平 | 6 | 微医医疗大模型 | 微医 | 68.2 |
| 7 | AntAngelMed | MedAIBase | 68.0 | 持平 | 7 | AntAngelMed | MedAIBase | 68.0 |
| 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 | 持平 | 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 |
| 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 | 持平 | 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 |
| 10 | Grok-4 | xAI | 58.4 | 持平 | 10 | Grok-4 | xAI | 58.4 |
- 本周榜单主要变化无重大变化
15. GPQA Diamond 数据采集 · 本周 2026-06-01 → 2026-06-07
—
| 本周 · 本周 2026-06-01 → 2026-06-07 | 上周 · 上周 2026-05-25 → 2026-05-31 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Mythos Preview | Anthropic | 94.6 | 持平 | 1 | Claude Mythos Preview | Anthropic | 94.6 |
| 2 | Gemini 3.1 Pro | 94.3 | 持平 | 2 | Gemini 3.1 Pro | 94.3 | ||
| 3 | Claude Opus 4.7 | Anthropic | 94.2 | 持平 | 3 | Claude Opus 4.7 | Anthropic | 94.2 |
| 4 | Claude Opus 4.8 | Anthropic | 93.6 | 持平 | 4 | Claude Opus 4.8 | Anthropic | 93.6 |
| 5 | GPT-5.5 | OpenAI | 93.6 | 持平 | 5 | GPT-5.5 | OpenAI | 93.6 |
| 6 | GPT-5.2 Pro | OpenAI | 93.2 | 持平 | 6 | GPT-5.2 Pro | OpenAI | 93.2 |
| 7 | GPT-5.4 | OpenAI | 92.8 | 持平 | 7 | GPT-5.4 | OpenAI | 92.8 |
| 8 | Qwen3.7 Max | Alibaba Cloud / Qwen Team | 92.4 | 持平 | 8 | Qwen3.7 Max | Alibaba Cloud / Qwen Team | 92.4 |
| 9 | GPT-5.2 | OpenAI | 92.4 | 持平 | 9 | GPT-5.2 | OpenAI | 92.4 |
| 10 | Gemini 3 Pro | 91.9 | 持平 | 10 | Gemini 3 Pro | 91.9 | ||
- 本周榜单主要变化无重大变化
动态分析
周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。
本周大盘三项核心指标
本周 OpenRouter 共流转 32.75T tokens, 环比 +8.7% — 较上周 30.12T 继续增长,大盘连续四个窗口扩张。
新模型密集发布: Anthropic Claude Opus 4.8 (5-29) 与 MiniMax M3 (6-01) 当窗上线 — M3 首个窗口即进入调用量 Top 10。
WoW +8.7%, 大盘维持扩张 — xiaomi +6.24pp / MiniMax +3.19pp 是本周两个最显著的厂商级份额变化。
本期关键指标 数据采集 · 2026-05-29 → 2026-06-04
本期 2026-05-29 → 2026-06-04 · Δ 对照上一窗口 2026-05-22 → 2026-05-28
- 06-01 MiniMax M3 (首个窗口即入调用量 Top 10)
- 05-29 Anthropic Claude Opus 4.8
本周 Top 10 的 3 处关键变动
xiaomi 双模型同入 Top 10 — MiMo-V2.5 +450% 升至 #3 (2.31T):MiMo-V2.5-Pro +37% 守 #9 (1.12T),小米两款合计逼近 deepseek。
V4 Flash 与 Hy3 守 #1 / #2 但双双回落 — -18% / -13% WoW:V4 Flash 2.90T (vs 上周 3.53T) · Hy3 2.70T (vs 上周 3.11T)。
MiniMax M3 首窗入 #8 (1.22T NEW),Anthropic Opus 4.7 -47% 退至 #6:Sonnet 4.6 -14% 守 #5,Anthropic 双旗舰本周同步回落。
Token 调用量 · Top 10 数据采集 · 2026-05-29 → 2026-06-04
本周窗口 2026-05-29 → 06-04 (Fri-Thu) · 单位 B tokens · 按厂商着色
近 4 周 Top 模型排名走势
DeepSeek V4 Flash 守冠 3 窗口: 05-11 #2 → 05-18 #1 → 05-25 #1 → 05-29 #1,本周虽 -18% 仍稳居榜首。
xiaomi MiMo-V2.5 两窗冲顶: 05-25 新进即 #6 → 05-29 #3,单窗上升 3 位,成为冲得最快的国产模型。
Anthropic Opus 4.7 连降至 #6: 05-18 #3 → 05-25 #3 → 05-29 #6,Opus 4.8 上线后老旗舰调用量让位。
MiniMax M3 新进 Top 10: 05-11 #— → 05-18 #— → 05-25 #— → 05-29 #8 (1.22T NEW)。
排名变迁 · 近 4 周 数据采集 · 05-11 → 06-04
X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines · 末窗 05-29 为 Fri-Thu, 余为 Mon-Sun
厂商份额变化分布: xiaomi +6.24pp 领涨, MiniMax +3.19pp 入榜, Anthropic -3.11pp 回落
xiaomi +6.24pp — 升至 #4 厂商: 份额 4.49% → 10.73%,MiMo-V2.5 与 V2.5-Pro 双模型驱动。
MiniMax +3.19pp — M3 上线推动: 份额 2.44% → 5.63%,M3 首窗即入模型 Top 10。
Anthropic -3.11pp — 双旗舰回落: 份额 18.75% → 15.63%,Opus 4.7 单窗 -47%。
DeepSeek -2.72pp — 仍居 #1 厂商: 份额 19.57% → 16.85%,三模型在榜但增速低于大盘。
厂商份额 Δ 数据采集 · 2026-05-22 → 2026-06-04
百分点变动 · 中线 0 · 绿正红负 · 05-29→06-04 vs 05-22→05-28
DeepSeek 16.85% 守 #1, Anthropic 15.63% 紧随 (差 1.22pp), xiaomi 10.73% 升至 #4
DeepSeek 16.85% 守 #1, 但 -2.72pp: Anthropic 15.63% 紧随其后,两家差距收窄至 1.22pp。
xiaomi 10.73% 升至 #4 厂商: +6.24pp,MiMo 双模型驱动,14 周内首次进入前四。
MiniMax 5.63% 进入前七: +3.19pp,M3 首窗放量带动份额翻倍。
厂商份额组成 数据采集 · 05-29 → 06-04 (外环) vs 05-22 → 05-28 (内环)
双层 doughnut · 10 段
查证与发现 — 多周完整数据视图
这一页通过视觉化的形式展示更多细节数据和趋势 —— 挑任意一周看榜单、看长期趋势、跨数据集做对比,补足周报无法展开的细节。
国产阵营 OpenRouter token 调用量份额: 14 个窗口多在 30–45% 区间, 最新两窗升至 49.3% → 52.0%
每条色带是一家厂商的 OpenRouter token 调用量份额,纵向加总恒为 100%,横轴为滚动 14 个 7 天窗口。用右上按钮可单看国产或海外阵营,观察份额随时间此消彼长。
OpenRouter token 调用量 #1 在 14 个 7 天窗口内易主 7 次, DeepSeek V4 Flash 连冠 3 窗口
拖动上方的时间条,回放任一 7 天窗口的 OpenRouter token 调用量榜单,看清榜首在 14 个窗口里如何反复易主。
OpenRouter 新模型上线: 04-20 / 04-27 两窗口高峰后 (05-12 → 05-24) 转入静默, 05-29 → 06-04 再现密集发布
每个点代表一次新模型上线,横向按窗口排列、颜色区分厂商,描边点为日后进入过 Top 9 的模型;点的疏密即各周的发布节奏。
OpenRouter token 份额: 开源阵营由 18.5% 升至 48.7%, 最新窗口反超闭源 (43.7%) (滚动 14 个 7 天窗口)
把所有厂商并入开源、闭源两大阵营后的份额对决;两条色带此长彼消,反映 14 个窗口里开闭源之间的差距如何收窄。
5 款开源模型 OpenRouter token 量生命周期: 上线后约 8 个 7 天窗口降至峰值 1/3
将 5 款开源模型对齐到「上线后第 N 个窗口」,叠看它们从首发冲顶到回落的生命周期曲线有多相似。
6 个能力榜 Top 8 国产/海外分布 (leaderboards.db 2026-06-05 快照)
每一行是一个能力榜的 Top 8 席位构成,绿色为国产、灰色为海外,一眼看清各榜单的阵营版图。反映的是能力评估格局,与 OpenRouter 的市场份额不是一回事。
OpenRouter Top 10 模型任务构成 (编程占比, 类别数据滞后一周): xiaomi MiMo-V2.5 84% 最高
每一行是一款 Top 模型,横向色段表示其 token 在各任务类别上的占比,凸显谁更偏编程。类别数据按 OR 周度发布,较本期主窗口滞后约一周。
OpenRouter 吞吐量快照 (2026-06-05): OpenAI gpt-oss-120b 712 tok/s 领先, gpt-oss 两款入 Top 3
按 p50 生成速度 (tok/s) 排出的单日吞吐量 Top 10,数值越高代表出字越快。此口径与分析师 §2.4 原表不同源,不宜直接横比。
For Agents
实时 OpenRouter 榜单数据,每日自动刷新 —— 并提供面向 AI Agent 的原生接入方式(MCP),让你的 Agent 直接查询实时数据库。
数据加载中…实时模型调用量 · Top 10
来自实时数据库 · 每日自动刷新让你的 Agent 直接访问数据库(MCP)
Agent-native · Model Context Protocol本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对每日刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。
① 一行接入(Claude Code)
claude mcp add --transport http panda https://pandaleaderboard.com/mcp/
② 或写入 MCP 配置(Claude Desktop / Cursor)
{
"mcpServers": {
"panda": { "url": "https://pandaleaderboard.com/mcp/" }
}
}
③ 可用工具
query_openrouter(sql)— 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。openrouter_schema()— 列出所有表与字段(先调用它了解结构)。openrouter_freshness()— 查看最新数据周与各表行数。
④ 示例:让 Agent 查询本周调用量榜首
SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;
历史周报
过往周报归档,可按发布日期、模型或主题搜索。