Panda Leaderboard · 大模型榜单中心
本周报会在每周五进行更新
编辑 · 2026-06-10

本周榜单变化总览

数据采集 · 本周 2026-06-01 → 2026-06-07 · 19 张榜单 / 9 有变化
19 张榜单本周主要变动对比周期:本周 2026-06-01 → 2026-06-07 vs 上周 2026-05-25 → 2026-05-31
榜单名称本周主要变动模型
LMArena 文本竞技场Claude Opus 4.8-thinking 新上榜位居第 8,Gemini 3.5 Flash 跌出前十
LMArena 代码竞技场Claude Opus 4.8 / 4.8-thinking、MiniMax M3 新上榜;Qwen 3.7 Max、Claude Sonnet 4.6 排名下降
LMArena 图像编辑竞技场Microsoft MAI-Image-2.5 空降第 2,Reve 2.0 新上榜第 9
LMArena 文生图竞技场Reve 2.0 新上榜位列第 2,Ideogram 4.0 新上榜第 9
Artificial Analysis 图像编辑无重大变化
Artificial Analysis 文生图无重大变化
GPQA无重大变化
MedBench无重大变化
OpenCompass LLM无重大变化
OpenCompass 多模态无重大变化
LiveCodeBench GSO无重大变化
HuggingFace GAIAZTE Co-Sight Pro 空降榜首,CustomGPT.ai 多个版本集中入榜
Scale HLE无重大变化
Epoch FrontierMath无重大变化
SWE-bench无重大变化
OpenRouter 模型调用量榜单MiniMax M3、Claude Opus 4.8 新上榜;Claude Opus 4.7 排名大幅下降 5 位
OpenRouter 厂商调用量榜单MiniMax 跃居第 4,总量爆发增长 317%;Anthropic 总量下滑 5%
OpenRouter 编程调用量榜单MiniMax M3 空降第 2,Claude Opus 4.7 降 5 位,Opus 4.8 新上榜
OpenRouter 模型吞吐量榜单gpt-oss-20b 下降 3 位;Llama 3.3 70B、Nemotron 3 Nano Omni 新上榜

本周大模型行业重要动态

监控窗口 · 本周 2026-06-01 → 2026-06-07 · 6 条核心进展
01
Anthropic

2026-06-09 Anthropic 推出新旗舰 Claude Fable 5 及受限版 Mythos 5,二者为同一底层模型;Fable 5 为通用版并内置安全分类器(部分敏感问题转交 Opus 4.8 处理),SWE-Bench Pro 达 80.3% 创新高,Mythos 5 解除部分限制仅向网络防御与基础设施合作方开放。(信息来源:[anthropic.com](https://www.anthropic.com/news/claude-fable-5-mythos-5))

02
Google

2026-06-03 Google DeepMind 开源 Gemma 4 12B 原生多模态模型,采用无编码器统一架构、首次支持原生音频输入,约 120 亿参数性能逼近 26B MoE,16GB 内存笔记本即可本地运行,以 Apache 2.0 许可发布。(信息来源:[aitoolly.com](https://aitoolly.com/ai-news/article/2026-06-04-google-deepmind-launches-gemma-4-12b-a-unified-encoder-free-multimodal-model-for-laptops))

03
NVIDIA

2026-06-05 NVIDIA 正式发布并开源 Nemotron 3 Ultra,为 550B 总参/55B 激活的 MoE Mamba-Transformer 混合模型,专为长效智能体工作流优化,吞吐量较同级开源模型最高提升 5 倍,权重、训练配方与数据管线全面开放。(信息来源:[nvidianews.nvidia.com](https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models))

04
MiniMax

2026-06-01 MiniMax 发布原生多模态模型 M3,采用自研稀疏注意力架构 MSA 实现 1M 超长上下文,1M 上下文下每 token 计算量仅为上代的 1/20,SWE-Bench Pro 超越 GPT-5.5 与 Gemini 3.1 Pro,是首个同时具备前沿编码、1M 上下文与原生多模态的开源模型。(信息来源:[minimaxi.com](https://www.minimaxi.com/blog/minimax-m3))

05
小米

2026-06-09 小米 MiMo 联合 TileRT 发布 MiMo-V2.5-Pro 的 UltraSpeed 模式,业内首次在 1 万亿参数模型上突破 1000 tokens/s 输出速度,雷军亲自发文介绍;API 以 3 倍价格提供约 10 倍输出体验,采用申请制限时开放。(信息来源:[platform.xiaomimimo.com](https://platform.xiaomimimo.com/docs/en-US/model-intro/mimo-v2.5-pro-ultraspeed))

06
xAI

2026-06-03 xAI 通过 API 开放预览版图像转视频模型 grok-imagine-video-1.5-preview,支持由单张图片生成最高 720p、带原生同步音频的视频,登顶 Artificial Analysis 图生视频竞技场榜首(Elo 1404)。(信息来源:[x.ai](https://x.ai/news/grok-imagine-1-5)) > 信息来源优先级说明:本报告所有来源均按 S→A→B→C→D 优先级严格筛选,优先采用官方一手来源。本周保留的 6 条动态来源均为 S 级官方一手来源(厂商官方博客、官方文档或官方新闻室)。

二、OpenRouter 分析

OpenRouter 平台调用量与性能

数据采集 · 本周 2026-06-01 → 2026-06-07 · 对照周期 · 上周 2026-05-25 → 2026-05-31

本周 OpenRouter 综合分析报告周期 · 本周 2026-06-01 → 2026-06-07对照周期 · 上周 2026-05-25 → 2026-05-31

- 本周重点关注 1|中国低价阵营主导头部,价格战持续升级:调用量榜前四中国模型占据三席,且呈现价格"越打越低"态势。小米 MiMo-V2.5 于 5 月 27 日断崖式降价约 80% 后调用量激增 50% 升至第四、输入价(0.014)刷新全榜最低;DeepSeek V4 Flash 持续小幅降价稳守榜首,腾讯 Hy3 再降输出价并以低价巩固第二。低价正成为中国厂商抢占调用量的核心抓手,价格竞争烈度进一步加剧。

- 本周重点关注 2|Anthropic 完成旗舰代际切换,换代阵痛显现:新旗舰 Claude Opus 4.8 以全榜最强的智能(61)、编程(57)与 Agent(78)性能新入榜并暴涨 300%,且输入价反低于前代模型 Opus 4.7,导致后者被直接替代调用量暴跌 38%、排名下滑 5 位。新旧旗舰此消彼长,叠加 Sonnet 4.6 走弱,使 Anthropic 厂商总量短期承压,下滑 5%,待 4.8 放量成熟后可能有望修复。

- 本周重点关注 3|MiniMax M3 强势上线,成本周最大新星:M3 新发即空降调用量榜第三、编程榜第二(单周 1559B 逼近榜首),凭借在中国模型中名列前茅的综合性能(智能、Agent 均居全榜第三),精准切入编程市场,编程占比高达 62%,同时独力推动 MiniMax 厂商总量爆发增长 317%。但其增长高度依赖单一新品与 launch spike,且 top5 应用集中度偏高,定价回归常态后的留存表现是后续观察重点。

OpenRouter 子榜单 · 2.1 模型调用量 / 2.2 厂商调用量 / 2.3 编程调用量 / 2.4 模型吞吐量

4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings

2.1 OpenRouter 模型调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07

来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10

排名模型厂商Tokens (T)WoW变化定性健康度风险提示
1DeepSeek: DeepSeek V4 Flashdeepseek3.69+19%[稳定]56
2Tencent: Hy3 previewtencent2.94-3%[稳定]90
3MiniMax: MiniMax M3minimax2.50N/A[新上榜]175
4Xiaomi: MiMo-V2.5xiaomi2.19+50%[排名上升2位]121
5Owl Alphaopenrouter1.95+17%[稳定]55
6Anthropic: Claude Sonnet 4.6anthropic1.76-9%[排名下降2位]67
7DeepSeek: DeepSeek V4 Prodeepseek1.70+35%[稳定]85
8Anthropic: Claude Opus 4.7anthropic1.44-38%[排名大幅下降5位]74
9DeepSeek: DeepSeek V3.2deepseek1.17+12%[稳定]28
10Anthropic: Claude Opus 4.8anthropic1.16+300%[新上榜]59
模型解读 · 报告 2.1(6 / 10 款模型附详细分析)
[DeepSeek V4 Flash]#1 → #1(排名不变)WoW 19%

模型质量数据:| P/C=56 | R/C=1.3255 | top5 App 集中度=28% | Intelligence=47 | Coding=39 | Agentic=61 | Input Price=0.083 | Output Price=0.257 本周变化归因分析:V4 Flash 本周稳守榜首并保持近两成增长,其稳健表现源于"性能够用、价格极低"的组合。它的综合性能在前十中居于中段(Intelligence 47、Agentic 61 均处中游),算不上突出,但定价构成了护城河——输入价 0.083、输出价 0.257 同属全榜最低梯队,且近两周持续单边降价(输入价降约 18%、输出价降约 11%),节奏稳定无反弹,显示 DeepSeek 仍在以低价主动巩固份额。横向看,它在同价位的中国低价阵营中性能明显领先 Hy3 与 MiMo,面对本周强势入榜、性能更高的 M3 则以约一半输入价、近九分之一输出价筑起性价比壁垒。更关键的是其增长质量扎实:R/C 高达 1.33、top5 应用集中度仅 28%,表明调用来自真实分散的多元需求而非单一应用刷量。因此在 M3 入榜分流的冲击下,V4 Flash 仍是本周低价格局中最稳定的头部资产。

[Tencent Hy3 preview]#2 → #2(排名不变)WoW -3%

模型质量数据:| P/C=90 | R/C=0.8409 | top5 App 集中度=1% | Intelligence=42 | Coding=36 | Agentic=56 | Input Price=0.031 | Output Price=0.234 本周变化归因分析:Hy3 本周小幅回落 3%,但第二的位置依旧稳固。作为典型的"极致低价走量"模型,其性能在前十中偏中下(Intelligence 42、Coding 36、Agentic 56 均处后段),核心竞争力完全押注于价格——它拥有全榜最低的输入价(0.031)与输出价(0.234)并提供免费版本,且于 5 月 28 日前后再度将输出价下调约 10%,进一步拉开与其它模型的价差、强化最低价心智。需求结构也极为健康,top5 应用集中度仅 1%、全榜最分散,几乎不存在头部应用依赖风险。本周的轻微回落主要来自 MiniMax M3 入榜带来的边际分流,并非自身竞争力下滑。真正值得警惕的是同为极致低价的小米 MiMo——其激进降价后输入价(0.014)已低于 Hy3,对后者赖以立足的"最低价"定位构成直接挑战,后续需关注这一价格优势是否被进一步侵蚀。

[MiniMax M3]新上榜 → #3WoW N/A

模型质量数据:| P/C=175 | R/C=0.9812 | top5 App 集中度=42% | Intelligence=55 | Coding=43 | Agentic=69 | Input Price=0.188 | Output Price=2.222 本周变化归因分析:M3 于 5 月 31 日新发即空降第三,是本周最大新星。它的综合性能在前十中位居前列(Intelligence 55、Agentic 69 均排第三,仅次于两款 Opus),是中国模型中性能最接近 Anthropic 旗舰的一档,其核心竞争对象因此并非低价阵营,而是性能相近的高端模型——相较两款 Opus,它以约十分之一的输出价提供了仅次其后的智能与 Agent 能力,性价比突出。高达 62% 的 Programming 占比也印证了其精准的强编程定位获得专业用户认可。不过需注意,作为新模型其定价仍处发现期,上线首周输入价由 0.089 翻倍爬升至 0.188,呈典型的"引流低价、随后回调"路径;同时 top5 应用集中度达 42% 偏高,增量较依赖少数头部应用,叠加上线高峰效应,留存存在不确定性。后续表现取决于定价回归常态、高峰退潮后调用能否从头部应用向多元需求扩散。

[Xiaomi MiMo-V2.5]#6 → #4(排名上升 2 位)WoW 50%

模型质量数据:| P/C=121 | R/C=0.4969 | top5 App 集中度=8% | Intelligence=36 | Coding=37 | Agentic=51 | Input Price=0.014 | Output Price=0.279 本周变化归因分析:MiMo-V2.5 本周 +50%、排名升 2 位,几乎完全由大幅降价拉动,是典型的价格驱动型上升。该模型性能在前十中靠后(Intelligence 36、Agentic 51 均居末段),本身缺乏竞争力,但 5 月 27 日发生了榜内最激进的单次降价——输入价由约 0.111 骤降至 0.013(降幅约 88%)、输出价由约 1.53 降至 0.28(降幅约 82%),此后稳定维持极低水平,使其一举成为全榜输入价最低的模型,甚至低于长期"最便宜"的 Hy3,直接抢占低价心智。与此同时,小米更贵的 MiMo-V2.5-Pro 本周跌出榜单,表明部分增量来自用户由 Pro 版向降价标准版的内部迁移。后续需观察低价红利消退后,这些调用能否沉淀为稳定需求。

[Anthropic Claude Opus 4.7]#3 → #8(排名大幅下降 5 位)WoW -38%

模型质量数据:| P/C=74 | R/C=0.0201 | top5 App 集中度=22% | Intelligence=57 | Coding=53 | Agentic=71 | Input Price=2.247 | Output Price=25.000 本周变化归因分析:Opus 4.7 本周暴跌 38%、排名跳水 5 位,但根源并非自身性能或价格出了问题——其性能仍居前十第二梯队(Intelligence 57、Coding 53、Agentic 71 三项均为榜单第二)。真正的原因是被同门新旗舰 Opus 4.8 直接内部替代:4.8 在智能、编程、Agent 三项全面超越 4.7,输入价反而更低、输出价持平,对高端用户而言是"更强且不更贵"的严格升级版,迁移动机极强。而 4.7 自身定价保持刚性,整月输出价锁定 25.0 毫无松动,本周也未见任何主动降价挽留用户。叠加其 R/C 仅 0.02、为全榜最低,调用高度依赖少数高价值场景,用户对更优替代品的迁移极为敏感,一旦新旗舰出现便快速流失。综合来看,这是 Anthropic 旗舰换代过程中的典型代际切换,后续大概率将延续向 4.8 让渡份额的趋势。

[Anthropic Claude Opus 4.8]新上榜 → #10WoW 300%

模型质量数据:| P/C=59 | R/C=0.0329 | top5 App 集中度=26% | Intelligence=61 | Coding=57 | Agentic=78 | Input Price=1.924 | Output Price=25.000 本周变化归因分析:Opus 4.8 作为新一代旗舰新入榜即暴涨 300%,增长动力来自性能与定价的双重优势。它的 Intelligence 61、Coding 57、Agentic 78 三项均为前十榜首,是全榜综合性能最强的模型,不仅对内全面超越 4.7,对外也拉开了与 M3 的性能差距(智能 61 vs 55、Agentic 78 vs 69)。定价上,其输入价 1.924 反而低于上一代 4.7(2.247),且上线首周由 2.45 持续下探约 22%,输出价锁定 25.0 不变,这种"更强且更便宜"的组合大幅降低了高端用户的迁移成本,直接承接了从 4.7 流出的份额。不过其增长主要局限于对价格不敏感、追求极致性能的高端场景——相对中国旗舰高出约一个数量级的输出价是明显短板,R/C 也仅 0.03,与 4.7 同样高度依赖少数高价值场景。后续能否在上线高峰后稳住位置,取决于高端场景对其性能溢价的持续买单意愿。

2.2 OpenRouter 厂商调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07

来源:openrouter.ai/rankings · 厂商按 token 调用量

排名厂商最近两周上榜模型数本周总量 (T)总量 WoW关键观察厂商内部模型变动简述
1deepseek36.72+20%总量稳定增长内部模型阵容稳定
2anthropic35.27-5%总量下滑新入榜模型:Anthropic: Claude Opus 4.8
3google14.08+5%总量稳定增长本周无模型上榜,上周模型:Google: Gemini 3 Flash Preview
4minimax13.05+317%总量爆发增长本周新上榜,入榜模型:MiniMax: MiniMax M3
5xiaomi22.95+5%总量稳定增长跌出模型:Xiaomi: MiMo-V2.5-Pro
6tencent12.94-3%总量下滑内部模型阵容稳定
7openai02.23-4%总量下滑内部模型无变动
8openrouter11.95+17%总量稳定增长内部模型阵容稳定
9qwen01.14+21%总量稳定增长内部模型无变动

2.3 OpenRouter 编程类调用量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07

来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1mimo-v2.5xiaomi2307持平1mimo-v2.5xiaomi1944
2minimax-m3minimax1559新上榜2claude-4.7-opusanthropic890
3deepseek-v4-flashdeepseek885上升2位3hy3-previewtencent844
4deepseek-v4-prodeepseek785上升4位4mimo-v2.5-proxiaomi821
5hy3-previewtencent772下降2位5deepseek-v4-flashdeepseek786
6step-3.7-flashstepfun543新上榜6claude-4.6-sonnetanthropic548
7claude-4.7-opusanthropic530下降5位7nemotron-3-super-120b-a12b:freenvidia480
8mimo-v2.5-proxiaomi467下降4位8deepseek-v4-prodeepseek479
9claude-4.8-opusanthropic422新上榜9kimi-k2.6moonshotai414

2.4 OpenRouter 模型吞吐量榜单 数据采集 · 本周 2026-06-01 → 2026-06-07

来源:openrouter.ai/rankings · 吞吐量指标 · 本周 vs 上周 Top 9

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1gpt-oss-120bopenai721持平1gpt-oss-120bopenai912
2gpt-oss-safeguard-20bopenai529上升1位2gpt-oss-20bopenai711
3Qwen3 32Bqwen455上升2位3gpt-oss-safeguard-20bopenai635
4GLM 4.7z-ai432持平4GLM 4.7z-ai384
5gpt-oss-20bopenai329下降3位5Qwen3 32Bqwen369
6MiniMax M2.5minimax236上升1位6Mercury 2inception350
7Llama 3.1 8B Instructmeta-llama221上升1位7MiniMax M2.5minimax277
8Llama 3.3 70B Instructmeta-llama208新上榜8Llama 3.1 8B Instructmeta-llama209
9Nemotron 3 Nano Omni (free)nvidia196新上榜9Llama 4 Scoutmeta-llama187
三、其他榜单

其他榜单 — 15 张外部基准

数据采集 · 本周 2026-06-01 → 2026-06-07 · 对照周期 · 上周 2026-05-25 → 2026-05-31 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源

1. 1. Text Arena

1. Text Arena 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1claude-opus-4-6-thinkingAnthropic1504持平1claude-opus-4-6-thinkingAnthropic1502
2claude-opus-4-7-thinkingAnthropic1501持平2claude-opus-4-7-thinkingAnthropic1500
3claude-opus-4-6Anthropic1498持平3claude-opus-4-6Anthropic1498
4claude-opus-4-7Anthropic1493持平4claude-opus-4-7Anthropic1494
5muse-sparkMeta1489持平5muse-sparkMeta1489
6gemini-3.1-pro-previewGoogle1488持平6gemini-3.1-pro-previewGoogle1487
7gemini-3-proGoogle1486持平7gemini-3-proGoogle1486
8claude-opus-4-8-thinkingAnthropic1482新上榜8gpt-5.5-highOpenAI1482
9gpt-5.5-highOpenAI1482下降1位9gpt-5.4-highOpenAI1480
10gpt-5.4-highOpenAI1479下降1位10gemini-3.5-flashGoogle1479
  • 本周榜单主要变化
    • Claude Opus 4.8-thinking 新上榜位居第 8,Gemini 3.5 Flash 跌出前十。
    • GPT-5.5-high 与 GPT-5.4-high 各下降 1 位,分别至第 9、10 名。
2. 2. Code Arena

2. Code Arena 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1claude-opus-4-7-thinkingAnthropic1567持平1claude-opus-4-7-thinkingAnthropic1567
2claude-opus-4-7Anthropic1557持平2claude-opus-4-7Anthropic1562
3claude-opus-4-8-thinkingAnthropic1552新上榜3claude-opus-4-6-thinkingAnthropic1542
4claude-opus-4-8Anthropic1545新上榜4qwen3.7-maxAlibaba1541
5claude-opus-4-6-thinkingAnthropic1543下降2位5claude-opus-4-6Anthropic1538
6claude-opus-4-6Anthropic1538下降1位6glm-5.1Z.ai1533
7qwen3.7-maxAlibaba1537下降3位7claude-sonnet-4-6Anthropic1523
8glm-5.1Z.ai1532下降2位8kimi-k2.6Moonshot1518
9minimax-m3MiniMax1528新上榜9muse-sparkMeta1508
10claude-sonnet-4-6Anthropic1522下降3位10gemini-3.5-flashGoogle1506
  • 本周榜单主要变化
    • Claude Opus 4.8 及 4.8-thinking 双双新上榜,分列第 3、4 位。
    • MiniMax M3 新上榜位列第 9;Qwen 3.7 Max 与 Claude Sonnet 4.6 均下降 3 位。
    • Muse-spark、Kimi-k2.6、Gemini-3.5-flash 跌出前十。
3. 3. LiveCodeBench

3. LiveCodeBench 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2持平2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3持平4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4持平5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5持平8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6
  • 本周榜单主要变化无重大变化
4. 4. SWE-bench

4. SWE-bench 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1Claude 4.5 Opus (high reasoning)Anthropic76.8%持平1Claude 4.5 Opus (high reasoning)Anthropic76.8%
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)Z.ai72.8%持平6GLM-5 (high reasoning)Z.ai72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot70.8%持平10Kimi K2.5 (high reasoning)Moonshot70.8%
  • 本周榜单主要变化无重大变化
5. 5. Image Edit Arena

5. Image Edit Arena 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1465持平1gpt-image-2 (medium)OpenAI1467
2mai-image-2.5Microsoft AI1401新上榜2chatgpt-image-latest-high-fidelityOpenAI1392
3chatgpt-image-latest-high-fidelityOpenAI1390下降1位3grok-imagine-image-qualityxAI1388
4grok-imagine-image-qualityxAI1388下降1位4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1387
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388下降1位5gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387下降1位6gemini-3-pro-image-preview (nano-banana-pro)Google1387
7gemini-3-pro-image-preview (nano-banana-pro)Google1385下降1位7gpt-image-1.5-high-fidelityOpenAI1374
8gpt-image-1.5-high-fidelityOpenAI1373下降1位8grok-imagine-image-qualityxAI1359
9reve-2.0Reve1356新上榜9uni-1.1-maxLuma AI1339
10grok-imagine-image-qualityxAI1355下降2位10grok-imagine-imagexAI1332
  • 本周榜单主要变化
    • Microsoft MAI-Image-2.5 空降第 2,Reve 2.0 新上榜第 9。
    • uni-1.1-max 与 grok-imagine-image 跌出前十,其余模型普遍下降 1 位。
6. 6. Text-to-Image Arena

6. Text-to-Image Arena 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1385持平1gpt-image-2 (medium)OpenAI1388
2reve-2.0Reve1273新上榜2gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1271
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269下降1位3mai-image-2.5Microsoft AI1254
4mai-image-2.5Microsoft AI1253下降1位4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245下降1位5gpt-image-1.5-high-fidelityOpenAI1241
6gpt-image-1.5-high-fidelityOpenAI1241下降1位6gemini-3-pro-image-preview (nano-banana-pro)Google1232
7grok-imagine-image-qualityxAI1234持平7grok-imagine-image-qualityxAI1228
8gemini-3-pro-image-preview (nano-banana-pro)Google1232下降2位8uni-1.1-maxLuma AI1192
9ideogram-4.0-qualityIdeogram1204新上榜9mai-image-2Microsoft AI1182
10uni-1.1-maxLuma AI1191下降2位10uni-1.1Luma AI1176
  • 本周榜单主要变化
    • Reve 2.0 新上榜位列第 2,Ideogram 4.0 新上榜第 9。
    • Microsoft mai-image-2 与 Luma uni-1.1 跌出前十。
7. 7. AA Image Editing

7. AA Image Editing 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1GPT Image 1.5 (high)OpenAI1265持平1GPT Image 1.5 (high)OpenAI1259
2GPT Image 2 (high)OpenAI1259持平2GPT Image 2 (high)OpenAI1252
3Nano Banana Pro (Gemini 3 Pro Image)Google1251持平3Nano Banana Pro (Gemini 3 Pro Image)Google1241
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1245持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1241
5grok-imagine-image-qualityxAI1240持平5grok-imagine-image-qualityxAI1231
6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1233持平6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1224
7Luma UNI 1 MaxLuma Labs1221上升1位7grok-imagine-imagexAI1214
8grok-imagine-imagexAI1221下降1位8Luma UNI 1 MaxLuma Labs1210
9Kling Image 3.0 OmniKlingAI1219持平9Kling Image 3.0 OmniKlingAI1210
10FLUX.2 [max]Black Forest Labs1215持平10FLUX.2 [max]Black Forest Labs1209
  • 本周榜单主要变化无重大变化
8. 8. AA Text-to-Image

8. AA Text-to-Image 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1GPT Image 2 (high)OpenAI1339持平1GPT Image 2 (high)OpenAI1339
2GPT Image 1.5 (high)OpenAI1266持平2GPT Image 1.5 (high)OpenAI1267
3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1260持平3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1259
4Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1240持平4Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1243
5Nano Banana Pro (Gemini 3 Pro Image)Google1218持平5Nano Banana Pro (Gemini 3 Pro Image)Google1219
6Krea 2 MediumKrea1210持平6Krea 2 MediumKrea1211
7grok-imagine-image-qualityxAI1205持平7grok-imagine-image-qualityxAI1205
8Recraft V4.1 Utility ProRecraft1203持平8Recraft V4.1 Utility ProRecraft1204
9Recraft V4.1 UtilityRecraft1197上升1位9Seedream 4.0ByteDance Seed1196
10Seedream 4.0ByteDance Seed1194下降1位10Recraft V4.1 UtilityRecraft1194
  • 本周榜单主要变化无重大变化
9. 9. 前沿数学 (FrontierMath)

9. 前沿数学 (FrontierMath) 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1GPT-5.5 Pro (high)OpenAI52.4%持平1GPT-5.5 Pro (high)OpenAI52.4%
2GPT-5.5 (xhigh)OpenAI51.7%持平2GPT-5.5 (xhigh)OpenAI51.7%
3GPT-5.5 Pro (xhigh)OpenAI51.0%持平3GPT-5.5 Pro (xhigh)OpenAI51.0%
4GPT-5.4 Pro (xhigh)OpenAI50.0%持平4GPT-5.4 Pro (xhigh)OpenAI50.0%
5GPT-5.4 (xhigh)OpenAI47.6%持平5GPT-5.4 (xhigh)OpenAI47.6%
6Claude Opus 4.7 (xhigh)Anthropic43.8%持平6Claude Opus 4.7 (xhigh)Anthropic43.8%
7Claude Opus 4.6 (max)Anthropic40.7%持平7Claude Opus 4.6 (max)Anthropic40.7%
8GPT-5.2 (xhigh)OpenAI40.7%持平8GPT-5.2 (xhigh)OpenAI40.7%
9GPT-5.2 (high)OpenAI40.3%持平9GPT-5.2 (high)OpenAI40.3%
10Claude Opus 4.6 (32k thinking)Anthropic40.0%持平10Claude Opus 4.6 (32k thinking)Anthropic40.0%
  • 本周榜单主要变化无重大变化
10. 10. HLE

10. HLE 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1gemini-3.1-pro-preview (thinking high)Google46.4持平1gemini-3.1-pro-preview (thinking high)Google46.4
2gpt-5.4-pro-2026-03-05OpenAI44.3持平2gpt-5.4-pro-2026-03-05OpenAI44.3
3Muse SparkMeta40.6持平3Muse SparkMeta40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2持平5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-pro-2025-10-06OpenAI31.6持平8gpt-5-pro-2025-10-06OpenAI31.6
9gpt-5.2-2025-12-11OpenAI27.8持平9gpt-5.2-2025-12-11OpenAI27.8
10gpt-5-2025-08-07OpenAI25.3持平10gpt-5-2025-08-07OpenAI25.3
  • 本周榜单主要变化无重大变化
11. 11. Agent (GAIA)

11. Agent (GAIA) 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1Co-Sight Pro v1.0.1ZTE-AICloud93.0新上榜1OPS-Agentic-SearchAlibaba Cloud92.4
2OPS-Agentic-SearchAlibaba Cloud92.4下降1位2openJiuwen-deepagentopenJiuwen91.7
3CustomGPT.ai Research Lab v41CustomGPT.ai92.0新上榜3LemonLR AILab of Lenovo CTO Org91.4
4Co-Sight Pro v1.0.0ZTE-AICloud92.0新上榜4JoinAI_V2.2JoinAI-CMCC90.7
5CustomGPT.ai Research Lab v43CustomGPT.ai92.0新上榜5Nemotron-ToolOrchestra-0107NVIDIA90.4
6AuraAiAI92.0新上榜6Nemotron-ToolOrchestra-0106NVIDIA90.4
7CustomGPT.ai Research Lab V42CustomGPT.ai92.0新上榜7JoinAI_V2.1JoinAI-CMCC90.0
8openJiuwen-deepagentopenJiuwen91.7下降6位8SU Zero - Shuqian Series Pro MAXSuzhou AI Lab, Shuqian Tech90.0
9CustomGPT.ai Research Lab v39CustomGPT.ai91.7新上榜9HALO V1217-1Microsoft AI Asia - Ads89.4
10CustomGPT.ai Research Lab v35CustomGPT.ai91.4新上榜10ShawnAgent_v3.189.4
  • 本周榜单主要变化
    • ZTE Co-Sight Pro 空降榜首,CustomGPT.ai 多个版本(v35~v43)集中入榜,占据第 3、5、7、9、10 位。
    • openJiuwen-deepagent 骤降 6 位至第 8,Lemon、JoinAI、Nemotron 等多个系统跌出前十。
12. 12. 国内 - 大语言模型 (OpenCompass)

12. 国内 - 大语言模型 (OpenCompass) 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1GPT-5.4-2026-03-05 (high)OpenAI67.3持平1GPT-5.4-2026-03-05 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4
10GLM-5.1Zhipu AI59.0持平10GLM-5.1Zhipu AI59.0
  • 本周榜单主要变化无重大变化
13. 13. 国内 - 多模态 (OpenCompass)

13. 国内 - 多模态 (OpenCompass) 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1Gemini-3.1-Pro-PreviewGoogle66.6持平1Gemini-3.1-Pro-PreviewGoogle66.6
2Qwen3.5-397BAlibaba65.4持平2Qwen3.5-397BAlibaba65.4
3Doubao-Seed-2.0-Pro (medium)ByteDance63.2持平3Doubao-Seed-2.0-Pro (medium)ByteDance63.2
4Kimi-k2.5Moonshot AI63.0持平4Kimi-k2.5Moonshot AI63.0
5SenseNova-V6-5-ProSenseTime55.6持平5SenseNova-V6-5-ProSenseTime55.6
6Claude-Opus-4-6Anthropic55.2持平6Claude-Opus-4-6Anthropic55.2
7GLM4_6VZhipu AI52.5持平7GLM4_6VZhipu AI52.5
8GPT-5.4OpenAI51.5持平8GPT-5.4OpenAI51.5
9Step3-VL-10BStepFun48.8持平9Step3-VL-10BStepFun48.8
10Ovis2.6-30B-A3BAlibaba48.4持平10Ovis2.6-30B-A3BAlibaba48.4
  • 本周榜单主要变化无重大变化
14. 14. 国内 - 医疗 (MedBench)

14. 国内 - 医疗 (MedBench) 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1京医千询京东健康72.6持平1京医千询京东健康72.6
2卓睦鸟医疗大模型广州中康数字科技有限公司72.1持平2卓睦鸟医疗大模型广州中康数字科技有限公司72.1
3千问健康大模型千问C端71.2持平3千问健康大模型千问C端71.2
4华为云健康管理大模型Huawei71.0持平4华为云健康管理大模型Huawei71.0
5WiseDiag v2杭州智诊科技有限公司69.8持平5WiseDiag v2杭州智诊科技有限公司69.8
6微医医疗大模型微医68.2持平6微医医疗大模型微医68.2
7AntAngelMedMedAIBase68.0持平7AntAngelMedMedAIBase68.0
8UniGPT-Med-U1云知声智能科技股份有限公司65.7持平8UniGPT-Med-U1云知声智能科技股份有限公司65.7
9惠每医疗大模型上海新创惠每科技有限公司60.0持平9惠每医疗大模型上海新创惠每科技有限公司60.0
10Grok-4xAI58.4持平10Grok-4xAI58.4
  • 本周榜单主要变化无重大变化
15. 15. GPQA Diamond

15. GPQA Diamond 数据采集 · 本周 2026-06-01 → 2026-06-07

本周 · 本周 2026-06-01 → 2026-06-07上周 · 上周 2026-05-25 → 2026-05-31
排名模型公司指标变化排名模型公司指标
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6持平4Claude Opus 4.8Anthropic93.6
5GPT-5.5OpenAI93.6持平5GPT-5.5OpenAI93.6
6GPT-5.2 ProOpenAI93.2持平6GPT-5.2 ProOpenAI93.2
7GPT-5.4OpenAI92.8持平7GPT-5.4OpenAI92.8
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4持平8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4
9GPT-5.2OpenAI92.4持平9GPT-5.2OpenAI92.4
10Gemini 3 ProGoogle91.9持平10Gemini 3 ProGoogle91.9
  • 本周榜单主要变化无重大变化
02 DYNAMIC ANALYSIS

动态分析

周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。

本数据每日自动更新
A · 01本周一览

本周大盘三项核心指标

01

本周 OpenRouter 共流转 32.75T tokens, 环比 +8.7% — 较上周 30.12T 继续增长,大盘连续四个窗口扩张。

02

新模型密集发布: Anthropic Claude Opus 4.8 (5-29) 与 MiniMax M3 (6-01) 当窗上线 — M3 首个窗口即进入调用量 Top 10。

03

WoW +8.7%, 大盘维持扩张 — xiaomi +6.24pp / MiniMax +3.19pp 是本周两个最显著的厂商级份额变化。

本期关键指标 数据采集 · 2026-05-29 → 2026-06-04

本期 2026-05-29 → 2026-06-04 · Δ 对照上一窗口 2026-05-22 → 2026-05-28

live
本周 token 总量
32.75T
+8.7% WoW · vs 上周 · 30.12T
近 3 个 7 天窗口大盘 WoW 涨幅
本周新模型发布 · 6 主体有进展
6 / 9
Anthropic / MiniMax / Microsoft / Qwen / StepFun
本期主要发布 · 2026-05-29 → 06-04
  • 06-01 MiniMax M3 (首个窗口即入调用量 Top 10)
  • 05-29 Anthropic Claude Opus 4.8
  • + Microsoft MAI 三连发 (06-03) · Qwen3.7 Plus (06-04) · StepFun Step 3.7 Flash (05-29)
近 3 个窗口平均周环比
+8.0%
本周 +8.7% 略高于均值
本周 vs 近 3 窗口均值
本周
+8.7%
3W avg
+8.0%
略高于近 3 窗口均值
B · 02调用量 Top 10 · 2026-05-29 → 2026-06-04

本周 Top 10 的 3 处关键变动

01

xiaomi 双模型同入 Top 10 — MiMo-V2.5 +450% 升至 #3 (2.31T):MiMo-V2.5-Pro +37% 守 #9 (1.12T),小米两款合计逼近 deepseek。

02

V4 Flash 与 Hy3 守 #1 / #2 但双双回落 — -18% / -13% WoW:V4 Flash 2.90T (vs 上周 3.53T) · Hy3 2.70T (vs 上周 3.11T)。

03

MiniMax M3 首窗入 #8 (1.22T NEW),Anthropic Opus 4.7 -47% 退至 #6:Sonnet 4.6 -14% 守 #5,Anthropic 双旗舰本周同步回落。

Token 调用量 · Top 10 数据采集 · 2026-05-29 → 2026-06-04

本周窗口 2026-05-29 → 06-04 (Fri-Thu) · 单位 B tokens · 按厂商着色

10 / 10
横向条形 · 降序 · `tabular-nums` — · 全量视图
C · 03排名变迁 · 近 4 周

近 4 周 Top 模型排名走势

01

DeepSeek V4 Flash 守冠 3 窗口: 05-11 #2 → 05-18 #1 → 05-25 #1 → 05-29 #1,本周虽 -18% 仍稳居榜首。

02

xiaomi MiMo-V2.5 两窗冲顶: 05-25 新进即 #6 → 05-29 #3,单窗上升 3 位,成为冲得最快的国产模型。

03

Anthropic Opus 4.7 连降至 #6: 05-18 #3 → 05-25 #3 → 05-29 #6,Opus 4.8 上线后老旗舰调用量让位。

04

MiniMax M3 新进 Top 10: 05-11 #— → 05-18 #— → 05-25 #— → 05-29 #8 (1.22T NEW)。

排名变迁 · 近 4 周 数据采集 · 05-11 → 06-04

X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines · 末窗 05-29 为 Fri-Thu, 余为 Mon-Sun

6 lines
线段断点表示当周未进 Top · 不插值 — · 全量视图
D · 04厂商份额 Δ · 2026-05-22 → 05-28 vs 2026-05-29 → 06-04

厂商份额变化分布: xiaomi +6.24pp 领涨, MiniMax +3.19pp 入榜, Anthropic -3.11pp 回落

01

xiaomi +6.24pp — 升至 #4 厂商: 份额 4.49% → 10.73%,MiMo-V2.5 与 V2.5-Pro 双模型驱动。

02

MiniMax +3.19pp — M3 上线推动: 份额 2.44% → 5.63%,M3 首窗即入模型 Top 10。

03

Anthropic -3.11pp — 双旗舰回落: 份额 18.75% → 15.63%,Opus 4.7 单窗 -47%。

04

DeepSeek -2.72pp — 仍居 #1 厂商: 份额 19.57% → 16.85%,三模型在榜但增速低于大盘。

厂商份额 Δ 数据采集 · 2026-05-22 → 2026-06-04

百分点变动 · 中线 0 · 绿正红负 · 05-29→06-04 vs 05-22→05-28

10 厂商
正向 + 4 家 · 负向 - 6 家 — · 全量视图
E · 05区域版图 · 05-29 → 06-04 vs 05-22 → 05-28

DeepSeek 16.85% 守 #1, Anthropic 15.63% 紧随 (差 1.22pp), xiaomi 10.73% 升至 #4

01

DeepSeek 16.85% 守 #1, 但 -2.72pp: Anthropic 15.63% 紧随其后,两家差距收窄至 1.22pp。

02

xiaomi 10.73% 升至 #4 厂商: +6.24pp,MiMo 双模型驱动,14 周内首次进入前四。

03

MiniMax 5.63% 进入前七: +3.19pp,M3 首窗放量带动份额翻倍。

厂商份额组成 数据采集 · 05-29 → 06-04 (外环) vs 05-22 → 05-28 (内环)

双层 doughnut · 10 段

% of total tokens
03 EXPLORATORY DASHBOARD

查证与发现 — 多周完整数据视图

这一页通过视觉化的形式展示更多细节数据和趋势 —— 挑任意一周看榜单、看长期趋势、跨数据集做对比,补足周报无法展开的细节。

本数据每日自动更新
数据窗口 滚动 14 周 · 每日自动刷新 覆盖 15 厂商 · 模型周纪录 · launches 数据截至 2026-06-04 openrouter-explorer-data.json
01 · 时间轴

国产阵营 OpenRouter token 调用量份额: 14 个窗口多在 30–45% 区间, 最新两窗升至 49.3% → 52.0%

每条色带是一家厂商的 OpenRouter token 调用量份额,纵向加总恒为 100%,横轴为滚动 14 个 7 天窗口。用右上按钮可单看国产或海外阵营,观察份额随时间此消彼长。

100% 堆叠面积 · 按周 14 weeks · 15 providers
02 · 时间轴

OpenRouter token 调用量 #1 在 14 个 7 天窗口内易主 7 次, DeepSeek V4 Flash 连冠 3 窗口

拖动上方的时间条,回放任一 7 天窗口的 OpenRouter token 调用量榜单,看清榜首在 14 个窗口里如何反复易主。

tokens · billions
03 · 对比

OpenRouter 新模型上线: 04-20 / 04-27 两窗口高峰后 (05-12 → 05-24) 转入静默, 05-29 → 06-04 再现密集发布

每个点代表一次新模型上线,横向按窗口排列、颜色区分厂商,描边点为日后进入过 Top 9 的模型;点的疏密即各周的发布节奏。

总发布数
进过 Top 9
最忙一周
每个点 = 1 次模型上线 · 颜色 = 厂商 · 描边 = 后来进入 Top 9 163 launches
04 · 时间轴 · 阵营对决

OpenRouter token 份额: 开源阵营由 18.5% 升至 48.7%, 最新窗口反超闭源 (43.7%) (滚动 14 个 7 天窗口)

把所有厂商并入开源、闭源两大阵营后的份额对决;两条色带此长彼消,反映 14 个窗口里开闭源之间的差距如何收窄。

100% 堆叠面积 · 14 周 14 providers · OS/closed 静态分组
05 · 时间轴 · 兴衰曲线

5 款开源模型 OpenRouter token 量生命周期: 上线后约 8 个 7 天窗口降至峰值 1/3

将 5 款开源模型对齐到「上线后第 N 个窗口」,叠看它们从首发冲顶到回落的生命周期曲线有多相似。

x: 上线后第 N 周 · y: 周 token 总量 5 models · model_weekly
06 · 跨平台 · 阵营对比

6 个能力榜 Top 8 国产/海外分布 (leaderboards.db 2026-06-05 快照)

每一行是一个能力榜的 Top 8 席位构成,绿色为国产、灰色为海外,一眼看清各榜单的阵营版图。反映的是能力评估格局,与 OpenRouter 的市场份额不是一回事。

LMArena Text Arena对话偏好 ELO
海外 8/8
0% · 国产
LMArena Code Arena代码任务 ELO
国产 3
海外 5
38% · 国产
SWE-bench Verified真实代码 issue 解决率
国产 2
海外 6
25% · 国产
GPQA Diamond研究生级科学推理
国产 1
海外 7
12% · 国产
OpenCompass · 中文综合中文综合评测
国产 5
海外 3
62% · 国产
HuggingFace GAIA Agent多步推理 + 工具调用
国产 4
海外 4
50% · 国产
每行 = 1 个能力榜的 Top 8 · 国产(绿)vs 海外(灰) leaderboards.db · 6 sources
07 · 任务构成 · 头条发现

OpenRouter Top 10 模型任务构成 (编程占比, 类别数据滞后一周): xiaomi MiMo-V2.5 84% 最高

每一行是一款 Top 模型,横向色段表示其 token 在各任务类别上的占比,凸显谁更偏编程。类别数据按 OR 周度发布,较本期主窗口滞后约一周。

横向堆叠 100% 占比 · 类别周窗 2026-05-25 → 05-31 9 rows · 5 segments
08 · 单点快照 · 吞吐量

OpenRouter 吞吐量快照 (2026-06-05): OpenAI gpt-oss-120b 712 tok/s 领先, gpt-oss 两款入 Top 3

按 p50 生成速度 (tok/s) 排出的单日吞吐量 Top 10,数值越高代表出字越快。此口径与分析师 §2.4 原表不同源,不宜直接横比。

排名 模型 公司 p50 throughput (tok/s)
1openai/gpt-oss-120bopenai712
2openai/gpt-oss-safeguard-20bopenai526
3inception/mercury-2-20260304inception426
4qwen/qwen3-32b-04-28qwen404
5openai/gpt-oss-20bopenai363
6z-ai/glm-4.7-20251222z-ai302
7minimax/minimax-m2.5-20260211minimax237
8minimax/minimax-m2.7-20260318minimax196
9openai/o3-mini-2025-01-31openai177
10meta-llama/llama-3.1-8b-instructmeta-llama163
单点快照 · 2026-06-05 · 10 行 · 镜像 §2.4 同源数据 leaderboards.db · openrouter_performance

For Agents

实时 OpenRouter 榜单数据,每日自动刷新 —— 并提供面向 AI Agent 的原生接入方式(MCP),让你的 Agent 直接查询实时数据库。

数据加载中…

实时模型调用量 · Top 10

来自实时数据库 · 每日自动刷新

让你的 Agent 直接访问数据库(MCP)

Agent-native · Model Context Protocol

本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对每日刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。

① 一行接入(Claude Code)

claude mcp add --transport http panda https://pandaleaderboard.com/mcp/

② 或写入 MCP 配置(Claude Desktop / Cursor)

{
  "mcpServers": {
    "panda": { "url": "https://pandaleaderboard.com/mcp/" }
  }
}

③ 可用工具

  • query_openrouter(sql) — 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。
  • openrouter_schema() — 列出所有表与字段(先调用它了解结构)。
  • openrouter_freshness() — 查看最新数据周与各表行数。

④ 示例:让 Agent 查询本周调用量榜首

SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;
04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。