Panda Leaderboard · 大模型榜单中心

报告周期:本周 2026-06-08 → 2026-06-14,上周 2026-06-01 → 2026-06-07

榜单变化总览

1.1本周榜单变化总览

榜单名称本周主要变动模型
LMArena 文本竞技场无重大变化
LMArena 代码竞技场无重大变化
LMArena 图像编辑竞技场无重大变化
LMArena 文生图竞技场无重大变化
LMArena Agent Arena仅本周单天数据,无周环比
Artificial Analysis 图像编辑MAI-Image-2.5 (Foundry) 新上榜第 4,FLUX.2 [max] 跌出前十
Artificial Analysis 文生图MAI-Image-2.5-Flash (Foundry) 新上榜第 7,Recraft V4.1 Utility 跌出前十
GPQA无重大变化
MedBench无重大变化
OpenCompass LLM无重大变化
OpenCompass 多模态无重大变化
LiveCodeBench GSO无重大变化
HuggingFace GAIA无重大变化
Scale HLE无重大变化
Epoch FrontierMath无重大变化
SWE-bench无重大变化
OpenRouter 模型调用量无重大变化
OpenRouter 厂商调用量NVIDIA 新上榜第 9,Qwen 跌出前九
OpenRouter 编程调用量Nemotron 3 Ultra、Owl Alpha 新上榜,Claude 4.7 Opus 升 3 位,DeepSeek 双模型与 Step 3.7 Flash 各降 3 位
OpenRouter 模型吞吐量Morph V3 Large/Fast、Relace Apply 3 等专用模型新上榜,gpt-oss 系列集体跌出

1.2本周大模型行业重要动态

时间窗口 · 2026-06-08 至 2026-06-14总追踪厂商 · 21 家确认入池并保留的核心技术进展 · 8 条(来自 8 家公司)

Anthropic

  • 2026-06-09 Anthropic 正式发布 Claude Fable 5 及受限版 Mythos 5,二者共享同一底座,Fable 5 内置安全护栏,敏感查询回退至 Opus 4.8,定价为输入 $10/百万 tokens、输出 $50/百万 tokens。(来源:anthropic.com

Google

  • 2026-06-10 Google 发布 DiffusionGemma 实验性文本扩散模型,基于 Gemma 4 与 Gemini Diffusion 研究,采用 26B 参数架构,在 H100 上文本生成速度超过 1000 tokens/s,主打低延迟本地交互式工作流。(来源:blog.google

MiniMax

  • 2026-06-11 MiniMax 正式开放 M3 模型权重,模型总规模 428B、激活参数 23B,支持 1M 上下文窗口,面向开源社区与开发者提供模型下载与 API 服务。(来源:minimax.io

Xiaomi

  • 2026-06-09 小米发布 MiMo-V2.5-Pro-UltraSpeed 模式,在 8 卡 GPU 上实现 1T 参数模型生成速度突破 1000 tokens/s,采取申请制限时开放 API,输出速度较 Pro 版提升约 10 倍。(来源:mimo.xiaomi.com

Z.ai

  • 2026-06-11 智谱 Z.ai 向全量用户开放旗舰模型 GLM-5.2,支持 1M 上下文,API 及开源版本计划于下周正式上线。(来源:ithome.com

Moonshot

  • 2026-06-10 月之暗面发布 Kimi K2.7 Code 并开源,采用 1T 总参数 MoE 架构,代码场景推理 token 消耗减少 30%,面向长文本与复杂代码任务优化。(来源:huggingface.co

ByteDance

  • 2026-06-12 字节跳动发布 Seedance-2.0-mini 视频生成模型,成本较上一代降低约 50%,生成速度为 Fast 版两倍,面向高效视频创作场景。(来源:dreamina.capcut.com

Microsoft

  • 2026-06-12 微软开源代码探索模型 FastContext-1.0,通过上下文压缩与检索优化,可降低主 Agent 约 60% Token 消耗,提升长程任务执行效率。(来源:github.com
OpenRouter 分析

2.1本周 OpenRouter 重点关注

  • 本周重点关注1:低价开源阵营内部竞争白热化。MiniMax M3 凭借 6 月初发布的多模态、百万上下文与激进定价单周暴增 73%、跃居次席,直接将腾讯 Hy3 挤下;DeepSeek V4 Flash、小米 MiMo-V2.5、腾讯 Hy3 三家低价开源模型贴身缠斗,榜单前四已基本被中国低价开源模型占据,价格敏感型流量的争夺进入肉搏阶段。
  • 本周重点关注2:高端闭源模型在专业编程场景强势回暖。Claude Opus 4.7 调用量单周大涨 62%、上升两位至第六,编程榜单同步上升 3 位至第四,凭借第一梯队的 Coding 与 Agentic 性能赢得高质量需求,显示在 25 美元高输出定价下,专业开发者对顶级编程能力仍有坚实付费意愿。
  • 本周重点关注3:NVIDIA 携 Nemotron 3 Ultra 切入开源 Agentic 赛道。该 550B MoE 模型 6 月 4 日发布即新晋厂商榜第九,并以 free 版本冲入编程榜第五。作为美系最强开源权重模型之一,其上榜标志开源 Agentic 模型阵营进一步扩容,后续放量值得持续跟踪。

2.2模型调用量榜单分析

来源:openrouter.ai

排名说明 · 平台 token 调用量本周 Top 10 数据采集周期 · 本周 2026-06-08 → 2026-06-14,上周 2026-06-01 → 2026-06-07
排名模型厂商Tokens(T)WoW变化定性P/CR/CTop5 App 集中度IntelligenceCodingAgenticProgramming %Input Price(USD)Output Price(USD)健康度风险提示
1DeepSeek: DeepSeek V4 FlashDeepSeek4.4120%[稳定]220.530629%47396121%0.0850.257无显著风险
2MiniMax: MiniMax M3MiniMax4.3273%[排名上升1位]800.519437%55436958%0.1351.783无显著风险
3Tencent: Hy3 previewTencent4.1441%[排名下降1位]590.37380%42365644%0.0320.235无显著风险
4Xiaomi: MiMo-V2.5Xiaomi3.5964%[稳定]960.33449%544667N/A0.0130.279无显著风险
5Owl AlphaOpenRouter2.4727%[稳定]1310.000079%N/AN/AN/A22%0.0000.000头部应用集中风险,top5 集中度=79%
6Anthropic: Claude Opus 4.7Anthropic2.3462%[排名上升2位]960.04184%57537145%2.80225.000无显著风险
7Anthropic: Claude Sonnet 4.6Anthropic2.1321%[排名下降1位]710.052435%44466226%1.31015.000无显著风险
8DeepSeek: DeepSeek V4 ProDeepSeek1.9615%[排名下降1位]340.583326%52476746%0.8002.937无显著风险
9Anthropic: Claude Opus 4.8Anthropic1.258%[排名上升1位]770.041129%61577834%2.47825.000无显著风险
10DeepSeek: DeepSeek V3.2DeepSeek1.15-2%[排名下降1位]270.05359%3235406%0.5101.076无显著风险

指标说明 :P/C = 输入 token 总量 ÷ 输出 token 总量;R/C = 推理 token 总量 ÷ 输出 token 总量;Top5 App 集中度 = 调用量前 5 应用的 token 之和 ÷ 该模型总 token;Programming % = 编程类调用量 ÷ 该模型总调用量。(均取最新一周 7 天数据)

风险判断 :P/C>200 为高输入风险,兼 programming%<25% 则疑似刷量;R/C>5 推理效率偏低,<0.001 则推理过程几乎不存在;Top5 集中度>70% 为头部应用集中风险;Intelligence/Coding/Agentic 偏弱分别影响模型竞争力和高编程场景可信度;免费模型需要关注后续价格变化和调用量 decay 风险。

本周关键模型分析:

DeepSeek V4 Flash:#1 -> #1(变化 0 位)| WoW 20% |

  • 模型质量数据:| P/C=22 | R/C=0.5306 | Top5 App 集中度=29% | Intelligence=47 | Coding=39 | Agentic=61 | Input Price=0.085 | Output Price=0.257
  • 本周变化分析:作为榜单常青树,V4 Flash 本周再增 20% 稳居榜首,其核心竞争力在于极致的性价比——0.085/0.257 美元的输入输出定价位列前十最低梯队,配合 47/39/61 的中规中矩性能,恰好覆盖了海量低成本通用调用需求。定价历史显示其单价在周期内仍小幅缓降(输出价由约 0.28 降至 0.257),低价策略持续巩固;流量较为分散(top5 集中度仅 29%)也说明需求来自广泛真实应用而非个别刷量。短期需关注的是上方 MiniMax M3、腾讯 Hy3 等低价新锐贴身紧逼,榜首领先优势已被显著压缩。

MiniMax M3:#3 -> #2(变化 1 位)| WoW 73% |

  • 模型质量数据:| P/C=80 | R/C=0.5194 | Top5 App 集中度=37% | Intelligence=55 | Coding=43 | Agentic=69 | Input Price=0.135 | Output Price=1.783
  • 本周变化分析:M3 本周暴增 73%、跃居次席,是榜单最大赢家,核心驱动来自其 6 月 1 日的正式发布带来的明显 launch spike 效应。该模型主打 MSA 稀疏注意力、百万级上下文与原生多模态,官方称 SWE-Bench Pro 达 59% 并对标 GPT-5.5、Gemini 3.1 Pro,55/43/69 的性能在前十中名列前茅,58% 的高编程占比印证其被大量用于 Agentic 编程场景。定价方面输入 0.135 美元极具吸引力,但输出价在发布后剧烈波动(1.25→2.24→1.78 美元),显示供给侧仍在调整。短期需关注其发布热度退潮后的留存能力,以及输出价格走向对调用量的影响。

Tencent Hy3 preview:#2 -> #3(变化 1 位)| WoW 41% |

  • 模型质量数据:| P/C=59 | R/C=0.3738 | Top5 App 集中度=0% | Intelligence=42 | Coding=36 | Agentic=56 | Input Price=0.032 | Output Price=0.235
  • 本周变化分析:Hy3 本周虽再增 41%,但因 MiniMax M3 的爆发式增长被动让出次席、退居第三。该模型为腾讯 4 月开源的 295B/21B MoE 架构,定价为前十最低之一(输入 0.032、输出 0.235 美元),且历史价格高度稳定,凭借极致低价持续吸引价格敏感型需求;top5 集中度为 0% 表明其流量极度分散于长尾应用,健康度良好。其 42/36/56 的性能偏中下游,主要靠成本优势而非能力取胜。短期看,它与 V4 Flash、MiMo-V2.5 同处低价开源阵营,相互替代与挤压效应明显,排名波动更多取决于同价位竞品的节奏而非自身基本面。

Xiaomi MiMo-V2.5:#4 -> #4(变化 0 位)| WoW 64% |

  • 模型质量数据:| P/C=96 | R/C=0.3344 | Top5 App 集中度=9% | Intelligence=54 | Coding=46 | Agentic=67 | Input Price=0.013 | Output Price=0.279
  • 本周变化分析:MiMo-V2.5 本周增长 64% 且稳守第四,是低价开源阵营中性能最均衡的一员——54/46/67 的性能仅次于 M3,却以 0.013 美元的输入价成为前十最便宜的输入定价,性价比极为突出。该模型为小米 4 月发布的 310B/15B MoE 多模态模型,主打百万上下文与 token 效率;价格历史显示其输出价长期稳定在约 0.279 美元,5 月底曾一次大幅下调后维持低位,低价策略稳固。top5 集中度仅 9%,流量健康分散。短期值得关注其与 M3、Hy3 在编程与 Agentic 场景的正面竞争,以及能否凭借更优输入定价进一步上攻。

Claude Opus 4.7:#8 -> #6(变化 2 位)| WoW 62% |

  • 模型质量数据:| P/C=96 | R/C=0.0418 | Top5 App 集中度=4% | Intelligence=57 | Coding=53 | Agentic=71 | Input Price=2.802 | Output Price=25.000
  • 本周变化分析:Opus 4.7 本周大涨 62%、上升两位至第六,是高端闭源阵营中的突出亮点。其 57/53/71 的性能,尤其是 Coding 53、Agentic 71,在前十中处于第一梯队;定价历史显示输出价稳定锁定在 25 美元、输入价在 2.1~2.9 美元区间波动,属典型高端定价。增长动力主要来自其作为前沿编程/智能体模型的口碑——发布时即以最难软件工程任务的能力提升著称,并新增 xhigh 推理档位,吸引了对质量高度敏感的专业开发者。top5 集中度仅 4%,需求来自广泛真实生产场景。短期需关注同厂更强的 Opus 4.8 是否会对其形成内部分流。

2.3厂商调用量榜单分析

来源:openrouter.ai

排名说明 · 厂商按 token 调用量 数据采集周期 · 本周 2026-06-08 → 2026-06-14,上周 2026-06-01 → 2026-06-07
排名厂商最近两周上榜模型数本周总量(T)总量 WoW关键观察内部模型变动简述
1DeepSeek37.7014%总量稳定增长内部模型阵容稳定
2Anthropic36.8029%总量稳定增长内部模型阵容稳定
3MiniMax14.6854%总量爆发增长内部模型阵容稳定
4Xiaomi14.1842%总量稳定增长内部模型阵容稳定
5Google04.162%总量稳定增长内部模型无变动
6Tencent14.1441%总量稳定增长内部模型阵容稳定
7OpenRouter12.4727%总量稳定增长内部模型阵容稳定
8OpenAI02.4611%总量稳定增长内部模型无变动
9NVIDIA01.2936%总量稳定增长内部模型无变动

本周关键厂商分析

DeepSeek:本周以 7.70T 总量稳居榜首、增长 14%,主要由榜单冠军 V4 Flash 驱动,并辅以 V4 Pro 与 V3.2 形成完整的高中低价位矩阵。三款模型同向稳健增长、内部阵容稳定无明显替代,凭借覆盖全价位段的产品组合,DeepSeek 在低价通用调用市场的领导地位依旧稳固。

Anthropic:本周总量 6.80T、增长 29%,稳居第二,增长核心来自 Opus 4.7 的强势上扬(+62%),Sonnet 4.6 与 Opus 4.8 同步贡献。旗下三款模型整体同向走强,反映高端闭源模型在专业编程与智能体场景的需求持续旺盛;Opus 4.7 与 4.8 之间存在一定潜在分流,但当前两者尚处共同上升通道。

MiniMax:本周总量爆发式增长 54% 至 4.68T、跃升至第三,几乎完全由新发布的 MiniMax M3 单一模型拉动。这是典型的新品发布驱动效应——M3 凭借多模态、长上下文与激进的输入定价迅速放量。后续需关注其单一模型依赖下,发布热度回落后的总量可持续性。

Xiaomi:本周总量增长 42% 至 4.18T、升至第四,由 MiMo-V2.5 单一模型驱动。该模型以前十最低输入定价和均衡性能赢得份额,体现小米在低价开源多模态赛道的强劲势头;与 MiniMax 类似,其厂商表现高度依赖单款主力模型。

Tencent:本周总量增长 41% 至 4.14T,主要由开源的 Hy3 preview 贡献。该厂商自身增速可观,但在 MiniMax、Xiaomi 同样高速增长的背景下排名相对承压,反映低价开源阵营内部竞争白热化,各家依靠极致定价相互争夺价格敏感型流量。

NVIDIA:本周新晋上榜、排名第九,总量增长 36% 至 1.29T,主要受益于 6 月初发布的开源 Nemotron 3 Ultra 550B 带来的新增流量。作为美系最强开源权重模型之一,其上榜显示开源 Agentic 模型阵营进一步扩容,但当前体量与第一梯队仍有明显差距。

2.4编程调用量榜单

来源:openrouter.ai

排名说明 · 编程任务 token 累计 · 本周 vs 上周 Top 9 数据采集周期 · 本周 2026-06-08 → 2026-06-14,上周 2026-06-01 → 2026-06-07
本周排名本周模型所属公司本周总量(B)变化定性上周排名上周模型所属公司上周总量(B)
1mimo-v2.5Xiaomi4170持平1mimo-v2.5Xiaomi2307
2MiniMax-m3MiniMax2497持平2MiniMax-m3MiniMax1559
3hy3-previewTencent1832上升2位3DeepSeek-v4-flashDeepSeek885
4claude-4.7-opusAnthropic1057上升3位4DeepSeek-v4-proDeepSeek785
5nemotron-3-ultra-550b-a55b:freeNVIDIA981新上榜5hy3-previewTencent772
6DeepSeek-v4-flashDeepSeek908下降3位6step-3.7-flashStepfun543
7DeepSeek-v4-proDeepSeek902下降3位7claude-4.7-opusAnthropic530
8owl-alphaOpenRouter555新上榜8mimo-v2.5-proXiaomi467
9step-3.7-flashStepfun499下降3位9claude-4.8-opusAnthropic422

本周榜单主要变化

  • nemotron-3-ultra 与 owl-alpha 两款模型新上榜,挤出了上周的 mimo-v2.5-pro 与 claude-4.8-opus,编程榜单迎来新鲜面孔。
  • claude-4.7-opus 大幅上升 3 位至第四,而 DeepSeek 双模型与 step-3.7-flash 同步下滑 3 位,编程场景份额向高端与新锐模型迁移。

可能原因

  • nemotron-3-ultra 于 6 月 4 日由 NVIDIA 开源发布,主打长程 Agentic 编程并提供 free 版本,新品发布与免费策略共同驱动其快速冲入编程榜单。
  • claude-4.7-opus 因在最难软件工程任务上的能力口碑发酵,叠加 Anthropic 高端编程需求整体走强,推动其编程调用量近乎翻倍、排名跃升。

2.5模型吞吐量榜单

来源:openrouter.ai

排名说明 · 吞吐量指标 · 本周 vs 上周 Top 9 数据采集周期 · 本周 2026-06-08 → 2026-06-14,上周 2026-06-01 → 2026-06-07
本周排名本周模型所属公司本周吞吐速度(toks/s)变化定性上周排名上周模型所属公司上周吞吐速度(toks/s)
1Morph: Morph V3 LargeMorph2754新上榜1gpt-oss-120bOpenAI712
2Morph: Morph V3 FastMorph2235新上榜2gpt-oss-safeguard-20bOpenAI526
3Relace: Relace Apply 3Relace964新上榜3Mercury 2Inception426
4OpenAI: gpt-oss-safeguard-20bOpenAI586下降2位4Qwen3 32BQwen404
5Z.ai: GLM 4.7Z-ai468新上榜5gpt-oss-20bOpenAI363
6xAI: Grok 4.20 Multi-AgentxAI451新上榜6GLM 4.7Z-ai302
7Inception: Mercury 2Inception398新上榜7MiniMax M2.5MiniMax237
8Meta: Llama 3.1 8B InstructMeta286新上榜8MiniMax M2.7MiniMax196
9Qwen: Qwen3 Next 80B A3B ThinkingQwen213新上榜9o3 MiniOpenAI177

本周榜单主要变化

  • Morph 系列包揽前二,Morph V3 Large 以 2754 toks/s 新上榜登顶、V3 Fast 以 2235 toks/s 紧随其后,作为专用代码 apply 模型其吞吐速度远超榜单其余模型,刷新榜首水平。
  • 榜单出现大面积换血,Relace Apply 3、GLM 4.7、Grok 4.20 Multi-Agent 等多款模型新上榜,上周冠军 gpt-oss-120b 直接跌出榜单。
其他模型性能榜单

1Text Arena

来源:lmarena.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1claude-fable-5Anthropic1510持平1claude-fable-5Anthropic1510
2claude-opus-4-6-thinkingAnthropic1504持平2claude-opus-4-6-thinkingAnthropic1504
3claude-opus-4-7-thinkingAnthropic1502持平3claude-opus-4-7-thinkingAnthropic1502
4claude-opus-4-6Anthropic1498持平4claude-opus-4-6Anthropic1498
5claude-opus-4-7Anthropic1492持平5claude-opus-4-7Anthropic1492
6muse-sparkMeta1487持平6muse-sparkMeta1487
7gemini-3.1-pro-previewGoogle1487持平7gemini-3.1-pro-previewGoogle1487
8gemini-3-proGoogle1486持平8gemini-3-proGoogle1486
9claude-opus-4-8-thinkingAnthropic1486持平9claude-opus-4-8-thinkingAnthropic1486
10gpt-5.5-highOpenAI1481持平10gpt-5.5-highOpenAI1481

本周榜单主要变化

  • 无重大变化

2Code Arena

来源:arena.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1claude-fable-5Anthropic1665持平1claude-fable-5Anthropic1665
2claude-opus-4-7-thinkingAnthropic1566持平2claude-opus-4-7-thinkingAnthropic1566
3claude-opus-4-8-thinkingAnthropic1559持平3claude-opus-4-8-thinkingAnthropic1559
4claude-opus-4-7Anthropic1557持平4claude-opus-4-7Anthropic1557
5claude-opus-4-8Anthropic1543持平5claude-opus-4-8Anthropic1543
6claude-opus-4-6-thinkingAnthropic1542持平6claude-opus-4-6-thinkingAnthropic1542
7claude-opus-4-6Anthropic1539持平7claude-opus-4-6Anthropic1539
8qwen3.7-maxAlibaba1534持平8qwen3.7-maxAlibaba1534
9glm-5.1Z.ai1532持平9glm-5.1Z.ai1532
10claude-sonnet-4-6Anthropic1523持平10claude-sonnet-4-6Anthropic1523

本周榜单主要变化

  • 无重大变化

3Agent Arena

来源:lmarena.ai

数据周期 · 2026-06-15

本周仅获取到单天快照,无法生成周环比对比表格。以下为本周 Agent Arena 榜单 Top10:

排名模型所属公司Net Improvement总会话数
1Claude Fable 5 (High)Anthropic13.6816,259
2GPT 5.5 (xHigh)OpenAI11.038,579
3Claude Opus 4.8 (Thinking)Anthropic9.0525,890
4Claude Opus 4.7 (Thinking)Anthropic8.4528,650
5GPT 5.5 (High)OpenAI7.834,969
6Claude Opus 4.7Anthropic7.6828,727
7Claude Opus 4.6Anthropic7.6528,738
8GPT 5.4 (High)OpenAI6.835,144
9GPT 5.5OpenAI6.5735,323
10Claude Opus 4.8Anthropic4.5623,376

本周榜单主要变化

  • 仅获取到单日数据,暂无法判断周度变化趋势。

4LiveCodeBench

来源:livecodebench.github.io

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2持平2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3持平4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4持平5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5持平8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6

本周榜单主要变化

  • 无重大变化

5SWE-bench

来源:swebench.com

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1Claude 4.5 Opus (high reasoning)Anthropic76.8%持平1Claude 4.5 Opus (high reasoning)Anthropic76.8%
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)Zhipu AI72.8%持平6GLM-5 (high reasoning)Zhipu AI72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot AI70.8%持平10Kimi K2.5 (high reasoning)Moonshot AI70.8%

本周榜单主要变化

  • 无重大变化

6Image Edit Arena

来源:lmarena.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1gpt-image-2 (medium)OpenAI1465持平1gpt-image-2 (medium)OpenAI1465
2mai-image-2.5Microsoft1401持平2mai-image-2.5Microsoft1401
3chatgpt-image-latest-high-fidelityOpenAI1390持平3chatgpt-image-latest-high-fidelityOpenAI1390
4grok-imagine-image-qualityxAI1388持平4grok-imagine-image-qualityxAI1388
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388
6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387持平6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
7gemini-3-pro-image-preview (nano-banana-pro)Google1385持平7gemini-3-pro-image-preview (nano-banana-pro)Google1385
8gpt-image-1.5-high-fidelityOpenAI1373持平8gpt-image-1.5-high-fidelityOpenAI1373
9reve-2.0Reve1356持平9reve-2.0Reve1356
10grok-imagine-image-qualityxAI1355持平10grok-imagine-image-qualityxAI1355

本周榜单主要变化

  • 无重大变化

7Text-to-Image Arena

来源:lmarena.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1gpt-image-2 (medium)OpenAI1385持平1gpt-image-2 (medium)OpenAI1385
2reve-2.0Reve1273持平2reve-2.0Reve1273
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269持平3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269
4mai-image-2.5Microsoft1253持平4mai-image-2.5Microsoft1253
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245
6gpt-image-1.5-high-fidelityOpenAI1241持平6gpt-image-1.5-high-fidelityOpenAI1241
7grok-imagine-image-qualityxAI1234持平7grok-imagine-image-qualityxAI1234
8gemini-3-pro-image-preview (nano-banana-pro)Google1232持平8gemini-3-pro-image-preview (nano-banana-pro)Google1232
9ideogram-4.0-qualityIdeogram1204持平9ideogram-4.0-qualityIdeogram1204
10uni-1.1-maxLuma1191持平10uni-1.1-maxLuma1191

本周榜单主要变化

  • 无重大变化

8AA Image Editing

来源:artificialanalysis.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1GPT Image 1.5 (high)OpenAI1263持平1GPT Image 1.5 (high)OpenAI1264
2GPT Image 2 (high)OpenAI1259持平2GPT Image 2 (high)OpenAI1259
3Nano Banana Pro (Gemini 3 Pro Image)Google1250持平3Nano Banana Pro (Gemini 3 Pro Image)Google1251
4MAI-Image-2.5 (Foundry)Microsoft1248新上榜4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1246
5Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1246下降1位5grok-imagine-image-qualityxAI1237
6grok-imagine-image-qualityxAI1236下降1位6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1230
7HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1230下降1位7Luma UNI 1 MaxLuma1222
8Luma UNI 1 MaxLuma1222下降1位8grok-imagine-imagexAI1220
9Kling Image 3.0 OmniKlingAI1221持平9Kling Image 3.0 OmniKlingAI1219
10grok-imagine-imagexAI1219下降2位10FLUX.2 [max]Black Forest Labs1214

本周榜单主要变化

  • MAI-Image-2.5 (Foundry) 以 1248 分新上榜位列第 4,将其后多款模型整体下挤一位。
  • 原榜尾的 FLUX.2 [max] 跌出前十,grok-imagine-image 顺位降至第 10。

9AA Text-to-Image

来源:artificialanalysis.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1GPT Image 2 (high)OpenAI1339持平1GPT Image 2 (high)OpenAI1339
2GPT Image 1.5 (high)OpenAI1267持平2GPT Image 1.5 (high)OpenAI1266
3HiDream-O1-Image-1.5HiDream1264持平3HiDream-O1-Image-1.5HiDream1264
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1257持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1258
5Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1235持平5Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1236
6Nano Banana Pro (Gemini 3 Pro Image)Google1219持平6Nano Banana Pro (Gemini 3 Pro Image)Google1219
7MAI-Image-2.5-Flash (Foundry)Microsoft1218新上榜7Krea 2 MediumKrea1209
8Krea 2 MediumKrea1209下降1位8grok-imagine-image-qualityxAI1204
9grok-imagine-image-qualityxAI1204下降1位9Recraft V4.1 Utility ProRecraft1204
10Recraft V4.1 Utility ProRecraft1203下降1位10Recraft V4.1 UtilityRecraft1197

本周榜单主要变化

  • MAI-Image-2.5-Flash (Foundry) 以 1218 分新上榜位列第 7,将其后模型整体下挤一位。
  • 原榜尾的 Recraft V4.1 Utility 跌出前十。

10前沿数学 (FrontierMath)

来源:epoch.ai

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1GPT-5.5 ProOpenAI52.4%持平1GPT-5.5 ProOpenAI52.4%
2GPT-5.5OpenAI51.7%持平2GPT-5.5OpenAI51.7%
3GPT-5.4 ProOpenAI50.0%持平3GPT-5.4 ProOpenAI50.0%
4GPT-5.4OpenAI47.6%持平4GPT-5.4OpenAI47.6%
5Claude Opus 4.8Anthropic47.2%持平5Claude Opus 4.8Anthropic47.2%
6Claude Opus 4.7Anthropic43.8%持平6Claude Opus 4.7Anthropic43.8%
7Claude Opus 4.6Anthropic40.7%持平7Claude Opus 4.6Anthropic40.7%
8GPT-5.2OpenAI40.7%持平8GPT-5.2OpenAI40.7%
9Muse SparkMeta39.0%持平9Muse SparkMeta39.0%
10Gemini 3.5 FlashGoogle39.0%持平10Gemini 3.5 FlashGoogle39.0%

本周榜单主要变化

  • 无重大变化

11HLE

来源:scale.com

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1gemini-3.1-pro-preview (thinking high)Google46.4持平1gemini-3.1-pro-preview (thinking high)Google46.4
2gpt-5.4-pro-2026-03-05OpenAI44.3持平2gpt-5.4-pro-2026-03-05OpenAI44.3
3Muse SparkiFlytek40.6持平3Muse SparkiFlytek40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2持平5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-pro-2025-10-06OpenAI31.6持平8gpt-5-pro-2025-10-06OpenAI31.6
9gpt-5.2-2025-12-11OpenAI27.8持平9gpt-5.2-2025-12-11OpenAI27.8
10gpt-5-2025-08-07OpenAI25.3持平10gpt-5-2025-08-07OpenAI25.3

本周榜单主要变化

  • 无重大变化

12Agent (GAIA)

来源:huggingface.co

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1Co-Sight Pro v1.0.1ZTE-AICloud93.0持平1Co-Sight Pro v1.0.1ZTE-AICloud93.0
2OPS-Agentic-SearchAlibaba Cloud92.4持平2OPS-Agentic-SearchAlibaba Cloud92.4
3CustomGPT.ai Research Lab v41CustomGPT.ai92.0持平3CustomGPT.ai Research Lab v41CustomGPT.ai92.0
4Co-Sight Pro v1.0.0ZTE-AICloud92.0持平4Co-Sight Pro v1.0.0ZTE-AICloud92.0
5CustomGPT.ai Research Lab v43CustomGPT.ai92.0持平5CustomGPT.ai Research Lab v43CustomGPT.ai92.0
6AuraAiAI92.0持平6AuraAiAI92.0
7CustomGPT.ai Research Lab V42CustomGPT.ai92.0持平7CustomGPT.ai Research Lab V42CustomGPT.ai92.0
8openJiuwen-deepagentopenJiuwen91.7持平8openJiuwen-deepagentopenJiuwen91.7
9CustomGPT.ai Research Lab v39CustomGPT.ai91.7持平9CustomGPT.ai Research Lab v39CustomGPT.ai91.7
10CustomGPT.ai Research Lab v35CustomGPT.ai91.4持平10CustomGPT.ai Research Lab v35CustomGPT.ai91.4

本周榜单主要变化

  • 无重大变化

13GPQA

来源:llm-stats.com

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6持平4Claude Opus 4.8Anthropic93.6
5GPT-5.5OpenAI93.6持平5GPT-5.5OpenAI93.6
6GPT-5.2 ProOpenAI93.2持平6GPT-5.2 ProOpenAI93.2
7GPT-5.4OpenAI92.8持平7GPT-5.4OpenAI92.8
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4持平8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4
9GPT-5.2OpenAI92.4持平9GPT-5.2OpenAI92.4
10Gemini 3 ProGoogle91.9持平10Gemini 3 ProGoogle91.9

本周榜单主要变化

  • 无重大变化

14国内 - 大语言模型 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1GPT-5.4-2026-03-05 (high)OpenAI67.3持平1GPT-5.4-2026-03-05 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4
10GLM-5.1Zhipu AI59.0持平10GLM-5.1Zhipu AI59.0

本周榜单主要变化

  • 无重大变化

15国内 - 多模态 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1Qwen3.7-PlusAlibaba73.0持平1Qwen3.7-PlusAlibaba73.0
2Gemini-3.1-Pro-PreviewGoogle72.6持平2Gemini-3.1-Pro-PreviewGoogle72.6
3Qwen3.5-397B-A17BAlibaba72.3持平3Qwen3.5-397B-A17BAlibaba72.3
4GPT-5.5 (high)OpenAI71.1持平4GPT-5.5 (high)OpenAI71.1
5Kimi-K2.6Moonshot AI70.6持平5Kimi-K2.6Moonshot AI70.6
6Doubao-Seed-2.0-Pro (high)ByteDance69.4持平6Doubao-Seed-2.0-Pro (high)ByteDance69.4
7SenseNova-6-7-Flash-AlphaSenseTime69.0持平7SenseNova-6-7-Flash-AlphaSenseTime69.0
8GLM-5V-TurboZhipu AI62.8持平8GLM-5V-TurboZhipu AI62.8
9Step-3.7-Flash (high)StepFun61.5持平9Step-3.7-Flash (high)StepFun61.5
10Gemma-4-31B-itGoogle56.3持平10Gemma-4-31B-itGoogle56.3

本周榜单主要变化

  • 无重大变化

16国内 - 医疗 (MedBench)

来源:medbench.opencompass.org.cn

数据周期 · 2026-06-12 → 2026-06-15

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周指标变化定性上周排名上周模型所属公司上周指标
1京医千询京东健康72.6持平1京医千询京东健康72.6
2卓睦鸟医疗大模型广州中康数字科技有限公司72.1持平2卓睦鸟医疗大模型广州中康数字科技有限公司72.1
3千问健康大模型千问C端71.2持平3千问健康大模型千问C端71.2
4华为云健康管理大模型Huawei71.0持平4华为云健康管理大模型Huawei71.0
5WiseDiag v2杭州智诊科技有限公司69.8持平5WiseDiag v2杭州智诊科技有限公司69.8
6微医医疗大模型微医68.2持平6微医医疗大模型微医68.2
7AntAngelMedMedAIBase68.0持平7AntAngelMedMedAIBase68.0
8UniGPT-Med-U1云知声智能科技股份有限公司65.7持平8UniGPT-Med-U1云知声智能科技股份有限公司65.7
9惠每医疗大模型上海新创惠每科技有限公司60.0持平9惠每医疗大模型上海新创惠每科技有限公司60.0
10Grok-4xAI58.4持平10Grok-4xAI58.4

本周榜单主要变化

  • 无重大变化
AGENT-NATIVE DATABASE

Agent 原生数据库

01 · 这是什么

TL;DR · pandadataskill.md

本站底层是一个面向 AI Agent 开放的实时榜单数据库,涵盖两类数据:OpenRouter 的周度模型调用量、厂商份额与细分统计数据(编程 / 工具调用 / 图像 / 音频),以及与周报同源的 15 张外部基准榜单的多期快照(LMArena 文本 / 代码 / 图像编辑 / 文生图、Artificial Analysis、SWE-bench、LiveCodeBench、GPQA、HLE、FrontierMath、GAIA、OpenCompass、MedBench)。全部以只读 SQL + MCP 的形式开放,任何支持 MCP 的 Agent 都能直接查询。下面的两张演示图,就是用这个库画出来的。

数据库每天 08:00(北京时间)自动更新一次;但各数据源有自己的发布节奏,因此各表可用数据的新鲜度以数据源自身的更新时间为准。

如果不想往下读的话,直接甩给你的 agents:

⬇  下载 pandadataskill.md

02 · 用同一个库,你可以——

两个演示 · 数据均来自本库
演示 A · 还原

Top Models 周度调用量

你可以还原一个 OpenRouter 上的视图。

演示 B · 跨库自创

基准排名 × 真实使用量

你也可以把能力榜单表OpenRouter 调用量表跨库 JOIN——横轴 = 基准得分,纵轴 = 近 30 天调用量(对数)。跑分高的模型,真的有人用吗?

💡 同一个库,你还可以画——

model_activity 算推理 token ÷ 回答 token,看哪些模型真的在"思考"(有的推理量是答案的 3 倍,有的几乎为零);用输入:输出比例给负载画像——50:1 是文档抽取型,5:1 更像对话;用 rankings_market_share 画 52 周中外厂商份额拉锯;用 model_apps_daily 看一个模型的流量是被少数大应用"承包"还是长尾开发者撑起;或用 models 按发布时间画上下文军备竞赛——1M+ token 的模型已超过 70 个。

03 · 让你的 Agent 直接访问数据库(MCP)

Agent-native · Model Context Protocol

本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对自动刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。

两个库均每天 08:00(北京时间)自动刷新:OpenRouter 调用量库(周榜 / 厂商份额 / 编程榜 + 每日 token 量 + 每个模型的供应商、定价、吞吐与延迟、可用率、Top 应用),以及能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准)。完整表结构随时调用 openrouter_schema() / leaderboards_schema() 获取。

① 一行接入(Claude Code)

claude mcp add --transport http panda https://pandaleaderboard.com/mcp/

② 或写入 MCP 配置(Claude Desktop / Cursor)

{
  "mcpServers": {
    "panda": { "url": "https://pandaleaderboard.com/mcp/" }
  }
}

③ 可用工具

  • query_openrouter(sql) — 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。
  • openrouter_schema() — 列出所有表与字段(先调用它了解结构)。
  • openrouter_freshness() — 查看最新数据周与各表行数。
  • query_leaderboards(sql) — 对能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准表的多期快照)执行只读 SQL。上面的「演示 B」就是这个库和调用量库跨库 JOIN 画出来的。
  • leaderboards_schema() — 列出能力榜单库的表与字段。
  • leaderboards_freshness() — 查看各基准表的最新快照日期。
  • report_top_models() / report_market_share() — 复现本站「周报」页所用的近 7 天滚动口径(与官方 Mon–Sun 完整周不同)。

④ 示例:让 Agent 查询本周调用量榜首

SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;

完整字段、新鲜度语义与更多 SQL 配方见 pandadataskill.md(即上方可下载的手册)。接口开放、无需鉴权;所有工具调用(工具名 + SQL + 调用方)会被记录用于使用分析。

04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。