Panda Leaderboard · 大模型榜单中心

报告数据周期:本周 2026-06-11 → 2026-06-17,上周 2026-06-04 → 2026-06-10

榜单变化总览

1.1本周榜单变化总览

榜单名称本周主要变动模型
LMArena 文本竞技场无重大变化
LMArena 代码竞技场glm-5.2 (max) 新上榜第 2,claude-sonnet-4-6 跌出前十
LMArena 图像编辑竞技场无重大变化
LMArena 文生图竞技场无重大变化
LMArena Agent ArenaGLM 5.2 (Max) 新上榜,Claude/GPT 多款模型小幅调整
Artificial Analysis 图像编辑MAI-Image-2.5 (Foundry)、MAI-Image-2.5-Flash (Foundry) 新上榜
Artificial Analysis 文生图MAI-Image-2.5-Flash/Foundry 新上榜
GPQA无重大变化
MedBenchU2-Med 新上榜登顶,ME-base 新上榜
OpenCompass LLM无重大变化
OpenCompass 多模态无重大变化
LiveCodeBench GSO无重大变化
HuggingFace GAIA无重大变化
Scale HLE无重大变化
Epoch FrontierMath无重大变化
SWE-bench无重大变化
OpenRouter 模型调用量榜单MiniMax M3 升至榜首,Claude Opus 4.7 上升 3 位
OpenRouter 厂商调用量榜单Z-ai 新上榜第 9,NVIDIA 跌出前九
OpenRouter 编程调用量榜单Nemotron、Owl Alpha 新上榜,Claude 4.7 Opus 升 3 位
OpenRouter 模型吞吐量榜单OpenAI gpt-oss-120b 登顶,GLM 4.7 升 2 位,NVIDIA 新上榜

1.2本周大模型行业重要动态

时间窗口 · 2026-06-11 至 2026-06-17总追踪厂商 · 20 家确认入池并保留的核心技术进展 · 5 条(来自 5 家公司)

Alibaba

  • 2026-06-17 阿里正式上线交互式开放式世界模型 HappyOyster 1.0,用户可通过一句话或一张图生成可实时交互、持续演化的三维数字世界,支持世界探索与实时导演两种模式。(来源:ithome.com

ByteDance

  • 2026-06-16 字节跳动通过火山引擎上线 Seedance 2.0 mini 视频生成模型,720P 单秒生成成本约 0.5 元,较 Seedance 2.0 降低约 50%,生成速度为 Fast 版两倍,面向电商与营销等规模化场景。(来源:ithome.com

DeepSeek

  • 2026-06-18 DeepSeek 网页版识图模式全量上线,App 端同步内测,与快速/专家模式并列,支持图片理解与推理。(来源:mp.weixin.qq.com

xAI

  • 2026-06-17 xAI 正式上线 Grok Imagine Video 1.5,结束预览并在 xAI API 全面可用,支持静态图生成带同步音频的 720p 短视频,6 秒视频 Fast 模式仅需约 25 秒,提升音画同步与运动真实感。(来源:x.ai

Z.ai

  • 2026-06-17 智谱正式上线并开源旗舰模型 GLM-5.2,采用 MIT 协议,支持工程可用的 1M 上下文,在 FrontierSWE、Terminal-Bench 等代码基准上接近 Claude Opus 4.8,权重已上架 Hugging Face 与 ModelScope。(来源:github.com
OpenRouter 分析

2.1本周 OpenRouter 重点关注

  • 本周重点关注1|MiniMax M3 超越 DeepSeek V4 Flash 登顶,开源阵营竞争从纯低价转向性能定价平衡:M3 本周以 37% 增速升至模型调用量榜首位,是其 6 月 1 日发布以来 launch spike 的延续,也是前十中唯一在性能、多模态与长上下文上同时接近闭源旗舰的中国开源模型。这标志着低价开源赛道不再只看价格,综合能力开始成为流量分化的关键变量。
  • 本周重点关注2|Claude Opus 4.7 强势反弹,高端闭源阵营内部出现结构性再平衡:Opus 4.7 本周调用量大涨 67%、排名上升 3 位至第五,而更新旗舰 Opus 4.8 仅增 3%、Sonnet 4.6 下滑 12%。这表明在专业编程与 Agentic 场景,开发者并未单向迁移至最新旗舰,而是根据价格与任务匹配度在 Anthropic 内部重新选择。
  • 本周重点关注3|编程榜单新势力入场,NVIDIA Nemotron 3 Ultra 与 OpenRouter Owl Alpha 双双新上榜:Nemotron 3 Ultra 凭借免费开源与长程 Agentic 编程定位冲入编程榜第五,Owl Alpha 则以零成本进入第八,进一步加剧编程场景的价格竞争。DeepSeek V4 双模型同步下滑 3 位,显示编程份额正向高端闭源与免费新锐两端迁移。

2.2模型调用量榜单分析

来源:openrouter.ai

排名说明 · 平台 token 调用量本周 Top 10数据采集周期 · 本周 2026-06-11 → 2026-06-17,上周 2026-06-04 → 2026-06-10
排名模型厂商Tokens(T)WoW排名变化P/CR/Ctop5 App 集中度IntelligenceCodingAgenticProgramming %input price(USD)output price(USD)健康度风险提示
1MiniMax: MiniMax M3MiniMax4.6337%上升2位700.506435%44436958%0.2671.535无显著风险
2DeepSeek: DeepSeek V4 FlashDeepSeek4.534%下降1位240.508326%40396121%0.0960.261无显著风险
3Tencent: Hy3 previewTencent3.71-2%下降1位980.61870%34365644%0.0540.430无显著风险
4Xiaomi: MiMo-V2.5Xiaomi3.7129%持平1030.39089%424667N/A0.0760.279无显著风险
5Anthropic: Claude Opus 4.7Anthropic2.8667%上升3位1020.04523%54537145%2.18425.000无显著风险
6Owl AlphaOpenRouter2.4522%上升1位1230.000079%N/AN/AN/A22%0.0000.000头部应用集中风险,top5 集中度=79%
7DeepSeek: DeepSeek V4 ProDeepSeek2.196%下降2位330.617921%44476746%0.8692.868无显著风险
8Anthropic: Claude Sonnet 4.6Anthropic1.79-12%下降2位670.066443%36466226%1.52515.000无显著风险
9Anthropic: Claude Opus 4.8Anthropic1.363%持平830.063132%56577834%1.72325.000无显著风险
10DeepSeek: DeepSeek V3.2DeepSeek1.12-5%持平290.03029%2535406%0.5321.131无显著风险

指标说明 :P/C = 输入 token 总量 ÷ 输出 token 总量;R/C = 推理 token 总量 ÷ 输出 token 总量;Top5 App 集中度 = 调用量前 5 应用的 token 之和 ÷ 该模型总 token;Programming % = 编程类调用量 ÷ 该模型总调用量。(均取最新一周 7 天数据)

本周关键模型分析:

[MiniMax M3]:- #3 -> #1(变化 2 位)| WoW 37% |

  • 模型质量数据:| P/C=70 | R/C=0.5064 | top5 App 集中度=35% | Intelligence=44 | Coding=43 | Agentic=69 | Input Price=0.267 | Output Price=1.535
  • 本周变化分析:M3 本周以 37% 增速登顶,是其 6 月 1 日发布以来 launch spike 效应的持续释放。该模型凭借 MSA 稀疏注意力、1M 上下文与原生多模态定位,在 Agentic(69)和 Coding(43)场景获得开发者认可,定价虽高于 DeepSeek 等低价模型,但显著低于 Anthropic 旗舰,性价比突出。top5 集中度 35% 显示需求仍有一定头部依赖,后续需观察发布热度退潮后能否守住榜首位置。

[DeepSeek V4 Flash]:- #1 -> #2(变化 1 位)| WoW 4% |

  • 模型质量数据:| P/C=24 | R/C=0.5083 | top5 App 集中度=26% | Intelligence=40 | Coding=39 | Agentic=61 | Input Price=0.096 | Output Price=0.261
  • 本周变化分析:V4 Flash 本周虽仍增长 4%,但被增速更快的 M3 反超,退居次席。其核心护城河依然是极致性价比——输入价 0.096、输出价 0.261 处于全榜最低梯队,配合 40/39/61 的中游性能和 26% 的分散流量,仍是海量低成本通用调用的首选。当前压力主要来自上方 M3 的性能压制与下方 Hy3、MiMo 的价格挤压,短期需关注 DeepSeek 是否会通过降价巩固份额。

[Claude Opus 4.7]:- #8 -> #5(变化 3 位)| WoW 67% |

  • 模型质量数据:| P/C=102 | R/C=0.0452 | top5 App 集中度=3% | Intelligence=54 | Coding=53 | Agentic=71 | Input Price=2.184 | Output Price=25.000
  • 本周变化分析:Opus 4.7 本周大涨 67%、跃升 3 位至第五,是高端闭源阵营中的突出亮点。其 Coding 53 与 Agentic 71 仅次于 Opus 4.8,凭借在软件工程与长程 Agentic 任务上更成熟的口碑与工具链适配,重新吸引高质量专业开发者;top5 集中度仅 3%,需求来源极为分散健康。本次反弹显示开发者并未单向涌向最新旗舰,而是根据具体任务稳定性与生态成熟度在 Anthropic 内部重新选择,后续需关注其与新旗舰 4.8 的差异化定位是否清晰。

2.3厂商调用量榜单分析

来源:openrouter.ai

排名说明 · 厂商按 token 调用量数据采集周期 · 本周 2026-06-11 → 2026-06-17,上周 2026-06-04 → 2026-06-10
排名厂商最近两周上榜模型数本周总量(T)总量 WoW关键观察内部模型变动简述
1DeepSeek38.013%稳定增长内部模型阵容稳定
2Anthropic36.9815%稳定增长内部模型阵容稳定
3MiniMax14.9228%稳定增长内部模型阵容稳定
4Xiaomi14.3225%稳定增长内部模型阵容稳定
5Google04.174%稳定增长内部模型无变动
6Tencent13.71-2%下滑内部模型阵容稳定
7OpenAI02.8427%稳定增长内部模型无变动
8OpenRouter12.4522%稳定增长内部模型阵容稳定
9Z.ai01.5976%爆发增长内部模型无变动

本周关键厂商分析

[DeepSeek]:本周以 8.01T 稳居榜首,增长 3%,由 V4 Flash(+4%)与 V4 Pro(+6%)小幅放量共同支撑,V3.2 仅小幅回落 5%。三款模型同时在线且同向稳健,无显著内部替代迹象,显示其低价到中端的产品矩阵仍具统治力。但 M3 登顶模型榜意味着 DeepSeek 正面临来自高性能开源模型的直接挑战,短期需关注其是否会通过降价或推新守住领先优势。

[Anthropic]:本周总量 6.98T、增长 15%,稳居第二。增长几乎完全由 Opus 4.7 反弹 67% 拉动,而 Sonnet 4.6 下滑 12%、Opus 4.8 仅增 3%,显示内部需求正从 Sonnet 向 Opus 4.7 迁移,新旗舰 4.8 尚未出现放量。高端闭源阵营整体回暖,但 Anthropic 内部的产品梯度仍在再平衡,后续需观察 4.7 反弹的可持续性及其与 4.8 的协同关系。

[Z.ai]:本周以 1.59T 爆发增长 76%、排名上升 2 位至第九,但当前无模型进入前十,增量主要来自榜单外模型的整体放量。这种高速增长往往伴随单点场景或渠道突破,但由于缺乏头部模型支撑,其可持续性存疑。后续可关注 Z.ai 是否有新模型进入前十,以及增长是否来自 GLM 系列在特定行业的集中落地。

2.4编程调用量榜单

来源:openrouter.ai

排名说明 · 编程任务 token 累计 · 本周 vs 上周 Top 9数据采集周期 · 本周 2026-06-11 → 2026-06-17,上周 2026-06-04 → 2026-06-10
本周排名本周模型所属公司本周总量(B)排名变化上周排名上周模型所属公司上周总量(B)
1mimo-v2.5Xiaomi4170持平1mimo-v2.5Xiaomi2307
2MiniMax-m3MiniMax2497持平2MiniMax-m3MiniMax1559
3hy3-previewTencent1832上升2位3DeepSeek-v4-flashDeepSeek885
4claude-4.7-opusAnthropic1057上升3位4DeepSeek-v4-proDeepSeek785
5nemotron-3-ultra-550b-a55b:freeNVIDIA981新上榜5hy3-previewTencent772
6DeepSeek-v4-flashDeepSeek908下降3位6step-3.7-flashStepFun543
7DeepSeek-v4-proDeepSeek902下降3位7claude-4.7-opusAnthropic530
8owl-alphaOpenRouter555新上榜8mimo-v2.5-proXiaomi467
9step-3.7-flashStepFun499下降3位9claude-4.8-opusAnthropic422

本周榜单主要变化

  • NVIDIA Nemotron 3 Ultra 免费版新上榜即位列第五,OpenRouter Owl Alpha 新上榜位列第八,编程榜迎来两位免费新势力。
  • Claude Opus 4.7 上升 3 位至第四,Hy3-preview 上升 2 位至第三,而 DeepSeek V4 Flash、V4 Pro 与 Step 3.7 Flash 同步下滑 3 位。

可能原因

  • Nemotron 3 Ultra 于 6 月初由 NVIDIA 开源发布,主打长程 Agentic 编程并提供 free 版本,凭借零成本与 550B MoE 架构快速获得开发者试用,冲入编程榜。
  • Opus 4.7 因在软件工程任务上的能力口碑与更成熟的工具链适配,推动编程调用量近乎翻倍、排名跃升。
  • DeepSeek V4 双模型在编程场景面临 M3 与免费新品的上下挤压,性价比优势被分流,导致排名同步下滑。

2.5模型吞吐量榜单

来源:openrouter.ai

排名说明 · 吞吐量指标 · 本周 vs 上周 Top 9数据采集周期 · 本周 2026-06-11 → 2026-06-17,上周 2026-06-04 → 2026-06-10
本周排名本周模型所属公司本周吞吐速度(toks/s)排名变化上周排名上周模型所属公司上周吞吐速度(toks/s)
1OpenAI: gpt-oss-120bOpenAI564上升1位1OpenAI: gpt-oss-safeguard-20bOpenAI565
2OpenAI: gpt-oss-safeguard-20bOpenAI529下降1位2OpenAI: gpt-oss-120bOpenAI544
3Z.ai: GLM 4.7Z.ai511上升2位3Qwen: Qwen3 32BQwen432
4Inception: Mercury 2Inception434持平4Inception: Mercury 2Inception425
5Qwen: Qwen3 32BQwen390下降2位5Z.ai: GLM 4.7Z.ai337
6OpenAI: gpt-oss-20bOpenAI312持平6OpenAI: gpt-oss-20bOpenAI253
7MiniMax: MiniMax M2.5MiniMax214上升1位7Meta: Llama 3.1 8B InstructMeta224
8MiniMax: MiniMax M2.7MiniMax181上升1位8MiniMax: MiniMax M2.5MiniMax213
9NVIDIA: Nemotron 3 Nano Omni (free)NVIDIA166新上榜9MiniMax: MiniMax M2.7MiniMax194

本周榜单主要变化

  • OpenAI gpt-oss-120b 反超 gpt-oss-safeguard-20b 登顶,OpenAI 独占前二,显示其开源小模型系列在服务端吞吐优化上保持领先。
  • Z.ai GLM 4.7 从第五跃升至第三,吞吐量从 337 toks/s 大幅提升至 511 toks/s,是本周增速最显著的模型。
  • Qwen3 32B 下滑 2 位至第五,被 GLM 4.7 反超。
  • NVIDIA Nemotron 3 Nano Omni 免费版新上榜位列第九,替代 Meta Llama 3.1 8B Instruct,榜尾迎来免费轻量模型更替。
  • MiniMax M2.5 小幅提升至 214 toks/s 并上升 1 位,而 M2.7 吞吐量从 194 降至 181 toks/s,仅因榜尾更替而被动上升 1 位,内部出现分化。

可能原因

  • OpenAI gpt-oss 系列继续保持高频迭代与基础设施优化,120B 版本本周登顶反映其在相同算力集群下实现了更高的并发效率。
  • GLM 4.7 吞吐量大幅提升可能与 Z.ai 近期在推理引擎或缓存策略上的优化有关,也可能是其调用量爆发增长(厂商榜 +76%)带来的规模效应反馈。
  • NVIDIA Nemotron 3 Nano Omni 作为免费轻量模型新上榜,说明免费小模型仍在持续渗透对延迟敏感的场景,与榜单头部的高性能开源模型形成互补。
其他模型性能榜单

1Text Arena

来源:lmarena.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1claude-fable-5Anthropic1508持平1claude-fable-5Anthropic1510
2claude-opus-4-6-thinkingAnthropic1504持平2claude-opus-4-6-thinkingAnthropic1504
3claude-opus-4-7-thinkingAnthropic1502持平3claude-opus-4-7-thinkingAnthropic1502
4claude-opus-4-6Anthropic1499持平4claude-opus-4-6Anthropic1498
5claude-opus-4-7Anthropic1493持平5claude-opus-4-7Anthropic1492
6muse-sparkMeta1487持平6muse-sparkMeta1487
7gemini-3.1-pro-previewGoogle1486持平7gemini-3.1-pro-previewGoogle1487
8gemini-3-proGoogle1486持平8gemini-3-proGoogle1486
9claude-opus-4-8-thinkingAnthropic1483持平9claude-opus-4-8-thinkingAnthropic1486
10gpt-5.5-highOpenAI1481持平10gpt-5.5-highOpenAI1481

本周榜单主要变化

  • 无重大变化

2Code Arena

来源:arena.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1claude-fable-5Anthropic1654持平1claude-fable-5Anthropic1665
2glm-5.2 (max)Z.ai1595新上榜2claude-opus-4-7-thinkingAnthropic1566
3claude-opus-4-7-thinkingAnthropic1566下降1位3claude-opus-4-8-thinkingAnthropic1559
4claude-opus-4-8-thinkingAnthropic1561下降1位4claude-opus-4-7Anthropic1557
5claude-opus-4-7Anthropic1556下降1位5claude-opus-4-8Anthropic1543
6claude-opus-4-6-thinkingAnthropic1541持平6claude-opus-4-6-thinkingAnthropic1542
7claude-opus-4-8Anthropic1541下降2位7claude-opus-4-6Anthropic1539
8claude-opus-4-6Anthropic1538下降1位8qwen3.7-maxAlibaba1534
9glm-5.1Z.ai1531持平9glm-5.1Z.ai1532
10qwen3.7-maxAlibaba1531下降2位10claude-sonnet-4-6Anthropic1523

本周榜单主要变化

  • glm-5.2 (max)(Z.ai)新上榜第 2,原前十的 claude-sonnet-4-6 跌出榜单。
  • claude-opus-4-8-thinking、claude-opus-4-7、claude-opus-4-8、qwen3.7-max 等模型顺位下调 1-2 位,榜单中上部出现明显重排。

3Agent Arena

来源:lmarena.ai

数据周期 · 2026-06-15(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Claude Fable 5 (High)Anthropic14.2%持平1Claude Fable 5 (High)Anthropic13.7%
2Claude Opus 4.8 (Thinking)Anthropic9.0%上升1位2GPT 5.5 (xHigh)OpenAI11.0%
3GPT 5.5 (xHigh)OpenAI8.3%下降1位3Claude Opus 4.8 (Thinking)Anthropic9.1%
4Claude Opus 4.7Anthropic8.1%上升2位4Claude Opus 4.7 (Thinking)Anthropic8.4%
5Claude Opus 4.7 (Thinking)Anthropic8.1%下降1位5GPT 5.5 (High)OpenAI7.8%
6GPT 5.5 (High)OpenAI7.8%下降1位6Claude Opus 4.7Anthropic7.7%
7GPT 5.5OpenAI6.7%上升2位7Claude Opus 4.6Anthropic7.7%
8Claude Opus 4.6Anthropic6.7%下降1位8GPT 5.4 (High)OpenAI6.8%
9GPT 5.4 (High)OpenAI6.5%下降1位9GPT 5.5OpenAI6.6%
10GLM 5.2 (Max)Zhipu AI4.4%新上榜10Claude Opus 4.8Anthropic4.6%

本周榜单主要变化

  • GLM 5.2 (Max)(Zhipu AI)新上榜第 10,上周第 10 的 Claude Opus 4.8 跌出前十。
  • Claude Opus 4.7 上升 2 位至第 4,GPT 5.5 上升 2 位至第 7;Claude Opus 4.8 (Thinking)、GPT 5.5 (xHigh)、GPT 5.5 (High) 等小幅下降 1 位。

4LiveCodeBench

来源:livecodebench.github.io

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2持平2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3持平4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4持平5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5持平8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6

本周榜单主要变化

  • 无重大变化

5SWE-bench

来源:swebench.com

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Claude 4.5 Opus (high reasoning)Anthropic76.8%持平1Claude 4.5 Opus (high reasoning)Anthropic76.8%
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)Zhipu AI72.8%持平6GLM-5 (high reasoning)Zhipu AI72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot AI70.8%持平10Kimi K2.5 (high reasoning)Moonshot AI70.8%

本周榜单主要变化

  • 无重大变化

6Image Edit Arena

来源:lmarena.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1gpt-image-2 (medium)OpenAI1465持平1gpt-image-2 (medium)OpenAI1465
2mai-image-2.5Microsoft1401持平2mai-image-2.5Microsoft1401
3chatgpt-image-latest-high-fidelityOpenAI1390持平3chatgpt-image-latest-high-fidelityOpenAI1390
4grok-imagine-image-qualityXAI1388持平4grok-imagine-image-qualityXAI1388
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388
6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387持平6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
7gemini-3-pro-image-preview (nano-banana-pro)Google1385持平7gemini-3-pro-image-preview (nano-banana-pro)Google1385
8gpt-image-1.5-high-fidelityOpenAI1373持平8gpt-image-1.5-high-fidelityOpenAI1373
9reve-2.0Reve1356持平9reve-2.0Reve1356
10grok-imagine-image-qualityXAI1355持平10grok-imagine-image-qualityXAI1355

本周榜单主要变化

  • 无重大变化

7Text-to-Image Arena

来源:lmarena.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1gpt-image-2 (medium)OpenAI1385持平1gpt-image-2 (medium)OpenAI1385
2reve-2.0Reve1273持平2reve-2.0Reve1273
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269持平3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269
4mai-image-2.5Microsoft1253持平4mai-image-2.5Microsoft1253
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245
6gpt-image-1.5-high-fidelityOpenAI1241持平6gpt-image-1.5-high-fidelityOpenAI1241
7grok-imagine-image-qualityXAI1234持平7grok-imagine-image-qualityXAI1234
8gemini-3-pro-image-preview (nano-banana-pro)Google1232持平8gemini-3-pro-image-preview (nano-banana-pro)Google1232
9ideogram-4.0-qualityIdeogram1204持平9ideogram-4.0-qualityIdeogram1204
10uni-1.1-maxLuma1191持平10uni-1.1-maxLuma1191

本周榜单主要变化

  • 无重大变化

8AA Image Editing

来源:artificialanalysis.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1GPT Image 1.5 (high)OpenAI1263持平1GPT Image 1.5 (high)OpenAI1264
2GPT Image 2 (high)OpenAI1259持平2GPT Image 2 (high)OpenAI1259
3Nano Banana Pro (Gemini 3 Pro Image)Google1249持平3Nano Banana Pro (Gemini 3 Pro Image)Google1251
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1247持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1246
5MAI-Image-2.5 (Foundry)Microsoft1246新上榜5grok-imagine-image-qualityXAI1237
6grok-imagine-image-qualityXAI1236下降1位6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1230
7MAI-Image-2.5-Flash (Foundry)Microsoft1234新上榜7Luma UNI 1 MaxLuma1222
8HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1230下降2位8grok-imagine-imageXAI1220
9Luma UNI 1 MaxLuma1224下降2位9Kling Image 3.0 OmniKlingAI1219
10Kling Image 3.0 OmniKlingAI1219下降1位10FLUX.2 [max]Black Forest Labs1214

本周榜单主要变化

  • MAI-Image-2.5 (Foundry) 与 MAI-Image-2.5-Flash (Foundry) 同时新上榜,分列第 5、第 7。
  • grok-imagine-image、FLUX.2 [max] 跌出前十;Luma UNI 1 Max、HunyuanImage 3.0 Instruct 顺位下调 2 位。

9AA Text-to-Image

来源:artificialanalysis.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1GPT Image 2 (high)OpenAI1339持平1GPT Image 2 (high)OpenAI1339
2GPT Image 1.5 (high)OpenAI1266持平2GPT Image 1.5 (high)OpenAI1266
3HiDream-O1-Image-1.5HiDream1263持平3HiDream-O1-Image-1.5HiDream1264
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1255持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1258
5Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1233持平5Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1236
6Nano Banana Pro (Gemini 3 Pro Image)Google1219持平6Nano Banana Pro (Gemini 3 Pro Image)Google1219
7MAI-Image-2.5-Flash (Foundry)Microsoft1216新上榜7Krea 2 MediumKrea1209
8Krea 2 MediumKrea1209下降1位8grok-imagine-image-qualityXAI1204
9Recraft V4.1 Utility ProRecraft1204持平9Recraft V4.1 Utility ProRecraft1204
10MAI-Image-2.5 (Foundry)Microsoft1202新上榜10Recraft V4.1 UtilityRecraft1197

本周榜单主要变化

  • MAI-Image-2.5-Flash (Foundry) 新上榜第 7,MAI-Image-2.5 (Foundry) 新上榜第 10。
  • grok-imagine-image-quality、Recraft V4.1 Utility 跌出前十;Krea 2 Medium 下降 1 位。

10前沿数学 (FrontierMath)

来源:epoch.ai

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1GPT-5.5 ProOpenAI52.4%持平1GPT-5.5 ProOpenAI52.4%
2GPT-5.5OpenAI51.7%持平2GPT-5.5OpenAI51.7%
3GPT-5.4 ProOpenAI50.0%持平3GPT-5.4 ProOpenAI50.0%
4GPT-5.4OpenAI47.6%持平4GPT-5.4OpenAI47.6%
5Claude Opus 4.8Anthropic47.2%持平5Claude Opus 4.8Anthropic47.2%
6Claude Opus 4.7Anthropic43.8%持平6Claude Opus 4.7Anthropic43.8%
7Claude Opus 4.6Anthropic40.7%持平7Claude Opus 4.6Anthropic40.7%
8GPT-5.2OpenAI40.7%持平8GPT-5.2OpenAI40.7%
9Muse SparkMeta39.0%持平9Muse SparkMeta39.0%
10Gemini 3.5 FlashGoogle39.0%持平10Gemini 3.5 FlashGoogle39.0%

本周榜单主要变化

  • 无重大变化

11HLE

来源:scale.com

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1gemini-3.1-pro-preview (thinking high)Google46.4持平1gemini-3.1-pro-preview (thinking high)Google46.4
2gpt-5.4-pro-2026-03-05OpenAI44.3持平2gpt-5.4-pro-2026-03-05OpenAI44.3
3Muse SparkiFlytek40.6持平3Muse SparkiFlytek40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2持平5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-pro-2025-10-06OpenAI31.6持平8gpt-5-pro-2025-10-06OpenAI31.6
9gpt-5.2-2025-12-11OpenAI27.8持平9gpt-5.2-2025-12-11OpenAI27.8
10gpt-5-2025-08-07OpenAI25.3持平10gpt-5-2025-08-07OpenAI25.3

本周榜单主要变化

  • 无重大变化

12Agent (GAIA)

来源:huggingface.co

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Co-Sight Pro v1.0.1ZTE-AICloud93.0持平1Co-Sight Pro v1.0.1ZTE-AICloud93.0
2OPS-Agentic-SearchAlibaba Cloud92.4持平2OPS-Agentic-SearchAlibaba Cloud92.4
3CustomGPT.ai Research Lab v41CustomGPT.ai92.0持平3CustomGPT.ai Research Lab v41CustomGPT.ai92.0
4Co-Sight Pro v1.0.0ZTE-AICloud92.0持平4Co-Sight Pro v1.0.0ZTE-AICloud92.0
5CustomGPT.ai Research Lab v43CustomGPT.ai92.0持平5CustomGPT.ai Research Lab v43CustomGPT.ai92.0
6AuraAiAI92.0持平6AuraAiAI92.0
7CustomGPT.ai Research Lab V42CustomGPT.ai92.0持平7CustomGPT.ai Research Lab V42CustomGPT.ai92.0
8openJiuwen-deepagentOpenJiuwen91.7持平8openJiuwen-deepagentOpenJiuwen91.7
9CustomGPT.ai Research Lab v39CustomGPT.ai91.7持平9CustomGPT.ai Research Lab v39CustomGPT.ai91.7
10CustomGPT.ai Research Lab v35CustomGPT.ai91.4持平10CustomGPT.ai Research Lab v35CustomGPT.ai91.4

本周榜单主要变化

  • 无重大变化

13GPQA

来源:llm-stats.com

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6持平4Claude Opus 4.8Anthropic93.6
5GPT-5.5OpenAI93.6持平5GPT-5.5OpenAI93.6
6GPT-5.2 ProOpenAI93.2持平6GPT-5.2 ProOpenAI93.2
7GPT-5.4OpenAI92.8持平7GPT-5.4OpenAI92.8
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4持平8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4
9GPT-5.2OpenAI92.4持平9GPT-5.2OpenAI92.4
10Gemini 3 ProGoogle91.9持平10Gemini 3 ProGoogle91.9

本周榜单主要变化

  • 无重大变化

14国内 - 大语言模型 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1GPT-5.4-2026-03-05 (high)OpenAI67.3持平1GPT-5.4-2026-03-05 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4
10GLM-5.1Zhipu AI59.0持平10GLM-5.1Zhipu AI59.0

本周榜单主要变化

  • 无重大变化

15国内 - 多模态 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1Qwen3.7-PlusAlibaba73.0持平1Qwen3.7-PlusAlibaba73.0
2Gemini-3.1-Pro-PreviewGoogle72.6持平2Gemini-3.1-Pro-PreviewGoogle72.6
3Qwen3.5-397B-A17BAlibaba72.3持平3Qwen3.5-397B-A17BAlibaba72.3
4GPT-5.5 (high)OpenAI71.1持平4GPT-5.5 (high)OpenAI71.1
5Kimi-K2.6Moonshot AI70.6持平5Kimi-K2.6Moonshot AI70.6
6Doubao-Seed-2.0-Pro (high)ByteDance69.4持平6Doubao-Seed-2.0-Pro (high)ByteDance69.4
7SenseNova-6-7-Flash-AlphaSenseTime69.0持平7SenseNova-6-7-Flash-AlphaSenseTime69.0
8GLM-5V-TurboZhipu AI62.8持平8GLM-5V-TurboZhipu AI62.8
9Step-3.7-Flash (high)StepFun61.5持平9Step-3.7-Flash (high)StepFun61.5
10Gemma-4-31B-itGoogle56.3持平10Gemma-4-31B-itGoogle56.3

本周榜单主要变化

  • 无重大变化

16国内 - 医疗 (MedBench)

来源:medbench.opencompass.org.cn

数据周期 · 2026-06-12(上周) → 2026-06-18(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司指标排名变化上周排名上周模型所属公司指标
1U2-Med云知声智能科技股份有限公司72.9新上榜1京医千询京东健康72.6
2京医千询京东健康72.6下降1位2卓睦鸟医疗大模型广州中康数字科技有限公司72.1
3卓睦鸟医疗大模型广州中康数字科技有限公司72.1下降1位3千问健康大模型千问C端71.2
4千问健康大模型千问C端71.2下降1位4华为云健康管理大模型Huawei71.0
5华为云健康管理大模型Huawei71.0下降1位5WiseDiag v2杭州智诊科技有限公司69.8
6ME-baseMeta Emergence Laboratory70.4新上榜6微医医疗大模型微医68.2
7WiseDiag v2杭州智诊科技有限公司69.8下降2位7AntAngelMedMedAIBase68.0
8微医医疗大模型微医68.2下降2位8UniGPT-Med-U1云知声智能科技股份有限公司65.7
9AntAngelMedMedAIBase68.0下降2位9惠每医疗大模型上海新创惠每科技有限公司60.0
10UniGPT-Med-U1云知声智能科技股份有限公司65.7下降2位10Grok-4XAI58.4

本周榜单主要变化

  • U2-Med(云知声智能科技股份有限公司)以 72.9 分新上榜并登顶;ME-base(Meta Emergence Laboratory)新上榜第 6。
  • 原榜首京医千询及卓睦鸟医疗大模型、千问健康大模型、华为云健康管理大模型顺位下调;WiseDiag v2、微医医疗大模型、AntAngelMed、UniGPT-Med-U1 均下降 2 位。
  • 惠每医疗大模型、Grok-4 跌出前十。
AGENT-NATIVE DATABASE

Agent 原生数据库

01 · 这是什么

TL;DR · pandadataskill.md

本站底层是一个面向 AI Agent 开放的实时榜单数据库,涵盖两类数据:OpenRouter 的周度模型调用量、厂商份额与细分统计数据(编程 / 工具调用 / 图像 / 音频),以及与周报同源的 15 张外部基准榜单的多期快照(LMArena 文本 / 代码 / 图像编辑 / 文生图、Artificial Analysis、SWE-bench、LiveCodeBench、GPQA、HLE、FrontierMath、GAIA、OpenCompass、MedBench)。全部以只读 SQL + MCP 的形式开放,任何支持 MCP 的 Agent 都能直接查询。下面的两张演示图,就是用这个库画出来的。

数据库每天 08:00(北京时间)自动更新一次;但各数据源有自己的发布节奏,因此各表可用数据的新鲜度以数据源自身的更新时间为准。

如果不想往下读的话,直接甩给你的 agents:

⬇  下载 pandadataskill.md

02 · 用同一个库,你可以——

两个演示 · 数据均来自本库
演示 A · 还原

Top Models 周度调用量

你可以还原一个 OpenRouter 上的视图。

演示 B · 跨库自创

基准排名 × 真实使用量

你也可以把能力榜单表OpenRouter 调用量表跨库 JOIN——横轴 = 基准得分,纵轴 = 近 30 天调用量(对数)。跑分高的模型,真的有人用吗?

💡 同一个库,你还可以画——

model_activity 算推理 token ÷ 回答 token,看哪些模型真的在"思考"(有的推理量是答案的 3 倍,有的几乎为零);用输入:输出比例给负载画像——50:1 是文档抽取型,5:1 更像对话;用 rankings_market_share 画 52 周中外厂商份额拉锯;用 model_apps_daily 看一个模型的流量是被少数大应用"承包"还是长尾开发者撑起;或用 models 按发布时间画上下文军备竞赛——1M+ token 的模型已超过 70 个。

03 · 让你的 Agent 直接访问数据库(MCP)

Agent-native · Model Context Protocol

本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对自动刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。

两个库均每天 08:00(北京时间)自动刷新:OpenRouter 调用量库(周榜 / 厂商份额 / 编程榜 + 每日 token 量 + 每个模型的供应商、定价、吞吐与延迟、可用率、Top 应用),以及能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准)。完整表结构随时调用 openrouter_schema() / leaderboards_schema() 获取。

① 一行接入(Claude Code)

claude mcp add --transport http panda https://pandaleaderboard.com/mcp/

② 或写入 MCP 配置(Claude Desktop / Cursor)

{
  "mcpServers": {
    "panda": { "url": "https://pandaleaderboard.com/mcp/" }
  }
}

③ 可用工具

  • query_openrouter(sql) — 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。
  • openrouter_schema() — 列出所有表与字段(先调用它了解结构)。
  • openrouter_freshness() — 查看最新数据周与各表行数。
  • query_leaderboards(sql) — 对能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准表的多期快照)执行只读 SQL。上面的「演示 B」就是这个库和调用量库跨库 JOIN 画出来的。
  • leaderboards_schema() — 列出能力榜单库的表与字段。
  • leaderboards_freshness() — 查看各基准表的最新快照日期。
  • report_top_models() / report_market_share() — 复现本站「周报」页所用的近 7 天滚动口径(与官方 Mon–Sun 完整周不同)。

④ 示例:让 Agent 查询本周调用量榜首

SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;

完整字段、新鲜度语义与更多 SQL 配方见 pandadataskill.md(即上方可下载的手册)。接口开放、无需鉴权;所有工具调用(工具名 + SQL + 调用方)会被记录用于使用分析。

Research

Research · 数据研究专题

基于 OpenRouter 自有数据的研究专题集合。每个区块是一个可独立展开 / 收起的分析模块;更多专题将陆续加入。

Token 经济学 · OpenRouter
DeepSeek 斩杀线 · 价格 × 真实用量
把价格压平后,看开发者真正把 token 投给了谁。含 Value Map · 四象限、斩杀线挑战、平台概览与用量 / 排行 / 份额。
数据加载中…
Token 经济学 · 后验主义

把价格这层外衣拿掉,开发者到底会选哪个模型?
DeepSeek 斩杀线:低价 + 可用 + 稳定,正在把全市场价格参照系往下拉。

我们不先争论谁更强,而是把复杂变量收敛到两个可观测量:价格(一次标准调用要花多少钱)与用量(开发者实际把多少 token 投在它身上)。下方分析方法借鉴 ZenMux 的「斩杀线」框架,但数据全部来自 OpenRouter 自有表,并在末尾与 ZenMux 的结论作对照。

① 归一化用量 Um
median近14日(日 token)
近 14 个完整日里,model_activity 的中位日真实用量(B tokens/日)。规避单日尖峰。
② 归一化价格 Pm
100K·pin + 1K·pout
标准价格篮 = 100K 输入 + 1K 输出(贴合 Coding/Agent 输入重场景),价格取自 model_pricing_history 最新快照($/篮)。
③ 价值 Value
Um / Pm
每花掉 $1 标准调用成本,模型承载多少真实日用量。

Value Map · 四象限日度 · 近14日 · 截至

横轴 = 归一化价格 Pm(对数轴,$/标准篮),纵轴 = 中位日真实用量 Um。虚线为价格中位数与用量中位数,把模型分成四个象限。

低价 + 高用量 · 真正的 value play不是单纯便宜,而是在低价下吃到了非常大的真实用量。
高价 + 高用量 · premium demand贵,但凭能力、稳定性与开发者信任,关键任务里用户依然买单。
低价 + 低用量 · 便宜但暂未被选择价格打下来了,但还没把用户真正打动。
高价 + 低用量 · 最危险区贵,却没有足够真实需求支撑;定价必须回答「贵在哪里」。

数据:OpenRouter model_pricing_history(最新快照)× model_activity(近 14 个完整日)。方法借鉴 ZenMux 斩杀线框架,数据为 OpenRouter 自有;价格按 100K:1K 标准篮归一化,已剔除异常报价。

斩杀线挑战 · 把价格对齐到 DeepSeek日度 · 近14日 · 截至

规则:归一化价格高于 V4 Pro → 打折到 V4 Pro;介于 V4 Pro 与 V4 Flash 之间 → 打折到 V4 Flash;本就更便宜 → 保持原价。价格压平后,只看谁真正留得住 token。锚点价格由 OpenRouter 实测定价得出。

模型对齐锚点归一化价格变化降价幅度

数据:OpenRouter model_pricing_history。锚点 DeepSeek V4 Flash / V4 Pro 价格为 OpenRouter 实测,非外部研究值。

平台概览

OpenRouter 上的 token 处理总量与活跃度,分别给出周度(完整周)与日度(最近完整日 / 近 7 日)口径。

周度 完整周 · 截至
日度 截至

模型用量趋势周度 · 截至 本周至今 ·

头部模型的周 token 消耗(B tokens)随时间堆叠;最右一列为「本周至今」的日度增量(半透明)。颜色源自 Panda 厂商色板。

模型排行周度 · 截至

按 token 消耗排序的头部模型。

厂商份额周度 · 截至

按模型厂商(maker)划分的 token 消耗占比,100% 堆叠随时间。

数据源:OpenRouter explorer JSON(服务端每日构建,周度)+ analytics-live.json(直读 OpenRouter 数据表,日度)。「斩杀线」分析方法借鉴 ZenMux 研究,数据全部为 OpenRouter 自有。

04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。