Panda Leaderboard · 大模型榜单中心
每周五下午更新

报告数据周期:本周 2026-06-26 → 2026-07-02,上周 2026-06-19 → 2026-06-25

榜单变化总览

1.1本周榜单变化总览

榜单名称本周主要变动模型
OpenRouter 模型调用量Z.ai GLM 5.2 排名跃升 4 位至第五,Claude Opus 4.7 下滑 3 位至第九
OpenRouter 厂商调用量无重大变化,DeepSeek、Anthropic 继续稳居前二,各厂商排名变动均在 2 位以内
OpenRouter 编程调用量StepFun、Owl Alpha、Claude Opus 4.8 三款模型同时新上榜,GLM 5.2 跃升 5 位至第三
OpenRouter 模型吞吐量OpenAI gpt-oss-120b 反超升至第一,MiniMax M2.7 与 Meta Llama 3.2 3B Instruct 新上榜
LMArena 文本竞技场无重大变化,Top10 排名与分数基本持平,Anthropic 系模型包揽前五
LMArena 代码竞技场Claude Sonnet 5(Thinking)新上榜即入前十,Claude Opus 4.8 下滑 4 位至第十
LMArena 图像编辑竞技场无重大变化,仅 grok-imagine-image-quality 与 reve-2.0 互换第 9、10 名
LMArena 文生图竞技场Google Nano Banana 2 Lite 新上榜进入第五,Luma UNI 1 Max 跌出前十
LMArena Agent ArenaZ.ai GLM 5.2(Max)大幅上升 3 位至第七,其余变动均在 2 位以内
Artificial Analysis 图像编辑无重大变化,Top10 排名完全维持不变,仅分数小幅波动
Artificial Analysis 文生图Reve 2.0 新上榜即冲至第二,Krea 2 Medium 跌出前十
GPQA无重大变化,Top10 排名与分数与上周完全一致
MedBench无重大变化,Top10 排名与分数与上周完全一致
OpenCompass LLM无重大变化,Top10 排名与分数与上期完全一致
OpenCompass 多模态无重大变化,Top10 排名与分数与上期完全一致
LiveCodeBench GSO无重大变化,Top10 排名与分数与上周完全一致
HuggingFace GAIAopenJiuwen-deepagent 新上榜,CustomGPT.ai 内部版本大幅换位
Scale HLE无重大变化,Top10 排名与分数与上期完全一致
Epoch FrontierMath无重大变化,Top10 排名与分数与上周完全一致
SWE-bench无重大变化,Top10 排名与分数与上周完全一致

1.2本周大模型行业重要动态

时间窗口 · 2026-06-26 至 2026-07-02总追踪厂商 · 20 家确认入池并保留的核心技术进展 · 6 条(来自 5 家公司)

OpenAI

  • 2026-06-26 OpenAI 预览发布 GPT-5.6 系列,包含 Sol / Terra / Luna 三个固定能力层级;旗舰 Sol 新增 max 深度推理与 ultra 多子代理并行模式,可将复杂任务拆分为多个子代理并行处理后再综合结果。(来源:openai.com

Anthropic

  • 2026-06-30 Anthropic 发布 Claude Sonnet 5,定位中端但具备更强 agentic 能力,可自主使用浏览器与终端工具;在 SWE-Bench Pro 和 Terminal-Bench 2.1 上较前代分别提升 5.1% 与 13.4%,成为 Claude 免费/Pro 版默认模型。(来源:anthropic.com
  • 2026-07-01 Anthropic 宣布美国政府解除对 Claude Fable 5 的出口管制;该模型自 6 月 12 日起因安全顾虑被暂停,Anthropic 通过训练新的安全分类器阻止特定越狱行为,Fable 5 于 7 月 1 日恢复全球可用,Mythos 5 仍受 Project Glasswing 限制。(来源:anthropic.com

Google

  • 2026-06-30 Google 推出 Nano Banana 2 Lite,为 Gemini Image 系列中速度最快、成本最低的图像生成模型,可在约 4 秒内生成 1K 图像,单价 $0.034/张,面向高吞吐量、低成本图像生成场景。(来源:blog.google

DeepSeek

  • 2026-06-27 DeepSeek 开源 DSpark 推测解码框架及 DeepSpec 训练/评测工具链,通过半自回归草稿生成与置信度调度验证,在 DeepSeek-V4-Flash 上实现 per-user 生成速度较 MTP-1 基线提升 60%–85%,且不改变目标模型输出分布。(来源:github.com

Meituan

  • 2026-06-30 美团发布并开源 LongCat-2.0,总参数 1.6 万亿的 MoE 模型,每 token 动态激活约 480 亿参数,原生支持 100 万 token 超长上下文;基于国产算力集群完成训练与推理,定位 AI 智能体与编程辅助核心。(来源:meituan.com
OpenRouter 分析

2.1本周 OpenRouter 重点关注

  • Owl Alpha 身份揭晓,美团 LongCat-2.0 浮出水面:长期匿名的 Owl Alpha 于 6 月 29 日被证实为美团 LongCat-2.0,本周仍居调用量第六,但 top5 应用集中度高达 79%,存在流量结构性风险。
  • Anthropic 高端阵营代际更替:Claude Opus 4.7 调用量下滑 22%、排名跌至第九,新旗舰 Opus 4.8 仅增长 4%,叠加 Claude Sonnet 4.6 跌出前十,厂商总量环比下滑 3%。
  • 中国开源模型性价比冲击扩大:Z.ai GLM 5.2 调用量增长 31%、编程排名跃升 5 位,StepFun Step 3.7 Flash 凭借 Advisor Mode 逼近 Claude Opus 4.6 编程表现,两者共同挤压中高端编程模型份额。

2.2模型调用量榜单分析

来源:openrouter.ai

排名说明 · 平台 token 调用量本周 Top 10数据采集周期 · 本周 2026-06-26 → 2026-07-02,上周 2026-06-19 → 2026-06-25
排名模型厂商Tokens(T)WoW排名变化P/CR/Ctop5 App 集中度IntelligenceCodingAgenticProgramming %input price(USD)output price(USD)健康度风险提示
1DeepSeek: DeepSeek V4 FlashDeepSeek5.083%持平210.545528%40563118%0.0960.261无显著风险
2Xiaomi: MiMo-V2.5Xiaomi4.18-6%持平1130.38314%404266数据缺失0.0760.279无显著风险
3MiniMax: MiniMax M3MiniMax3.70-3%持平870.391931%44593561%0.2671.535无显著风险
4Tencent: Hy3 previewTencent3.6813%持平710.36210%34365631%0.0540.430无显著风险
5Z.ai: GLM 5.2Z.ai2.3931%上升4位530.584230%51694360%0.0000.000无显著风险
6Owl AlphaOpenRouter2.35-25%下降1位1240.000079%数据缺失数据缺失数据缺失24%0.0000.000头部应用集中风险,top5 集中度=79%
7DeepSeek: DeepSeek V4 ProDeepSeek2.216%持平240.699628%44593656%0.8692.868无显著风险
8Anthropic: Claude Opus 4.8Anthropic2.074%持平860.066521%56744742%1.72325.000无显著风险
9Anthropic: Claude Opus 4.7Anthropic1.83-22%下降3位820.05694%54744446%2.18425.000无显著风险
10StepFun: Step 3.7 FlashStepFun1.5312%上升1位730.008056%30372258%0.1321.150无显著风险

本周关键模型分析:

[DeepSeek V4 Flash]:- #1 -> #1(变化 0 位)| WoW 3% |

  • 模型质量数据:| P/C=21 | R/C=0.5455 | top5 App 集中度=28% | Intelligence=40 | Coding=56 | Agentic=31 | Input Price=0.096 | Output Price=0.261
  • 本周变化分析:V4 Flash 本周继续稳居榜首,调用量温和增长 3%。该模型为 284B/13B MoE 架构、1M 上下文,`model_pricing_history` 显示近期定价维持在 0.09-0.10 美元区间小幅波动,未出现大幅降价或提价动作,说明当前排名主要依靠架构效率与既有性价比优势维持,而非价格战驱动。P/C=21、top5 集中度仅 28%,需求结构真实健康。短期需关注 Xiaomi MiMo-V2.5 与 Z.ai GLM 5.2 等追赶者的定价与性能双重逼近,能否继续守住榜首仍是看点。

[Xiaomi MiMo-V2.5]:- #2 -> #2(变化 0 位)| WoW -6% |

  • 模型质量数据:| P/C=113 | R/C=0.3831 | top5 App 集中度=4% | Intelligence=40 | Coding=42 | Agentic=66 | Input Price=0.076 | Output Price=0.279
  • 本周变化分析:MiMo-V2.5 本周排名维持第二,但调用量小幅回落 6%。其 Agentic=66 在前十中相当突出,公开信息显示该模型于 4 月发布、310B/15B MoE 架构,在 Claw-Eval 等长程 Agent 任务上处于性能与效率的帕累托前沿;旧款 V2 系列已于 6 月 30 日全面下线并自动路由至 V2.5,理论上应带来增量而非流失,本周小幅下滑更可能是 GLM 5.2 等新对手分流部分 Agentic 编程流量所致。top5 集中度仅 4%,需求结构健康、非刷量驱动。短期关注 Xiaomi 下一代模型训练进展是否会进一步影响现有版本的流量走势。

[Z.ai GLM 5.2]:- #9 -> #5(变化 4 位)| WoW 31% |

  • 模型质量数据:| P/C=53 | R/C=0.5842 | top5 App 集中度=30% | Intelligence=51 | Coding=69 | Agentic=43 | Input Price=0.000 | Output Price=0.000
  • 本周变化分析:GLM 5.2 本周排名从第九跃升至第五,延续 6 月 13 日发布以来的上量势头。公开测评显示其在多项长程编程基准上超越 GPT-5.5,成本仅为后者的六分之一,753B MoE 架构叠加 IndexShare 优化大幅降低长上下文推理开销。`model_pricing_history` 显示其标准 API 定价已从上线初期约 1.40/4.40 美元持续下调至当前约 0.93/3.00 美元(降幅约三成),叠加限时免费缓存输入等促销,本周榜单呈现的零价格更多反映了促销与免费渠道叠加带来的引流效应。Coding=69 位列前十第二,性能与低价的组合直接对标同处开源阵营的 DeepSeek V4 系列与小米 MiMo-V2.5。短期需关注发布热度消退后其真实付费转化与留存情况。

[Claude Opus 4.7]:- #6 -> #9(变化 3 位)| WoW -22% |

  • 模型质量数据:| P/C=82 | R/C=0.0569 | top5 App 集中度=4% | Intelligence=54 | Coding=74 | Agentic=44 | Input Price=2.184 | Output Price=25.000
  • 本周变化分析:Claude Opus 4.7 本周下滑 3 位至第九,调用量环比下降 22%,核心原因是同厂新旗舰 Claude Opus 4.8(5 月 28 日发布,定价与 4.7 完全一致)持续对其形成内部替代——Opus 4.8 本周增长 4% 升至第八,官方披露其在代码审查诚实度、对齐表现与任务判断力上均有提升。Opus 4.7 自身 Coding=74、Agentic=44 仍是前十顶尖水准,top5 集中度仅 4%,说明下滑并非需求质量或竞争力恶化,而是典型的同代际产品迭代所致。短期需关注 Anthropic 是否会对 4.7 采取降价清库存或加速下线动作。

2.3厂商调用量榜单分析

来源:openrouter.ai

排名说明 · 厂商按 token 调用量数据采集周期 · 本周 2026-06-26 → 2026-07-02,上周 2026-06-19 → 2026-06-25
排名厂商最近两周上榜模型数本周总量(T)总量 WoW关键观察内部模型变动简述
1DeepSeek27.94-2%总量下滑内部模型阵容稳定
2Anthropic36.38-3%总量下滑跌出模型:Anthropic: Claude Sonnet 4.6
3Xiaomi14.71-4%总量下滑内部模型阵容稳定
4Google03.933%总量稳定增长内部模型无变动
5MiniMax13.88-5%总量下滑内部模型阵容稳定
6Tencent13.6813%总量稳定增长内部模型阵容稳定
7OpenAI03.020%总量下滑内部模型无变动
8Z.ai12.9320%总量稳定增长内部模型阵容稳定
9OpenRouter12.35-25%总量下滑内部模型阵容稳定

本周关键厂商分析

[DeepSeek]:本周以 7.94T 总量继续稳居第一,环比小幅下滑 2%。旗下 V4 Flash(+3%)与 V4 Pro(+6%)两款上榜模型均保持正增长,总量下滑主要来自榜单外长尾模型的自然流失,"Flash 走量、Pro 提质"的双档位阵容保持稳定,短期竞争地位依然稳固。

[Anthropic]:本周总量 6.38T,环比下滑 3%,排名维持第二。旗舰 Opus 4.7 下跌 22%、Claude Sonnet 4.6 跌出前十,仅新款 Opus 4.8 实现 4% 增长,呈现典型的同厂代际替代:新品增量尚不足以完全弥补旧款流失,高端阵营总量持续承压。

2.4编程调用量榜单

来源:openrouter.ai

排名说明 · 编程任务 token 累计 · 本周 vs 上周 Top 9数据采集周期 · 本周 2026-06-26 → 2026-07-02,上周 2026-06-19 → 2026-06-25
本周排名本周模型所属公司本周总量(B)排名变化上周排名上周模型所属公司上周总量(B)
1mimo-v2.5Xiaomi5407持平1mimo-v2.5Xiaomi4593
2MiniMax-m3MiniMax2279持平2MiniMax-m3MiniMax2453
3glm-5.2Z.ai1274上升5位3hy3-previewTencent1433
4claude-4.7-opusAnthropic1071持平4claude-4.7-opusAnthropic1171
5hy3-previewTencent1027下降2位5DeepSeek-v4-proDeepSeek1145
6step-3.7-flashStepFun875新上榜6DeepSeek-v4-flashDeepSeek972
7DeepSeek-v4-flashDeepSeek860下降1位7glm-5.1Z.ai952
8owl-alphaOpenRouter835新上榜8glm-5.2Z.ai820
9claude-4.8-opusAnthropic795新上榜9nemotron-3-ultra-550b-a55b:freeNVIDIA739

本周榜单主要变化

  • StepFun Step 3.7 Flash、OpenRouter Owl Alpha、Anthropic Claude Opus 4.8 三款模型同时新上榜,替换了上周在榜的 Z.ai GLM 5.1 与 NVIDIA Nemotron 3 Ultra 免费版。
  • Z.ai GLM 5.2 编程调用量从上周第八跃升至第三,上升 5 位,是本周内部排名变动最大的模型。
  • hy3-preview、DeepSeek-v4-flash 等中腰部模型小幅下滑,整体呈现新面孔挤压中腰部份额的格局。

可能原因

  • StepFun 官方公布的测试数据显示,Step 3.7 Flash 凭借"Advisor Mode"架构,以约 Claude Opus 4.6 九分之一的单任务成本达到其九成编程性能(该数据为厂商自测,未见独立第三方复现),高性价比叙事推动其快速进入编程榜。
  • Owl Alpha 的真实身份于 6 月 29 日被曝为美团 LongCat-2.0(1.6 万亿参数 MoE、完全基于国产芯片训练),免费策略叠加身份揭晓带来的关注度共同推高其编程场景调用量。
  • Claude Opus 4.8 作为 5 月末发布的最新旗舰,凭借更强的代码审查诚实度与任务判断力,持续从 Opus 4.7 手中承接编程流量。
  • Z.ai GLM 5.2 凭借对标 GPT-5.5 的长程编程基准表现与持续下调的定价,快速抢占中腰部编程份额,也带动同厂 GLM 5.1 完成内部代际交接、跌出本榜。

2.5模型吞吐量榜单

来源:openrouter.ai

排名说明 · 吞吐量指标 · 本周 vs 上周 Top 9数据采集周期 · 本周 2026-06-26 → 2026-07-02,上周 2026-06-19 → 2026-06-25
本周排名本周模型所属公司本周吞吐速度(toks/s)排名变化上周排名上周模型所属公司上周吞吐速度(toks/s)
1gpt-oss-120bOpenAI667上升1位1gpt-oss-safeguard-20bOpenAI540
2gpt-oss-safeguard-20bOpenAI439下降1位2gpt-oss-120bOpenAI535
3Qwen3 32BQwen411上升2位3Mercury 2Inception490
4gpt-oss-20bOpenAI347上升2位4GLM 4.7Z.ai390
5GLM 4.7Z.ai324下降1位5Qwen3 32BQwen366
6MiniMax M2.7MiniMax259新上榜6gpt-oss-20bOpenAI313
7Mercury 2Inception251下降4位7Qwen3.5-35B-A3BQwen212
8Llama 3.2 3B InstructMeta223新上榜8Nano Banana (Gemini 2.5 Flash Image)Google183
9Qwen3.5-35B-A3BQwen213下降2位9Laguna XS.2Poolside166

本周榜单主要变化

  • Inception Mercury 2 大幅下滑 4 位至第七,吞吐速度也从 490 toks/s 降至 251 toks/s,是本周降幅最明显的模型。
  • MiniMax M2.7 与 Meta Llama 3.2 3B Instruct 同时新上榜,替代了上周在榜的 Google Nano Banana(Gemini 2.5 Flash Image)与 Poolside Laguna XS.2。
  • 头部格局小幅重排:OpenAI gpt-oss-120b 反超 gpt-oss-safeguard-20b 升至第一,Qwen3 32B、gpt-oss-20b 同步上升 2 位,OpenAI 与 Qwen 两家继续把持榜单中上游席位。
其他模型性能榜单

1Text Arena

来源:lmarena.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1claude-fable-5Anthropic1509持平1claude-fable-5Anthropic1508
2claude-opus-4-6-thinkingAnthropic1504持平2claude-opus-4-6-thinkingAnthropic1503
3claude-opus-4-7-thinkingAnthropic1502持平3claude-opus-4-7-thinkingAnthropic1502
4claude-opus-4-6Anthropic1499持平4claude-opus-4-6Anthropic1499
5claude-opus-4-7Anthropic1494持平5claude-opus-4-7Anthropic1494
6muse-sparkMeta1487持平6muse-sparkMeta1487
7gemini-3.1-pro-previewGoogle1486持平7gemini-3.1-pro-previewGoogle1486
8gemini-3-proGoogle1486持平8gemini-3-proGoogle1486
9claude-opus-4-8-thinkingAnthropic1484持平9claude-opus-4-8-thinkingAnthropic1484
10gpt-5.5-highOpenAI1481持平10gpt-5.5-highOpenAI1481

本周榜单主要变化

  • 无重大变化

2Code Arena

来源:arena.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1claude-fable-5Anthropic1653持平1claude-fable-5Anthropic1654
2glm-5.2 (max)Z.ai1584持平2glm-5.2 (max)Z.ai1593
3claude-opus-4-8-thinkingAnthropic1561持平3claude-opus-4-8-thinkingAnthropic1565
4claude-opus-4-7-thinkingAnthropic1559持平4claude-opus-4-7-thinkingAnthropic1563
5claude-opus-4-7Anthropic1557持平5claude-opus-4-7Anthropic1557
6claude-sonnet-5-thinkingAnthropic1551新上榜6claude-opus-4-8Anthropic1542
7claude-opus-4-6-thinkingAnthropic1542持平7claude-opus-4-6-thinkingAnthropic1542
8seed-2.1-pro-previewByteDance1539持平8seed-2.1-pro-previewByteDance1539
9claude-opus-4-6Anthropic1536持平9claude-opus-4-6Anthropic1538
10claude-opus-4-8Anthropic1535下降4位10qwen3.7-maxAlibaba1530

本周榜单主要变化

  • Anthropic Claude Sonnet 5(Thinking)新上榜即跻身第六,成为本周最大亮点。
  • Claude Opus 4.8 排名下滑 4 位至第十,Alibaba Qwen3.7-Max 跌出前十。

可能原因

  • Claude Sonnet 5 于 6 月 30 日正式发布,官方公布的测试数据显示其性能逼近 Opus 4.8 但定价大幅降低(起售价 $2/$10 每百万 token),是"最具 Agentic 能力的 Sonnet 模型",新品热度带动其快速登榜。
  • Claude Opus 4.8 本周分数仅从 1542 微降至 1535,降幅极小,排名大跌更多是竞技场内多个分数密集扎堆(1535-1542 区间聚集 5 款模型)导致的排名放大效应,而非编程能力出现实质性退步。

3Agent Arena

来源:lmarena.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1Claude Fable 5 (High)Anthropic13.3%持平1Claude Fable 5 (High)Anthropic14.0%
2Claude Opus 4.8 (Thinking)Anthropic9.4%持平2Claude Opus 4.8 (Thinking)Anthropic8.9%
3GPT 5.5 (xHigh)OpenAI8.2%持平3GPT 5.5 (xHigh)OpenAI8.0%
4Claude Opus 4.7Anthropic8.2%上升2位4Claude Opus 4.7 (Thinking)Anthropic8.0%
5Claude Opus 4.7 (Thinking)Anthropic8.1%下降1位5GPT 5.5 (High)OpenAI8.0%
6GPT 5.5 (High)OpenAI7.1%下降1位6Claude Opus 4.7Anthropic7.8%
7GLM 5.2 (Max)Z.ai6.9%上升3位7Claude Opus 4.6Anthropic7.0%
8GPT 5.4 (High)OpenAI6.7%上升1位8GPT 5.5OpenAI6.8%
9Claude Opus 4.6Anthropic6.5%下降2位9GPT 5.4 (High)OpenAI6.6%
10GPT 5.5OpenAI6.2%下降2位10GLM 5.2 (Max)Z.ai4.4%

本周榜单主要变化

  • Z.ai GLM 5.2(Max)大幅上升 3 位至第七,是本周排名提升最明显的模型。
  • 其余模型多为 1-2 位的相邻位次互换,头部前三名(Claude Fable 5、Claude Opus 4.8 Thinking、GPT 5.5 xHigh)保持不变。

可能原因

  • 公开测评显示 GLM 5.2 在多项长程编程与 Agentic 基准上超越 GPT-5.5、成本仅为其六分之一,这一性价比优势与其在 OpenRouter 调用量、编程榜单上的同步走强相互印证,反映其 Agentic 能力正获得跨平台的一致认可。

4LiveCodeBench

来源:livecodebench.github.io

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2持平2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3持平4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4持平5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5持平8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6

本周榜单主要变化

  • 无重大变化

5SWE-bench

来源:swebench.com

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1Claude 4.5 Opus (high reasoning)Anthropic76.8%持平1Claude 4.5 Opus (high reasoning)Anthropic76.8%
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)Z.ai72.8%持平6GLM-5 (high reasoning)Z.ai72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot AI70.8%持平10Kimi K2.5 (high reasoning)Moonshot AI70.8%

本周榜单主要变化

  • 无重大变化

6Image Edit Arena

来源:lmarena.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1gpt-image-2 (medium)OpenAI1464持平1gpt-image-2 (medium)OpenAI1465
2mai-image-2.5Microsoft1403持平2mai-image-2.5Microsoft1401
3chatgpt-image-latest-high-fidelityOpenAI1390持平3chatgpt-image-latest-high-fidelityOpenAI1390
4grok-imagine-image-qualityxAI1389持平4grok-imagine-image-qualityxAI1388
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388
6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387持平6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
7gemini-3-pro-image-preview (nano-banana-pro)Google1385持平7gemini-3-pro-image-preview (nano-banana-pro)Google1385
8gpt-image-1.5-high-fidelityOpenAI1373持平8gpt-image-1.5-high-fidelityOpenAI1373
9grok-imagine-image-qualityxAI1358上升1位9reve-2.0Reve1356
10reve-2.0Reve1357下降1位10grok-imagine-image-qualityxAI1355

本周榜单主要变化

  • 无重大变化

7Text-to-Image Arena

来源:lmarena.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1gpt-image-2 (medium)OpenAI1386持平1gpt-image-2 (medium)OpenAI1385
2reve-2.0Reve1272持平2reve-2.0Reve1273
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1270持平3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269
4mai-image-2.5Microsoft1257持平4mai-image-2.5Microsoft1253
5gemini-3.1-flash-lite-image (nano-banana-2-lite)Google1250新上榜5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245
6gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245下降1位6gpt-image-1.5-high-fidelityOpenAI1241
7gpt-image-1.5-high-fidelityOpenAI1241下降1位7grok-imagine-image-qualityxAI1234
8gemini-3-pro-image-preview (nano-banana-pro)Google1232持平8gemini-3-pro-image-preview (nano-banana-pro)Google1232
9grok-imagine-image-qualityxAI1229下降2位9ideogram-4.0-qualityIdeogram1204
10ideogram-4.0-qualityIdeogram1207下降1位10uni-1.1-maxLuma1191

本周榜单主要变化

  • Google Nano Banana 2 Lite(Gemini 3.1 Flash-Lite Image)新上榜即进入第五,成为本周唯一新面孔。
  • Luma UNI 1 Max 跌出前十,其余模型排名多为个位数微调。

可能原因

  • Nano Banana 2 Lite 于 6 月 30 日发布,官方定位为 Nano Banana 系列中最快、最经济的图像模型,生成速度较 Nano Banana 2 快约 2.7 倍,新品发布带动其迅速登榜。

8AA Image Editing

来源:artificialanalysis.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1GPT Image 1.5 (high)OpenAI1255持平1GPT Image 1.5 (high)OpenAI1261
2GPT Image 2 (high)OpenAI1254持平2GPT Image 2 (high)OpenAI1260
3MAI-Image-2.5Microsoft1246持平3MAI-Image-2.5Microsoft1251
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1244持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1248
5Nano Banana Pro (Gemini 3 Pro Image)Google1238持平5Nano Banana Pro (Gemini 3 Pro Image)Google1247
6MAI-Image-2.5-FlashMicrosoft1231持平6MAI-Image-2.5-FlashMicrosoft1238
7grok-imagine-image-qualityxAI1228持平7grok-imagine-image-qualityxAI1236
8HunyuanImage 3.0 Instruct (Fal) Open WeightsTencent1223持平8HunyuanImage 3.0 Instruct (Fal) Open WeightsTencent1229
9Luma UNI 1 MaxLuma1220持平9Luma UNI 1 MaxLuma1225
10Kling Image 3.0 OmniKlingAI1214持平10Kling Image 3.0 OmniKlingAI1220

本周榜单主要变化

  • 无重大变化

9AA Text-to-Image

来源:artificialanalysis.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1GPT Image 2 (high)OpenAI1338持平1GPT Image 2 (high)OpenAI1338
2Reve 2.0Reve1280新上榜2MAI-Image-2.5Microsoft1275
3MAI-Image-2.5Microsoft1270下降1位3HiDream-O1-Image-1.5HiDream1264
4HiDream-O1-Image-1.5HiDream1264下降1位4GPT Image 1.5 (high)OpenAI1264
5GPT Image 1.5 (high)OpenAI1260下降1位5Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1255
6Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1254下降1位6Cosmos3-Super-Text2Image (agentic) Open WeightsNVIDIA1227
7Cosmos3-Super-Text2Image (agentic) Open WeightsNVIDIA1226下降1位7Nano Banana Pro (Gemini 3 Pro Image)Google1219
8Nano Banana Pro (Gemini 3 Pro Image)Google1218下降1位8MAI-Image-2.5-FlashMicrosoft1213
9MAI-Image-2.5-FlashMicrosoft1213下降1位9Krea 2 MediumKrea1206
10Recraft V4.1 Utility ProRecraft1203持平10Recraft V4.1 Utility ProRecraft1206

本周榜单主要变化

  • Reve 2.0 新上榜即冲至第二,仅次于 OpenAI GPT Image 2,是本周最大黑马。
  • Krea 2 Medium 跌出前十,其余模型排名多为 1 位的相邻调整。

可能原因

  • Reve 2.0 采用"先布局、后渲染"的 Layout-First 生成架构,在 LMArena 文生图竞技场已取得第二名成绩(较上一代提升 125 分),且训练算力仅为部分竞品的十分之一,技术差异化叠加公开测评结果共同支撑其在 Artificial Analysis 榜单上的强势登场。

10前沿数学 (FrontierMath)

来源:epoch.ai

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1GPT-5.5 ProOpenAI52.4%持平1GPT-5.5 ProOpenAI52.4%
2GPT-5.5OpenAI51.7%持平2GPT-5.5OpenAI51.7%
3GPT-5.4 ProOpenAI50.0%持平3GPT-5.4 ProOpenAI50.0%
4GPT-5.4OpenAI47.6%持平4GPT-5.4OpenAI47.6%
5Claude Opus 4.8Anthropic47.2%持平5Claude Opus 4.8Anthropic47.2%
6Claude Opus 4.7Anthropic43.8%持平6Claude Opus 4.7Anthropic43.8%
7Claude Opus 4.6Anthropic40.7%持平7Claude Opus 4.6Anthropic40.7%
8GPT-5.2OpenAI40.7%持平8GPT-5.2OpenAI40.7%
9Muse SparkMeta39.0%持平9Muse SparkMeta39.0%
10Gemini 3.5 FlashGoogle39.0%持平10Gemini 3.5 FlashGoogle39.0%

本周榜单主要变化

  • 无重大变化

11HLE

来源:scale.com

数据周期 · 2026-06-22(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1gemini-3.1-pro-preview (thinking high)Google46.4持平1gemini-3.1-pro-preview (thinking high)Google46.4
2gpt-5.4-pro-2026-03-05OpenAI44.3持平2gpt-5.4-pro-2026-03-05OpenAI44.3
3Muse SparkiFlytek40.6持平3Muse SparkiFlytek40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2持平5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-pro-2025-10-06OpenAI31.6持平8gpt-5-pro-2025-10-06OpenAI31.6
9gpt-5.2-2025-12-11OpenAI27.8持平9gpt-5.2-2025-12-11OpenAI27.8
10gpt-5-2025-08-07OpenAI25.3持平10gpt-5-2025-08-07OpenAI25.3

本周榜单主要变化

  • 无重大变化

12Agent (GAIA)

来源:huggingface.co

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1CustomGPT.ai Research Lab v44CustomGPT.ai93.4持平1CustomGPT.ai Research Lab v44CustomGPT.ai93.4
2Co-Sight Pro v1.0.1ZTE-AICloud93.0持平2Co-Sight Pro v1.0.1ZTE-AICloud93.0
3OPS-Agentic-SearchAlibaba Cloud92.4持平3OPS-Agentic-SearchAlibaba Cloud92.4
4CustomGPT.ai Research Lab v43CustomGPT.ai92.0上升1位4CustomGPT.ai Research Lab V42CustomGPT.ai92.0
5CustomGPT.ai Research Lab v41CustomGPT.ai92.0上升4位5CustomGPT.ai Research Lab v43CustomGPT.ai92.0
6Co-Sight Pro v1.0.0ZTE-AICloud92.0上升2位6AuraAiAI92.0
7Cobra Agent OrchDalpha Inc92.0持平7Cobra Agent OrchDalpha Inc92.0
8CustomGPT.ai Research Lab V42CustomGPT.ai92.0下降4位8Co-Sight Pro v1.0.0ZTE-AICloud92.0
9AuraAiAI92.0下降3位9CustomGPT.ai Research Lab v41CustomGPT.ai92.0
10openJiuwen-deepagentOpenJiuwen91.7新上榜10Cobra Agent_v3.1Dalpha Inc91.7

本周榜单主要变化

  • openJiuwen-deepagent 新上榜即位列第十,Dalpha Inc 的 Cobra Agent_v3.1 跌出前十。
  • CustomGPT.ai 内部三个版本(v41、V42、v43)与 AuraAi 发生大幅换位,v41 上升 4 位、V42 下降 4 位,AuraAi 下降 3 位。

可能原因

  • openJiuwen-deepagent 基于开源 Agent 平台 openJiuwen 构建,凭借可自我进化的记忆模块与多层级上下文引擎,在 GAIA 基准上取得 91.7 分(逼近约 92% 的人类水平),公开信息显示其已在 GAIA 榜单上取得领先成绩,带动其快速登榜。
  • 本榜单第 4-9 名分数完全相同(均为 92.0 分),CustomGPT.ai 系列版本与 AuraAi 之间的大幅换位更多是同分模型在并列排序规则下产生的结果,而非各版本能力发生了实质性变化。

13GPQA

来源:llm-stats.com

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6持平4Claude Opus 4.8Anthropic93.6
5GPT-5.5OpenAI93.6持平5GPT-5.5OpenAI93.6
6GPT-5.2 ProOpenAI93.2持平6GPT-5.2 ProOpenAI93.2
7GPT-5.4OpenAI92.8持平7GPT-5.4OpenAI92.8
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4持平8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4
9GPT-5.2OpenAI92.4持平9GPT-5.2OpenAI92.4
10Gemini 3 ProGoogle91.9持平10Gemini 3 ProGoogle91.9

本周榜单主要变化

  • 无重大变化

14国内 - 大语言模型 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-23(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1GPT-5.4-2026-03-05 (high)OpenAI67.3持平1GPT-5.4-2026-03-05 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4
10GLM-5.1Z.ai59.0持平10GLM-5.1Z.ai59.0

本周榜单主要变化

  • 无重大变化(提示:该榜单本周与上周的采集间隔约为 10 天,非标准 7 天周期,且 opencompass_* 系列数据此前存在已知的上游抓取列错位问题,Top10 排名与分数完全一致,建议留意后续数据是否为真实无变化)

15国内 - 多模态 (OpenCompass)

来源:rank.opencompass.org.cn

数据周期 · 2026-06-23(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1Qwen3.7-PlusAlibaba73.0持平1Qwen3.7-PlusAlibaba73.0
2Gemini-3.1-Pro-PreviewGoogle72.6持平2Gemini-3.1-Pro-PreviewGoogle72.6
3Qwen3.5-397B-A17BAlibaba72.3持平3Qwen3.5-397B-A17BAlibaba72.3
4GPT-5.5 (high)OpenAI71.1持平4GPT-5.5 (high)OpenAI71.1
5Kimi-K2.6Moonshot70.6持平5Kimi-K2.6Moonshot70.6
6Doubao-Seed-2.0-Pro (high)ByteDance69.4持平6Doubao-Seed-2.0-Pro (high)ByteDance69.4
7SenseNova-6-7-Flash-AlphaSenseTime69.0持平7SenseNova-6-7-Flash-AlphaSenseTime69.0
8GLM-5V-TurboZ.ai62.8持平8GLM-5V-TurboZ.ai62.8
9Step-3.7-Flash (high)StepFun61.5持平9Step-3.7-Flash (high)StepFun61.5
10Gemma-4-31B-itGoogle56.3持平10Gemma-4-31B-itGoogle56.3

本周榜单主要变化

  • 无重大变化(提示:该榜单本周与上周的采集间隔约为 10 天,非标准 7 天周期,且 opencompass_* 系列数据此前存在已知的上游抓取列错位问题,Top10 排名与分数完全一致,建议留意后续数据是否为真实无变化)

16国内 - 医疗 (MedBench)

来源:medbench.opencompass.org.cn

数据周期 · 2026-06-26(上周) → 2026-07-03(本周)

本周 vs. 上周 top 模型对比

本周排名本周模型所属公司本周参数排名变化上周排名上周模型所属公司上周参数
1U2-Med云知声智能科技股份有限公司72.9持平1U2-Med云知声智能科技股份有限公司72.9
2京医千询京东健康72.6持平2京医千询京东健康72.6
3卓睦鸟医疗大模型广州中康数字科技有限公司72.1持平3卓睦鸟医疗大模型广州中康数字科技有限公司72.1
4千问健康大模型千问C端71.2持平4千问健康大模型千问C端71.2
5华为云健康管理大模型Huawei71.0持平5华为云健康管理大模型Huawei71.0
6ME-baseMeta Emergence Laboratory70.4持平6ME-baseMeta Emergence Laboratory70.4
7WiseDiag v2杭州智诊科技有限公司69.8持平7WiseDiag v2杭州智诊科技有限公司69.8
8微医医疗大模型微医68.2持平8微医医疗大模型微医68.2
9AntAngelMedMedAIBase68.0持平9AntAngelMedMedAIBase68.0
10UniGPT-Med-U1云知声智能科技股份有限公司65.7持平10UniGPT-Med-U1云知声智能科技股份有限公司65.7

本周榜单主要变化

  • 无重大变化
AGENT-NATIVE DATABASE

Agent 原生数据库

01 · 这是什么

TL;DR · pandadataskill.md

本站底层是一个面向 AI Agent 开放的实时榜单数据库,涵盖两类数据:OpenRouter 的周度模型调用量、厂商份额与细分统计数据(编程 / 工具调用 / 图像),以及与周报同源的 15 张外部基准榜单的多期快照(LMArena 文本 / 代码 / 图像编辑 / 文生图、Artificial Analysis、SWE-bench、LiveCodeBench、GPQA、HLE、FrontierMath、GAIA、OpenCompass、MedBench)。全部以只读 SQL + MCP 的形式开放,任何支持 MCP 的 Agent 都能直接查询。下面的两张演示图,就是用这个库画出来的。

数据库每天 08:00(北京时间)自动更新一次;但各数据源有自己的发布节奏,因此各表可用数据的新鲜度以数据源自身的更新时间为准。

如果不想往下读的话,直接甩给你的 agents:

⬇  下载 pandadataskill.md

02 · 用同一个库,你可以——

两个演示 · 数据均来自本库
演示 A · 还原

Top Models 周度调用量

你可以还原一个 OpenRouter 上的视图。

演示 B · 跨库自创

基准排名 × 真实使用量

你也可以把能力榜单表OpenRouter 调用量表跨库 JOIN——横轴 = 基准得分,纵轴 = 近 30 天调用量(对数)。跑分高的模型,真的有人用吗?

💡 同一个库,你还可以画——

model_activity 算推理 token ÷ 回答 token,看哪些模型真的在"思考"(有的推理量是答案的 3 倍,有的几乎为零);用输入:输出比例给负载画像——50:1 是文档抽取型,5:1 更像对话;用 rankings_market_share 画 52 周中外厂商份额拉锯;用 model_apps_daily 看一个模型的流量是被少数大应用"承包"还是长尾开发者撑起;或用 models 按发布时间画上下文军备竞赛——1M+ token 的模型已超过 70 个。

03 · 让你的 Agent 直接访问数据库(MCP)

Agent-native · Model Context Protocol

本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对自动刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。

两个库均每天 08:00(北京时间)自动刷新:OpenRouter 调用量库(周榜 / 厂商份额 / 编程榜 + 每日 token 量 + 每个模型的供应商、定价、吞吐与延迟、可用率、Top 应用),以及能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准)。完整表结构随时调用 openrouter_schema() / leaderboards_schema() 获取。

① 一行接入(Claude Code)

claude mcp add --transport http panda https://pandaleaderboard.com/mcp/

② 或写入 MCP 配置(Claude Desktop / Cursor)

{
  "mcpServers": {
    "panda": { "url": "https://pandaleaderboard.com/mcp/" }
  }
}

③ 可用工具

  • query_openrouter(sql) — 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。
  • openrouter_schema() — 列出所有表与字段(先调用它了解结构)。
  • openrouter_freshness() — 查看最新数据周与各表行数。
  • query_leaderboards(sql) — 对能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准表的多期快照)执行只读 SQL。上面的「演示 B」就是这个库和调用量库跨库 JOIN 画出来的。
  • leaderboards_schema() — 列出能力榜单库的表与字段。
  • leaderboards_freshness() — 查看各基准表的最新快照日期。
  • report_top_models() / report_market_share() — 复现本站「周报」页所用的近 7 天滚动口径(与官方 Mon–Sun 完整周不同)。

④ 示例:让 Agent 查询本周调用量榜首

SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;

完整字段、新鲜度语义与更多 SQL 配方见 pandadataskill.md(即上方可下载的手册)。接口开放、无需鉴权;所有工具调用(工具名 + SQL + 调用方)会被记录用于使用分析。

Research

Research · 数据研究专题

基于 OpenRouter 自有数据的研究专题集合。每个区块是一个可独立展开 / 收起的分析模块;更多专题将陆续加入。

Token 经济学 · OpenRouter
DeepSeek 斩杀线 · 价格 × 真实用量
把价格压平后,看开发者真正把 token 投给了谁。含 Value Map · 四象限、斩杀线挑战、平台概览与用量 / 排行 / 份额。
数据加载中…
Token 经济学 · 后验主义

把价格这层外衣拿掉,开发者到底会选哪个模型?
DeepSeek 斩杀线:低价 + 可用 + 稳定,正在把全市场价格参照系往下拉。

我们不先争论谁更强,而是把复杂变量收敛到两个可观测量:价格(一次标准调用要花多少钱)与用量(开发者实际把多少 token 投在它身上)。下方分析方法借鉴 ZenMux 的「斩杀线」框架,但数据全部来自 OpenRouter 自有表,并在末尾与 ZenMux 的结论作对照。

① 归一化用量 Um
median近14日(日 token)
近 14 个完整日里,model_activity 的中位日真实用量(B tokens/日)。规避单日尖峰。
② 归一化价格 Pm
100K·pin + 1K·pout
标准价格篮 = 100K 输入 + 1K 输出(贴合 Coding/Agent 输入重场景),价格取自 model_pricing_history 最新快照($/篮)。
③ 价值 Value
Um / Pm
每花掉 $1 标准调用成本,模型承载多少真实日用量。

Value Map · 四象限日度 · 近14日 · 截至

横轴 = 归一化价格 Pm(对数轴,$/标准篮),纵轴 = 中位日真实用量 Um。虚线为价格中位数与用量中位数,把模型分成四个象限。

低价 + 高用量 · 真正的 value play不是单纯便宜,而是在低价下吃到了非常大的真实用量。
高价 + 高用量 · premium demand贵,但凭能力、稳定性与开发者信任,关键任务里用户依然买单。
低价 + 低用量 · 便宜但暂未被选择价格打下来了,但还没把用户真正打动。
高价 + 低用量 · 最危险区贵,却没有足够真实需求支撑;定价必须回答「贵在哪里」。

数据:OpenRouter model_pricing_history(最新快照)× model_activity(近 14 个完整日)。方法借鉴 ZenMux 斩杀线框架,数据为 OpenRouter 自有;价格按 100K:1K 标准篮归一化,已剔除异常报价。

斩杀线挑战 · 把价格对齐到 DeepSeek日度 · 近14日 · 截至

规则:归一化价格高于 V4 Pro → 打折到 V4 Pro;介于 V4 Pro 与 V4 Flash 之间 → 打折到 V4 Flash;本就更便宜 → 保持原价。价格压平后,只看谁真正留得住 token。锚点价格由 OpenRouter 实测定价得出。

模型对齐锚点归一化价格变化降价幅度

数据:OpenRouter model_pricing_history。锚点 DeepSeek V4 Flash / V4 Pro 价格为 OpenRouter 实测,非外部研究值。

平台概览

OpenRouter 上的 token 处理总量与活跃度,分别给出周度(完整周)与日度(最近完整日 / 近 7 日)口径。

周度 完整周 · 截至
日度 截至

模型用量趋势周度 · 截至 本周至今 ·

头部模型的周 token 消耗(B tokens)随时间堆叠;最右一列为「本周至今」的日度增量(半透明)。颜色源自 Panda 厂商色板。

模型排行周度 · 截至

按 token 消耗排序的头部模型。

厂商份额周度 · 截至

按模型厂商(maker)划分的 token 消耗占比,100% 堆叠随时间。

数据源:OpenRouter explorer JSON(服务端每日构建,周度)+ analytics-live.json(直读 OpenRouter 数据表,日度)。「斩杀线」分析方法借鉴 ZenMux 研究,数据全部为 OpenRouter 自有。

04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。