Panda Leaderboard · 大模型榜单中心

本周报会在每周五进行更新

1.1 本周榜单变化总览

数据采集 · 本周 2026-06-05 → 2026-06-11 · 20 张榜单 / 10 有变化
20 张榜单本周主要变动对比周期:本周 2026-06-05 → 2026-06-11 vs 上周 2026-05-29 → 2026-06-04
榜单名称本周主要变动模型
LMArena 文本竞技场Claude Fable 5 空降榜首、Opus 4.8-thinking 新上榜第 9;GPT-5.4-high、Gemini 3.5 Flash 跌出前十
LMArena 代码竞技场Claude Fable 5 空降榜首、Opus 4.8 / 4.8-thinking 新上榜;Opus 4.6 系列、Qwen 3.7 Max、GLM-5.1 集体降 3 位
LMArena 图像编辑竞技场无重大变化
LMArena 文生图竞技场无重大变化
LMArena Agent ArenaClaude Fable 5 (High)、GPT 5.5 (xHigh) 新上榜居前二;GPT 5.4 (High) 降 3 位
Artificial Analysis 图像编辑无重大变化
Artificial Analysis 文生图HiDream-O1-Image 新上榜第 3,Seedream 4.0 跌出前十
GPQA无重大变化
MedBench无重大变化
OpenCompass LLM无重大变化
OpenCompass 多模态榜单大幅重排,Qwen3.7-Plus 空降榜首,前十近乎全员新上榜
LiveCodeBench GSO无重大变化
HuggingFace GAIA无重大变化
Scale HLE无重大变化
Epoch FrontierMathClaude Opus 4.8 (max) 新上榜第 6,Opus 4.6 (32k) 跌出前十
SWE-bench无重大变化
OpenRouter 模型调用量榜单MiniMax M3 大幅上升 5 位至第 3,Claude Opus 4.8 新上榜
OpenRouter 厂商调用量榜单minimax 升至第 4、tencent 升至第 3,nvidia 重回榜单
OpenRouter 编程调用量榜单MiniMax M3 空降第 2,Opus 4.7 降 5 位,Opus 4.8 新上榜
OpenRouter 模型吞吐量榜单Llama 3.1 8B Instruct 新上榜,o3 Mini 跌出前十

1.2 本周大模型行业重要动态

监控窗口 · 2026-06-05 至 2026-06-12 · 总追踪厂商 21 家 · 核心进展 4 条(来自 3 家公司)
01
Anthropic

2026-06-09 Anthropic 正式发布 Claude Fable 5 及受限版 Mythos 5,二者共享同一底座,Fable 5 内置安全护栏,敏感查询回退至 Opus 4.8,在软件工程、知识工作、视觉等基准上达到行业领先

来源 · anthropic.com
02
Google

2026-06-10 Google 开源实验性模型 DiffusionGemma,基于 Gemma 4 与 Gemini Diffusion 研究,采用 26B MoE 架构和扩散输出头,单次前向传播可并行生成 256 个 token,在 GPU 上文本生成速度最高提升 4 倍,主打低延迟本地交互式工作流

来源 · blog.google
03
Google

2026-06-05 Google 发布 Gemma 4 量化感知训练(QAT)版本,并推出面向移动端的专用量化格式,通过将量化融入训练过程降低内存占用、减少质量损失,E2B 移动端格式可将内存占用降至约 1GB,适配手机与消费级 GPU 本地部署

来源 · blog.google
04
小米

2026-06-09 小米与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,在通用 GPU 上首次让万亿参数模型推理速度突破 1000 tokens/s,采取申请制限时开放 API,定价为 Pro 版 3 倍但输出速度提升约 10 倍

信息来源优先级说明:本报告所有来源均按 S→A→B→C→D 优先级严格筛选,优先采用官方一手来源。

二、OpenRouter 分析

OpenRouter 平台调用量与性能

数据采集 · 本周 2026-06-05 → 2026-06-11 · 对照周期 · 上周 2026-05-29 → 2026-06-04

2.1 本周 OpenRouter 重点关注报告周期 · 本周 2026-06-05 → 2026-06-11对照周期 · 上周 2026-05-29 → 2026-06-04
  • 本周重点关注 1|MiniMax M3 次周放量成最大赢家,开源高性能模型加速放量:M3 本周近三倍增长、跃升 5 位至调用量榜第三,并在编程榜空降第二(1559B 逼近榜首),独力推动 MiniMax 厂商总量爆发增长 121%。其综合性能居全榜前列、编程占比高达 62%,外部测评显示编程与 Agent 能力逼近闭源旗舰,精准切入开发者市场。但增长高度依赖单一新品与上线高峰,且 P/C、top5 集中度偏高,定价回归常态后的留存表现是后续观察重点。
  • 本周重点关注 2|中国低价阵营整体放量,头部价格战格局稳固:调用量榜前四中国模型占三席且全线大幅放量——DeepSeek V4 Flash(+55%)、V4 Pro(+54%)双模型同向走强推动 DeepSeek 厂商增长 44% 稳居榜首,腾讯 Hy3 凭全榜最低输入价 +52% 升至厂商第三。低价仍是中国厂商抢占调用量的核心抓手,而小米 MiMo 输入价已低于 Hy3,最低价心智争夺持续升温。
  • 本周重点关注 3|Anthropic 完成旗舰代际切换,厂商总量明显修复:新旗舰 Opus 4.8 站稳新入榜并放量 44%,凭借全榜最强的智能(61)、编程(57)、Agent(78)性能及"代码自查诚实度"大幅改善承接高端需求;上一代 Opus 4.7 同步回升 31%,新旧旗舰共同放量带动 Anthropic 厂商总量回升 26%,旗舰换代阵痛基本消化,高端标杆地位稳固。
OpenRouter 子榜单 · 2.2 模型调用量 / 2.3 厂商调用量 / 2.4 编程调用量 / 2.5 模型吞吐量

4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings

2.2 OpenRouter 模型调用量榜单分析 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10

排名模型厂商Tokens(T)WoW变化定性P/CR/Ctop5 App 集中度IntelligenceCodingAgenticProgramming %input price(USD)output price(USD)健康度风险提示
1DeepSeek: DeepSeek V4 Flashdeepseek4.50+55%[稳定]551.296528%47396124%0.0850.257无显著风险
2Tencent: Hy3 previewtencent4.10+52%[稳定]900.79511%42365626%0.0320.235无显著风险
3MiniMax: MiniMax M3minimax3.63+198%[排名大幅上升5位]1891.061040%55436962%0.1351.783无显著风险
4Xiaomi: MiMo-V2.5xiaomi3.02+30%[排名下降1位]1200.46268%363751N/A0.0130.279无显著风险
5Anthropic: Claude Sonnet 4.6anthropic2.17+23%[稳定]680.052741%44466231%1.31015.000无显著风险
6Owl Alphaopenrouter2.11+6%[排名下降2位]600.000074%N/AN/AN/AN/A0.0000.000头部应用集中风险,top5 集中度=74%
7DeepSeek: DeepSeek V4 Prodeepseek2.07+54%[稳定]861.990932%52476746%0.8002.937无显著风险
8Anthropic: Claude Opus 4.7anthropic1.84+31%[排名下降2位]750.021420%57537137%2.80225.000无显著风险
9Anthropic: Claude Opus 4.8anthropic1.34+44%[新上榜]620.034025%61577836%2.47825.000无显著风险
10DeepSeek: DeepSeek V3.2deepseek1.17+6%[稳定]290.114915%3235406%0.5101.076无显著风险

指标说明:P/C = 输入 token 总量 ÷ 输出 token 总量;R/C = 推理 token 总量 ÷ 输出 token 总量;top5 App 集中度 = 调用量前 5 应用的 token 之和 ÷ 该模型总 token;Programming % = 编程类调用量 ÷ 该模型总调用量。(均取最新一周 7 天数据)

本周关键模型分析(5 / 10 款模型附详细分析)

关键模型筛选:依据 Top 2、|WoW|>35%、排名变化≥3 位、新上榜四条标准,本周共标记 5 个关键模型:DeepSeek V4 Flash(Top 1、WoW +55%)、Tencent Hy3(Top 2、WoW +52%)、MiniMax M3(升 5 位、WoW +198%)、DeepSeek V4 Pro(WoW +54%)、Claude Opus 4.8(新上榜、WoW +44%)。

[DeepSeek V4 Flash]#1 → #1(排名不变)WoW 55%
  • 模型质量数据:P/C55R/C1.2965top5 App 集中度28%Intelligence47Coding39Agentic61Input Price0.085Output Price0.257
  • 本周变化分析:V4 Flash 本周放量逾五成、稳守榜首,延续了"性能够用、价格极低"的制胜组合。其综合性能在前十中居于中段,本身并不突出,但输入价 0.085、输出价 0.257 同处全榜最低梯队,且近两周持续单边小幅降价、节奏稳定无反弹,显示 DeepSeek 仍以低价主动巩固份额。增长质量也很扎实——R/C 高达 1.30、top5 集中度仅 28%,调用来自分散的真实需求而非单一应用刷量。在 M3 强势放量分流的背景下,它依旧是低价格局中最稳健的头部资产。
[Tencent Hy3 preview]#2 → #2(排名不变)WoW 52%
  • 模型质量数据:P/C90R/C0.7951top5 App 集中度1%Intelligence42Coding36Agentic56Input Price0.032Output Price0.235
  • 本周变化分析:Hy3 本周同步放量逾五成、稳居第二,是典型的"极致低价走量"模型。其性能在前十中偏中下,核心竞争力完全押注价格——输入价 0.032 为全榜最低、输出价 0.235 仅次于免费的 Owl,并提供免费版本,价格心智牢固。需求结构极为健康,top5 集中度仅 1%、全榜最分散,几乎不存在头部依赖风险。真正值得警惕的是同为极致低价的小米 MiMo——其输入价 0.013 已低于 Hy3,对后者赖以立足的"最低价"定位构成直接挑战,后续需关注价格优势是否被侵蚀。
[MiniMax M3]#8 → #3(排名大幅上升 5 位)WoW 198%
  • 模型质量数据:P/C189R/C1.0610top5 App 集中度40%Intelligence55Coding43Agentic69Input Price0.135Output Price1.783
  • 本周变化分析:M3 本周近三倍放量、跃升 5 位至第三,是本周最大赢家。作为 6 月 1 日新发的开源权重模型,其综合性能在前十中位居前列(Intelligence 55、Agentic 69 均排第三,仅次两款 Opus),高达 62% 的 Programming 占比印证了其强编程定位获专业用户认可,外部测评亦显示其 SWE-Bench Pro 表现逼近闭源旗舰。值得注意的是,上线次周其输入、输出价较首周明显回落(输出价由 2.22 降至 1.78),延续"引流低价、随后微调"的发现期路径;P/C 高达 189、top5 集中度 40% 偏高,增量较依赖少数头部应用,留存仍需观察。
[DeepSeek V4 Pro]#7 → #7(排名不变)WoW 54%
  • 模型质量数据:P/C86R/C1.9909top5 App 集中度32%Intelligence52Coding47Agentic67Input Price0.800Output Price2.937
  • 本周变化分析:V4 Pro 本周放量逾五成、稳守第七,与同门 V4 Flash 形成高低搭配的同向走强。作为 DeepSeek 的中高端定位,其性能在前十中处于上游(Intelligence 52、Agentic 67),而定价仅为两款 Opus 的零头,在"性能相近、价格更优"的中高端区间性价比突出。本周输出价由 3.02 进一步小幅下探至 2.937,延续温和降价节奏。R/C 接近 2.0,显示推理型调用占比高、需求质量扎实,增长更多源于性价比释放而非短期刺激,可持续性较强。
[Claude Opus 4.8]新上榜 → #9WoW 44%
  • 模型质量数据:P/C62R/C0.0340top5 App 集中度25%Intelligence61Coding57Agentic78Input Price2.478Output Price25.000
  • 本周变化分析:Opus 4.8 作为新一代旗舰新入榜、放量四成,增长源于性能优势。其 Intelligence 61、Coding 57、Agentic 78 三项均为前十榜首,是全榜综合性能最强的模型,外部测评显示其 SWE-Bench Pro 较前代提升近 5 个百分点、并主打"代码自查诚实度"大幅改善,对高端用户构成严格升级。不过本周其输入价由上线初期的约 1.92 回升至 2.478、输出价仍锁定 25.0,定价偏刚性;R/C 仅 0.03、调用高度集中于少数高价值场景,增长主要来自对价格不敏感的高端需求,能否在上线高峰后稳住位置取决于高端场景对性能溢价的持续买单意愿。

2.3 OpenRouter 厂商调用量榜单分析 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:openrouter.ai/rankings · 厂商按 token 调用量

排名厂商最近两周上榜模型数本周总量 (T)总量 WoW关键观察厂商内部模型变动简述
1deepseek37.92+44%总量稳定增长内部模型阵容稳定
2anthropic36.42+26%总量稳定增长新入榜模型:Anthropic: Claude Opus 4.8
3tencent14.10+52%总量爆发增长内部模型阵容稳定
4minimax14.08+121%总量爆发增长内部模型阵容稳定
5google04.03-1%总量下滑内部模型无变动
6xiaomi23.59+2%总量稳定增长跌出模型:Xiaomi: MiMo-V2.5-Pro
7openai02.29+2%总量稳定增长内部模型无变动
8openrouter12.11+6%总量稳定增长内部模型阵容稳定
9nvidia01.24+61%总量爆发增长内部模型无变动

关键厂商筛选:依据 Top 2、|WoW|>35%、排名变化≥3 位、新上榜四条标准,本周共标记 5 个关键厂商:deepseek(Top 1)、anthropic(Top 2)、tencent(WoW +52%、升 2 位)、minimax(WoW +121%、升 4 位)、nvidia(WoW +61%、重回榜单)。

本周关键厂商分析(5 家关键厂商)
deepseek

稳居榜首,本周总量 7.92T、增长 44%,由三款模型同向驱动——V4 Flash 守住模型榜第一并 +55%、V4 Pro +54%、V3.2 平稳,全线健康放量,无内部此消彼长迹象。受益于覆盖低价到中高端的完整阵容与持续温和降价,其在低价竞争格局中的领先优势进一步扩大。

anthropic

位列第二,总量 6.42T、增长 26%,本周一改上周下滑、明显修复。核心是新旗舰 Opus 4.8 站稳新入榜并 +44%、上一代 Opus 4.7 同步回升 31%,新旧旗舰共同放量、叠加 Sonnet 4.6 增长,旗舰代际切换的阵痛基本消化,高端标杆地位稳固。

tencent

升至第三,总量 4.10T、爆发增长 52%,几乎完全由单一模型 Hy3 preview 拉动。Hy3 凭借全榜最低输入价与极分散的需求结构持续走量,使腾讯以"单点极致低价"模式在头部站稳,但总量高度依赖这一款模型。

minimax

跃居第四,总量 4.08T、爆发增长 121%,增长几乎全部来自新模型 M3 的次周放量(由约 1.2T 增至 3.6T),属典型单点新品驱动。后续总量能否延续,关键取决于 M3 在上线高峰退去、定价回归常态后的留存表现。

nvidia

重回榜单第九,总量 1.24T、爆发增长 61%,主要由免费旗舰 Nemotron-3-Ultra-550B(free)单周从近乎零放量至 0.74T 拉动,是典型的免费模型驱动型上升,增量质量与可持续性需结合后续是否收费来观察。

2.4 OpenRouter 编程调用量榜单 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1mimo-v2.5xiaomi2307持平1mimo-v2.5xiaomi1944
2minimax-m3minimax1559新上榜2claude-4.7-opusanthropic890
3deepseek-v4-flashdeepseek885上升2位3hy3-previewtencent844
4deepseek-v4-prodeepseek785上升4位4mimo-v2.5-proxiaomi821
5hy3-previewtencent772下降2位5deepseek-v4-flashdeepseek786
6step-3.7-flashstepfun543新上榜6claude-4.6-sonnetanthropic548
7claude-4.7-opusanthropic530下降5位7nemotron-3-super-120b-a12b:freenvidia480
8mimo-v2.5-proxiaomi467下降4位8deepseek-v4-prodeepseek479
9claude-4.8-opusanthropic422新上榜9kimi-k2.6moonshotai414

重大变化判断:本榜存在多处 |排名变化|≥3 及新上榜情况(Opus 4.7 降 5 位、V4 Pro 升 4 位、M3/Step-3.7-Flash/Opus 4.8 新上榜),判定为有重大变化,需展开分析。

  • 本周榜单主要变化
    • MiniMax M3 新上榜即空降第二(1559B),单周逼近榜首 MiMo-V2.5,成为编程榜最大黑马。
    • Claude Opus 4.7 大幅下降 5 位至第七,被新上榜的 Opus 4.8(第九)内部替代。
    • DeepSeek 双模型同向走强:V4 Pro 升 4 位至第四(479→785B)、V4 Flash 升 2 位至第三,编程份额显著扩大。
  • 可能原因
    • MiniMax M3 综合性能居前列、Programming 占比高达 62%,外部测评显示其编程与 Agent 能力逼近闭源旗舰,叠加新品上线高峰,迅速放量逼近榜首。
    • Anthropic 旗舰换代,编程用户由 Opus 4.7 迁移至性能全面更强的 Opus 4.8,造成 4.7 排名跳水、4.8 新入榜的代际替代。
    • DeepSeek V4 系列凭借持续降价与稳定性能,在编程这一高频付费场景中性价比优势进一步释放,带动双模型排名同步抬升。

2.5 OpenRouter 模型吞吐量 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:openrouter.ai/rankings · 吞吐量指标 · 本周 vs 上周 Top 9

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1gpt-oss-safeguard-20bopenai565上升1位1gpt-oss-120bopenai712
2gpt-oss-120bopenai544下降1位2gpt-oss-safeguard-20bopenai526
3Qwen3 32Bqwen432上升1位3Mercury 2inception426
4Mercury 2inception425下降1位4Qwen3 32Bqwen404
5GLM 4.7z-ai337上升1位5gpt-oss-20bopenai363
6gpt-oss-20bopenai253下降1位6GLM 4.7z-ai302
7Llama 3.1 8B Instructmeta-llama224新上榜7MiniMax M2.5minimax237
8MiniMax M2.5minimax213下降1位8MiniMax M2.7minimax196
9MiniMax M2.7minimax194下降1位9o3 Miniopenai177

重大变化判断:本榜头部仅发生 1 位以内的相邻位次互换,唯一的结构性变化是 Llama 3.1 8B Instruct 新上榜、o3 Mini 跌出榜单,判定为有重大变化。

  • 本周榜单主要变化
    • 吞吐榜整体格局保持稳定,头部仍由 OpenAI 的 gpt-oss 系列主导,仅发生 gpt-oss-safeguard-20b 与 gpt-oss-120b 的榜首互换等相邻位次微调。
    • 榜尾完成一轮更替:Llama 3.1 8B Instruct 新上榜补位,替代跌出的 o3 Mini,其余模型多较上周小幅回落。
三、其他榜单

其他榜单 — 16 张外部基准

数据采集 · 本周 2026-06-05 → 2026-06-11 · 对照周期 · 上周 2026-05-29 → 2026-06-04 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源

3.1 Text Arena 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://lmarena.ai/zh/leaderboard/text

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1claude-fable-5Anthropic1510新上榜1claude-opus-4-6-thinkingAnthropic1503
2claude-opus-4-6-thinkingAnthropic1504下降1位2claude-opus-4-7-thinkingAnthropic1500
3claude-opus-4-7-thinkingAnthropic1502下降1位3claude-opus-4-6Anthropic1498
4claude-opus-4-6Anthropic1498下降1位4claude-opus-4-7Anthropic1493
5claude-opus-4-7Anthropic1492下降1位5muse-sparkMeta1489
6muse-sparkMeta1487下降1位6gemini-3.1-pro-previewGoogle1488
7gemini-3.1-pro-previewGoogle1487下降1位7gemini-3-proGoogle1486
8gemini-3-proGoogle1486下降1位8gpt-5.5-highOpenAI1482
9claude-opus-4-8-thinkingAnthropic1486新上榜9gpt-5.4-highOpenAI1479
10gpt-5.5-highOpenAI1481下降2位10gemini-3.5-flashGoogle1477
  • 本周榜单主要变化
    • Claude Fable 5 新上榜即空降榜首(1510),Opus 4.8-thinking 新上榜第 9。
    • GPT-5.4-high 与 Gemini 3.5 Flash 跌出前十,GPT-5.5-high 降 2 位至第 10。
  • 可能原因
    • Anthropic 于 6 月 9 日发布 Mythos 级公开模型 Claude Fable 5,在近乎全部能力测评中达 SOTA,盲测偏好遥遥领先,直接登顶文本竞技场。
    • 头部新旗舰集中入榜抬高前十门槛,原处榜尾的 OpenAI、Google 模型在偏好竞争中被挤出。

3.2 Code Arena 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://arena.ai/leaderboard/code/webdev

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1claude-fable-5Anthropic1665新上榜1claude-opus-4-7-thinkingAnthropic1566
2claude-opus-4-7-thinkingAnthropic1566下降1位2claude-opus-4-7Anthropic1558
3claude-opus-4-8-thinkingAnthropic1559新上榜3claude-opus-4-6-thinkingAnthropic1542
4claude-opus-4-7Anthropic1557下降2位4claude-opus-4-6Anthropic1537
5claude-opus-4-8Anthropic1543新上榜5qwen3.7-maxAlibaba1536
6claude-opus-4-6-thinkingAnthropic1542下降3位6glm-5.1Z.ai1532
7claude-opus-4-6Anthropic1539下降3位7minimax-m3MiniMax1531
8qwen3.7-maxAlibaba1534下降3位8claude-sonnet-4-6Anthropic1522
9glm-5.1Z.ai1532下降3位9kimi-k2.6Moonshot1517
10claude-sonnet-4-6Anthropic1523下降2位10muse-sparkMeta1508
  • 本周榜单主要变化
    • Claude Fable 5 空降榜首(1665),Opus 4.8-thinking、Opus 4.8 双双新上榜居第 3、5 位。
    • Opus 4.6-thinking、Opus 4.6、Qwen 3.7 Max、GLM-5.1 集体下降 3 位;MiniMax M3、Kimi-k2.6 跌出前十。
  • 可能原因
    • Claude Fable 5 在软件工程上表现尤为突出,官方称代码竞技场 1665 分大幅领先 GPT-5.5,叠加 Opus 4.8 系列同期入榜,Anthropic 在代码榜形成集团式垄断。
    • 三款新旗舰挤入前五,对原中游的 Opus 4.6 系列与中国模型形成明显挤压,整体排名顺位后移。

3.3 Agent Arena 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://lmarena.ai/leaderboard/agent

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Claude Fable 5 (High)Anthropic12.9%新上榜1Claude Fable 5Anthropic11.2%
2GPT 5.5 (xHigh)OpenAI10.6%新上榜2Claude Opus 4.7 (Thinking)Anthropic9.1%
3Claude Opus 4.8 (Thinking)Anthropic9.3%持平3Claude Opus 4.8 (Thinking)Anthropic9.0%
4Claude Opus 4.7 (Thinking)Anthropic8.6%下降2位4GPT 5.5 (High)OpenAI8.8%
5GPT 5.5 (High)OpenAI8.2%下降1位5GPT 5.4 (High)OpenAI8.0%
6Claude Opus 4.6Anthropic8.0%持平6Claude Opus 4.6Anthropic7.9%
7Claude Opus 4.7Anthropic7.6%上升1位7GPT 5.5OpenAI7.8%
8GPT 5.4 (High)OpenAI7.3%下降3位8Claude Opus 4.7Anthropic7.7%
9GPT 5.5OpenAI7.1%下降2位9Claude Opus 4.8Anthropic4.8%
10Claude Opus 4.8Anthropic4.8%下降1位10Claude Sonnet 4.6Anthropic4.0%
  • 本周榜单主要变化
    • Claude Fable 5 (High) 与 GPT 5.5 (xHigh) 新上榜占据前二,将原榜首 Claude Fable 5 顺位下挤。
    • GPT 5.4 (High) 下降 3 位至第 8,Claude Sonnet 4.6 跌出前十。
  • 可能原因
    • Claude Fable 5 在长程复杂任务上优势随任务难度放大,其 High 档变体在 Agent 评测中以 12.9% 居首,进一步巩固 Anthropic 在智能体场景的领先。
    • 头部新档位入榜推高门槛,原中游 GPT-5.4 与 Sonnet 4.6 在智能体任务竞争中相对承压。

3.4 LiveCodeBench 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://livecodebench.github.io/gso.html

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Claude Opus 4.7Anthropic44.1持平1Claude Opus 4.7Anthropic44.1
2Claude Opus 4.6Anthropic41.2持平2Claude Opus 4.6Anthropic41.2
3GPT 5.5OpenAI40.2持平3GPT 5.5OpenAI40.2
4Claude Opus 4.6Anthropic33.3持平4Claude Opus 4.6Anthropic33.3
5GPT 5.4OpenAI31.4持平5GPT 5.4OpenAI31.4
6GPT 5.2OpenAI27.4持平6GPT 5.2OpenAI27.4
7Claude Opus 4.5Anthropic26.5持平7Claude Opus 4.5Anthropic26.5
8GPT 5.4OpenAI25.5持平8GPT 5.4OpenAI25.5
9Gemini 3.1 ProGoogle22.6持平9Gemini 3.1 ProGoogle22.6
10Gemini 3 ProGoogle18.6持平10Gemini 3 ProGoogle18.6
  • 本周榜单主要变化无重大变化

3.5 SWE-bench 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://www.swebench.com/

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Claude 4.5 Opus (high reasoning)Anthropic76.8%持平1Claude 4.5 Opus (high reasoning)Anthropic76.8%
2Gemini 3 Flash (high reasoning)Google75.8%持平2Gemini 3 Flash (high reasoning)Google75.8%
3MiniMax M2.5 (high reasoning)MiniMax75.8%持平3MiniMax M2.5 (high reasoning)MiniMax75.8%
4Claude Opus 4.6Anthropic75.6%持平4Claude Opus 4.6Anthropic75.6%
5GPT-5-2 CodexOpenAI72.8%持平5GPT-5-2 CodexOpenAI72.8%
6GLM-5 (high reasoning)Z.ai72.8%持平6GLM-5 (high reasoning)Z.ai72.8%
7GPT-5-2 (high reasoning)OpenAI72.8%持平7GPT-5-2 (high reasoning)OpenAI72.8%
8GPT 5.2 CodexOpenAI72.8%持平8GPT 5.2 CodexOpenAI72.8%
9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%持平9Claude 4.5 Sonnet (high reasoning)Anthropic71.4%
10Kimi K2.5 (high reasoning)Moonshot70.8%持平10Kimi K2.5 (high reasoning)Moonshot70.8%
  • 本周榜单主要变化无重大变化

3.6 Image Edit Arena 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://lmarena.ai/leaderboard/image-edit

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1465持平1gpt-image-2 (medium)OpenAI1465
2mai-image-2.5Microsoft AI1401持平2mai-image-2.5Microsoft AI1401
3chatgpt-image-latest-high-fidelityOpenAI1390持平3chatgpt-image-latest-high-fidelityOpenAI1390
4grok-imagine-image-qualityxAI1388持平4grok-imagine-image-qualityxAI1388
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1388
6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387持平6gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1387
7gemini-3-pro-image-preview (nano-banana-pro)Google1385持平7gemini-3-pro-image-preview (nano-banana-pro)Google1385
8gpt-image-1.5-high-fidelityOpenAI1373持平8gpt-image-1.5-high-fidelityOpenAI1373
9reve-2.0Reve1356持平9reve-2.0Reve1356
10grok-imagine-image-qualityxAI1355持平10grok-imagine-image-qualityxAI1355
  • 本周榜单主要变化无重大变化

3.7 Text-to-Image Arena 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://lmarena.ai/zh/leaderboard/text-to-image

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1gpt-image-2 (medium)OpenAI1385持平1gpt-image-2 (medium)OpenAI1384
2reve-2.0Reve1273持平2reve-2.0Reve1280
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269持平3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1269
4mai-image-2.5Microsoft AI1253持平4mai-image-2.5Microsoft AI1254
5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245持平5gemini-3-pro-image-preview-2k (nano-banana-pro)Google1245
6gpt-image-1.5-high-fidelityOpenAI1241持平6gpt-image-1.5-high-fidelityOpenAI1242
7grok-imagine-image-qualityxAI1234持平7grok-imagine-image-qualityxAI1232
8gemini-3-pro-image-preview (nano-banana-pro)Google1232持平8gemini-3-pro-image-preview (nano-banana-pro)Google1232
9ideogram-4.0-qualityIdeogram1204持平9ideogram-4.0-qualityIdeogram1204
10uni-1.1-maxLuma AI1191持平10uni-1.1-maxLuma AI1191
  • 本周榜单主要变化无重大变化

3.8 AA Image Editing 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://artificialanalysis.ai/image/leaderboard/editing

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1GPT Image 1.5 (high)OpenAI1264持平1GPT Image 1.5 (high)OpenAI1266
2GPT Image 2 (high)OpenAI1259持平2GPT Image 2 (high)OpenAI1259
3Nano Banana Pro (Gemini 3 Pro Image)Google1251持平3Nano Banana Pro (Gemini 3 Pro Image)Google1251
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1246持平4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1246
5grok-imagine-image-qualityxAI1237持平5grok-imagine-image-qualityxAI1240
6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1230持平6HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1233
7Luma UNI 1 MaxLuma Labs1222持平7Luma UNI 1 MaxLuma Labs1221
8grok-imagine-imagexAI1220持平8grok-imagine-imagexAI1221
9Kling Image 3.0 OmniKlingAI1219持平9Kling Image 3.0 OmniKlingAI1218
10FLUX.2 [max]Black Forest Labs1214持平10FLUX.2 [max]Black Forest Labs1216
  • 本周榜单主要变化无重大变化

3.9 AA Text-to-Image 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://artificialanalysis.ai/image/leaderboard/text-to-image

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1GPT Image 2 (high)OpenAI1339持平1GPT Image 2 (high)OpenAI1341
2GPT Image 1.5 (high)OpenAI1266持平2GPT Image 1.5 (high)OpenAI1266
3HiDream-O1-Image-1.5HiDream1264新上榜3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1261
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1258下降1位4Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1241
5Cosmos3-Super-Text2Image (agentic)Open WeightsNVIDIA1236下降1位5Nano Banana Pro (Gemini 3 Pro Image)Google1221
6Nano Banana Pro (Gemini 3 Pro Image)Google1219下降1位6Krea 2 MediumKrea1209
7Krea 2 MediumKrea1209下降1位7Recraft V4.1 Utility ProRecraft1205
8grok-imagine-image-qualityxAI1204持平8grok-imagine-image-qualityxAI1205
9Recraft V4.1 Utility ProRecraft1204下降2位9Recraft V4.1 UtilityRecraft1197
10Recraft V4.1 UtilityRecraft1197下降1位10Seedream 4.0ByteDance Seed1195
  • 本周榜单主要变化
    • HiDream-O1-Image 新上榜位列第 3,Seedream 4.0 跌出前十,其余模型普遍下降 1 位。
  • 可能原因
    • HiDream-ai 开源的 8B 像素原生统一模型 HiDream-O1-Image 凭借无 VAE 的统一 Transformer 架构与推理式提示代理,在多项文生图指标上超越数倍参数量的模型,成为榜上最强开源权重模型。

3.10 前沿数学 (FrontierMath) 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://epoch.ai/frontiermath/tiers-1-4

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1GPT-5.5 Pro (high)OpenAI52.4%持平1GPT-5.5 Pro (high)OpenAI52.4%
2GPT-5.5 (xhigh)OpenAI51.7%持平2GPT-5.5 (xhigh)OpenAI51.7%
3GPT-5.5 Pro (xhigh)OpenAI51.0%持平3GPT-5.5 Pro (xhigh)OpenAI51.0%
4GPT-5.4 Pro (xhigh)OpenAI50.0%持平4GPT-5.4 Pro (xhigh)OpenAI50.0%
5GPT-5.4 (xhigh)OpenAI47.6%持平5GPT-5.4 (xhigh)OpenAI47.6%
6Claude Opus 4.8 (max)Anthropic47.2%新上榜6Claude Opus 4.7 (xhigh)Anthropic43.8%
7Claude Opus 4.7 (xhigh)Anthropic43.8%下降1位7Claude Opus 4.6 (max)Anthropic40.7%
8Claude Opus 4.6 (max)Anthropic40.7%下降1位8GPT-5.2 (xhigh)OpenAI40.7%
9GPT-5.2 (xhigh)OpenAI40.7%下降1位9GPT-5.2 (high)OpenAI40.3%
10GPT-5.2 (high)OpenAI40.3%下降1位10Claude Opus 4.6 (32k thinking)Anthropic40.0%
  • 本周榜单主要变化
    • Claude Opus 4.8 (max) 新上榜位列第 6(47.2%),Claude Opus 4.6 (32k thinking) 跌出前十。
  • 可能原因
    • Anthropic 旗舰 Opus 4.8 的数学推理能力较前代提升,max 档以 47.2% 入榜并超越同门 Opus 4.7,将榜尾的旧版 Opus 4.6 (32k) 挤出前十。

3.11 HLE 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://scale.com/leaderboard/humanitys_last_exam

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1gemini-3.1-pro-preview (thinking high)Google46.4持平1gemini-3.1-pro-preview (thinking high)Google46.4
2gpt-5.4-pro-2026-03-05OpenAI44.3持平2gpt-5.4-pro-2026-03-05OpenAI44.3
3Muse SparkMeta40.6持平3Muse SparkMeta40.6
4gemini-3-pro-previewGoogle37.5持平4gemini-3-pro-previewGoogle37.5
5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2持平5gpt-5.4-2026-03-05 (xhigh thinking)OpenAI36.2
6claude-opus-4-7Anthropic36.2持平6claude-opus-4-7Anthropic36.2
7claude-opus-4-6-thinking-maxAnthropic34.4持平7claude-opus-4-6-thinking-maxAnthropic34.4
8gpt-5-pro-2025-10-06OpenAI31.6持平8gpt-5-pro-2025-10-06OpenAI31.6
9gpt-5.2-2025-12-11OpenAI27.8持平9gpt-5.2-2025-12-11OpenAI27.8
10gpt-5-2025-08-07OpenAI25.3持平10gpt-5-2025-08-07OpenAI25.3
  • 本周榜单主要变化无重大变化

3.12 Agent (GAIA) 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://huggingface.co/spaces/gaia-benchmark/leaderboard

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Co-Sight Pro v1.0.1ZTE-AICloud93.0持平1Co-Sight Pro v1.0.1ZTE-AICloud93.0
2OPS-Agentic-SearchAlibaba Cloud92.4持平2OPS-Agentic-SearchAlibaba Cloud92.4
3CustomGPT.ai Research Lab v41CustomGPT.ai92.0持平3CustomGPT.ai Research Lab v41CustomGPT.ai92.0
4Co-Sight Pro v1.0.0ZTE-AICloud92.0持平4Co-Sight Pro v1.0.0ZTE-AICloud92.0
5CustomGPT.ai Research Lab v43CustomGPT.ai92.0持平5CustomGPT.ai Research Lab v43CustomGPT.ai92.0
6AuraAiAI92.0持平6AuraAiAI92.0
7CustomGPT.ai Research Lab V42CustomGPT.ai92.0持平7CustomGPT.ai Research Lab V42CustomGPT.ai92.0
8openJiuwen-deepagentopenJiuwen91.7持平8openJiuwen-deepagentopenJiuwen91.7
9CustomGPT.ai Research Lab v39CustomGPT.ai91.7持平9CustomGPT.ai Research Lab v39CustomGPT.ai91.7
10CustomGPT.ai Research Lab v35CustomGPT.ai91.4持平10CustomGPT.ai Research Lab v35CustomGPT.ai91.4
  • 本周榜单主要变化无重大变化

3.13 GPQA 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://llm-stats.com/benchmarks/gpqa

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Claude Mythos PreviewAnthropic94.6持平1Claude Mythos PreviewAnthropic94.6
2Gemini 3.1 ProGoogle94.3持平2Gemini 3.1 ProGoogle94.3
3Claude Opus 4.7Anthropic94.2持平3Claude Opus 4.7Anthropic94.2
4Claude Opus 4.8Anthropic93.6持平4Claude Opus 4.8Anthropic93.6
5GPT-5.5OpenAI93.6持平5GPT-5.5OpenAI93.6
6GPT-5.2 ProOpenAI93.2持平6GPT-5.2 ProOpenAI93.2
7GPT-5.4OpenAI92.8持平7GPT-5.4OpenAI92.8
8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4持平8Qwen3.7 MaxAlibaba Cloud / Qwen Team92.4
9GPT-5.2OpenAI92.4持平9GPT-5.2OpenAI92.4
10Gemini 3 ProGoogle91.9持平10Gemini 3 ProGoogle91.9
  • 本周榜单主要变化无重大变化

3.14 国内 - 大语言模型 (OpenCompass) 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://rank.opencompass.org.cn/home

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1GPT-5.4-2026-03-05 (high)OpenAI67.3持平1GPT-5.4-2026-03-05 (high)OpenAI67.3
2DeepSeek-V4-ProDeepSeek65.1持平2DeepSeek-V4-ProDeepSeek65.1
3Claude Opus 4.7 (high)Anthropic64.0持平3Claude Opus 4.7 (high)Anthropic64.0
4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5持平4Doubao-Seed-2-0-Pro-260215 (high)ByteDance63.5
5Kimi-K2.6Moonshot63.4持平5Kimi-K2.6Moonshot63.4
6Gemini-3.1-Pro-PreviewGoogle63.2持平6Gemini-3.1-Pro-PreviewGoogle63.2
7Qwen3.6-Max-PreviewAlibaba60.8持平7Qwen3.6-Max-PreviewAlibaba60.8
8DeepSeek-V4-FlashDeepSeek60.4持平8DeepSeek-V4-FlashDeepSeek60.4
9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4持平9Doubao-Seed-2-0-Lite-260215 (high)ByteDance60.4
10GLM-5.1Zhipu AI59.0持平10GLM-5.1Zhipu AI59.0
  • 本周榜单主要变化无重大变化

3.15 国内 - 多模态 (OpenCompass) 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://rank.opencompass.org.cn/home

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1Qwen3.7-PlusAlibaba73.0新上榜1Gemini-3.1-Pro-PreviewGoogle66.6
2Gemini-3.1-Pro-PreviewGoogle72.6下降1位2Qwen3.5-397BAlibaba65.4
3Qwen3.5-397B-A17BAlibaba72.3新上榜3Doubao-Seed-2.0-Pro (medium)ByteDance63.2
4GPT-5.5 (high)OpenAI71.1新上榜4Kimi-k2.5Moonshot AI63.0
5Kimi-K2.6Moonshot AI70.6新上榜5SenseNova-V6-5-ProSenseTime55.6
6Doubao-Seed-2.0-Pro (high)ByteDance69.4新上榜6Claude-Opus-4-6Anthropic55.2
7SenseNova-6-7-Flash-AlphaSenseTime69.0新上榜7GLM4_6VZhipu AI52.5
8GLM-5V-TurboZhipu AI62.8新上榜8GPT-5.4OpenAI51.5
9Step-3.7-Flash (high)StepFun61.5新上榜9Step3-VL-10BStepFun48.8
10Gemma-4-31B-itGoogle56.3新上榜10Ovis2.6-30B-A3BAlibaba48.4
  • 本周榜单主要变化
    • 榜单整体大幅重排,Qwen3.7-Plus 空降榜首(73.0),前十仅 Gemini-3.1-Pro 留存,其余九席近乎全员新上榜。
    • 上周前十的 Kimi-k2.5、Claude-Opus-4-6、Step3-VL-10B、Ovis2.6 等多数模型集体跌出。
  • 可能原因
    • 本周多模态榜单整体分数大幅抬升(榜首由 66.6 升至 73.0),呈现典型的评测集更新或一批新模型集中纳入特征,带动前十成员与排名大面积更替。
    • 阿里 Qwen3.7-Plus、字节 Doubao-Seed-2.0-Pro、智谱 GLM-5V-Turbo 等新一代多模态模型集中上榜,反映国产多模态模型迭代密集、整体能力快速跃升。

3.16 国内 - 医疗 (MedBench) 数据采集 · 本周 2026-06-05 → 2026-06-11

来源:https://medbench.opencompass.org.cn/leaderboard?lang=zh-CN?lang=zh-CN

本周 · 本周 2026-06-05 → 2026-06-11上周 · 上周 2026-05-29 → 2026-06-04
排名模型公司指标变化排名模型公司指标
1京医千询京东健康72.6持平1京医千询京东健康72.6
2卓睦鸟医疗大模型广州中康数字科技有限公司72.1持平2卓睦鸟医疗大模型广州中康数字科技有限公司72.1
3千问健康大模型千问C端71.2持平3千问健康大模型千问C端71.2
4华为云健康管理大模型Huawei71.0持平4华为云健康管理大模型Huawei71.0
5WiseDiag v2杭州智诊科技有限公司69.8持平5WiseDiag v2杭州智诊科技有限公司69.8
6微医医疗大模型微医68.2持平6微医医疗大模型微医68.2
7AntAngelMedMedAIBase68.0持平7AntAngelMedMedAIBase68.0
8UniGPT-Med-U1云知声智能科技股份有限公司65.7持平8UniGPT-Med-U1云知声智能科技股份有限公司65.7
9惠每医疗大模型上海新创惠每科技有限公司60.0持平9惠每医疗大模型上海新创惠每科技有限公司60.0
10Grok-4xAI58.4持平10Grok-4xAI58.4
  • 本周榜单主要变化无重大变化
AGENT-NATIVE DATABASE

Agent 原生数据库

01 · 这是什么

TL;DR · pandadataskill.md

本站底层是一个面向 AI Agent 开放的实时榜单数据库,涵盖两类数据:OpenRouter 的周度模型调用量、厂商份额与分类榜单(编程 / 工具调用 / 图像 / 音频),以及与周报同源的 15 张外部基准榜单的多期快照(LMArena 文本 / 代码 / 图像编辑 / 文生图、Artificial Analysis、SWE-bench、LiveCodeBench、GPQA、HLE、FrontierMath、GAIA、OpenCompass、MedBench)。全部以只读 SQL + MCP 的形式开放,任何支持 MCP 的 Agent 都能直接查询。下面的两张演示图,就是用这个库画出来的。

数据库每天 08:00(北京时间)自动更新一次;但各数据源有自己的发布节奏,因此各表可用数据的新鲜度以数据源自身的更新时间为准。

如果不想往下读的话,直接甩给你的 agents:

⬇  下载 pandadataskill.md

02 · 用同一个库,你可以——

两个演示 · 数据均来自本库
演示 A · 还原

Top Models 周度调用量

你可以还原一个 OpenRouter 上的视图。

演示 B · 跨库自创

基准排名 × 真实使用量

你也可以把能力榜单表OpenRouter 调用量表跨库 JOIN——横轴 = 基准得分,纵轴 = 近 30 天调用量(对数)。跑分高的模型,真的有人用吗?

💡 同一个库,你还可以画——

model_activity 算推理 token ÷ 回答 token,看哪些模型真的在"思考"(有的推理量是答案的 3 倍,有的几乎为零);用输入:输出比例给负载画像——50:1 是文档抽取型,5:1 更像对话;用 rankings_market_share 画 52 周中外厂商份额拉锯;用 model_apps_daily 看一个模型的流量是被少数大应用"承包"还是长尾开发者撑起;或用 models 按发布时间画上下文军备竞赛——1M+ token 的模型已超过 70 个。

03 · 让你的 Agent 直接访问数据库(MCP)

Agent-native · Model Context Protocol

本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对自动刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。

① 一行接入(Claude Code)

claude mcp add --transport http panda https://pandaleaderboard.com/mcp/

② 或写入 MCP 配置(Claude Desktop / Cursor)

{
  "mcpServers": {
    "panda": { "url": "https://pandaleaderboard.com/mcp/" }
  }
}

③ 可用工具

  • query_openrouter(sql) — 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。
  • openrouter_schema() — 列出所有表与字段(先调用它了解结构)。
  • openrouter_freshness() — 查看最新数据周与各表行数。
  • query_leaderboards(sql) — 对能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准表的多期快照)执行只读 SQL。上面的「演示 B」就是这个库和调用量库跨库 JOIN 画出来的。
  • leaderboards_schema() — 列出能力榜单库的表与字段。
  • leaderboards_freshness() — 查看各基准表的最新快照日期。

④ 示例:让 Agent 查询本周调用量榜首

SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;
04 REPORT ARCHIVE

历史周报

过往周报归档,可按发布日期、模型或主题搜索。