| 榜单名称 | 本周主要变动模型 |
|---|---|
| LMArena 文本竞技场 | Claude Fable 5 空降榜首、Opus 4.8-thinking 新上榜第 9;GPT-5.4-high、Gemini 3.5 Flash 跌出前十 |
| LMArena 代码竞技场 | Claude Fable 5 空降榜首、Opus 4.8 / 4.8-thinking 新上榜;Opus 4.6 系列、Qwen 3.7 Max、GLM-5.1 集体降 3 位 |
| LMArena 图像编辑竞技场 | 无重大变化 |
| LMArena 文生图竞技场 | 无重大变化 |
| LMArena Agent Arena | Claude Fable 5 (High)、GPT 5.5 (xHigh) 新上榜居前二;GPT 5.4 (High) 降 3 位 |
| Artificial Analysis 图像编辑 | 无重大变化 |
| Artificial Analysis 文生图 | HiDream-O1-Image 新上榜第 3,Seedream 4.0 跌出前十 |
| GPQA | 无重大变化 |
| MedBench | 无重大变化 |
| OpenCompass LLM | 无重大变化 |
| OpenCompass 多模态 | 榜单大幅重排,Qwen3.7-Plus 空降榜首,前十近乎全员新上榜 |
| LiveCodeBench GSO | 无重大变化 |
| HuggingFace GAIA | 无重大变化 |
| Scale HLE | 无重大变化 |
| Epoch FrontierMath | Claude Opus 4.8 (max) 新上榜第 6,Opus 4.6 (32k) 跌出前十 |
| SWE-bench | 无重大变化 |
| OpenRouter 模型调用量榜单 | MiniMax M3 大幅上升 5 位至第 3,Claude Opus 4.8 新上榜 |
| OpenRouter 厂商调用量榜单 | minimax 升至第 4、tencent 升至第 3,nvidia 重回榜单 |
| OpenRouter 编程调用量榜单 | MiniMax M3 空降第 2,Opus 4.7 降 5 位,Opus 4.8 新上榜 |
| OpenRouter 模型吞吐量榜单 | Llama 3.1 8B Instruct 新上榜,o3 Mini 跌出前十 |
本周报会在每周五进行更新
1.1 本周榜单变化总览
数据采集 · 本周 2026-06-05 → 2026-06-11 · 20 张榜单 / 10 有变化1.2 本周大模型行业重要动态
监控窗口 · 2026-06-05 至 2026-06-12 · 总追踪厂商 21 家 · 核心进展 4 条(来自 3 家公司)2026-06-09 Anthropic 正式发布 Claude Fable 5 及受限版 Mythos 5,二者共享同一底座,Fable 5 内置安全护栏,敏感查询回退至 Opus 4.8,在软件工程、知识工作、视觉等基准上达到行业领先
2026-06-10 Google 开源实验性模型 DiffusionGemma,基于 Gemma 4 与 Gemini Diffusion 研究,采用 26B MoE 架构和扩散输出头,单次前向传播可并行生成 256 个 token,在 GPU 上文本生成速度最高提升 4 倍,主打低延迟本地交互式工作流
2026-06-05 Google 发布 Gemma 4 量化感知训练(QAT)版本,并推出面向移动端的专用量化格式,通过将量化融入训练过程降低内存占用、减少质量损失,E2B 移动端格式可将内存占用降至约 1GB,适配手机与消费级 GPU 本地部署
2026-06-09 小米与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed 模式,在通用 GPU 上首次让万亿参数模型推理速度突破 1000 tokens/s,采取申请制限时开放 API,定价为 Pro 版 3 倍但输出速度提升约 10 倍
信息来源优先级说明:本报告所有来源均按 S→A→B→C→D 优先级严格筛选,优先采用官方一手来源。
OpenRouter 平台调用量与性能
数据采集 · 本周 2026-06-05 → 2026-06-11 · 对照周期 · 上周 2026-05-29 → 2026-06-04
- 本周重点关注 1|MiniMax M3 次周放量成最大赢家,开源高性能模型加速放量:M3 本周近三倍增长、跃升 5 位至调用量榜第三,并在编程榜空降第二(1559B 逼近榜首),独力推动 MiniMax 厂商总量爆发增长 121%。其综合性能居全榜前列、编程占比高达 62%,外部测评显示编程与 Agent 能力逼近闭源旗舰,精准切入开发者市场。但增长高度依赖单一新品与上线高峰,且 P/C、top5 集中度偏高,定价回归常态后的留存表现是后续观察重点。
- 本周重点关注 2|中国低价阵营整体放量,头部价格战格局稳固:调用量榜前四中国模型占三席且全线大幅放量——DeepSeek V4 Flash(+55%)、V4 Pro(+54%)双模型同向走强推动 DeepSeek 厂商增长 44% 稳居榜首,腾讯 Hy3 凭全榜最低输入价 +52% 升至厂商第三。低价仍是中国厂商抢占调用量的核心抓手,而小米 MiMo 输入价已低于 Hy3,最低价心智争夺持续升温。
- 本周重点关注 3|Anthropic 完成旗舰代际切换,厂商总量明显修复:新旗舰 Opus 4.8 站稳新入榜并放量 44%,凭借全榜最强的智能(61)、编程(57)、Agent(78)性能及"代码自查诚实度"大幅改善承接高端需求;上一代 Opus 4.7 同步回升 31%,新旧旗舰共同放量带动 Anthropic 厂商总量回升 26%,旗舰换代阵痛基本消化,高端标杆地位稳固。
4 张子榜单 · 本周 vs 上周对比 · 数据源 openrouter.ai/rankings
2.2 OpenRouter 模型调用量榜单分析 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:openrouter.ai/rankings · 平台 token 调用量本周 Top 10
| 排名 | 模型 | 厂商 | Tokens(T) | WoW | 变化定性 | P/C | R/C | top5 App 集中度 | Intelligence | Coding | Agentic | Programming % | input price(USD) | output price(USD) | 健康度风险提示 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | DeepSeek: DeepSeek V4 Flash | deepseek | 4.50 | +55% | [稳定] | 55 | 1.2965 | 28% | 47 | 39 | 61 | 24% | 0.085 | 0.257 | 无显著风险 |
| 2 | Tencent: Hy3 preview | tencent | 4.10 | +52% | [稳定] | 90 | 0.7951 | 1% | 42 | 36 | 56 | 26% | 0.032 | 0.235 | 无显著风险 |
| 3 | MiniMax: MiniMax M3 | minimax | 3.63 | +198% | [排名大幅上升5位] | 189 | 1.0610 | 40% | 55 | 43 | 69 | 62% | 0.135 | 1.783 | 无显著风险 |
| 4 | Xiaomi: MiMo-V2.5 | xiaomi | 3.02 | +30% | [排名下降1位] | 120 | 0.4626 | 8% | 36 | 37 | 51 | N/A | 0.013 | 0.279 | 无显著风险 |
| 5 | Anthropic: Claude Sonnet 4.6 | anthropic | 2.17 | +23% | [稳定] | 68 | 0.0527 | 41% | 44 | 46 | 62 | 31% | 1.310 | 15.000 | 无显著风险 |
| 6 | Owl Alpha | openrouter | 2.11 | +6% | [排名下降2位] | 60 | 0.0000 | 74% | N/A | N/A | N/A | N/A | 0.000 | 0.000 | 头部应用集中风险,top5 集中度=74% |
| 7 | DeepSeek: DeepSeek V4 Pro | deepseek | 2.07 | +54% | [稳定] | 86 | 1.9909 | 32% | 52 | 47 | 67 | 46% | 0.800 | 2.937 | 无显著风险 |
| 8 | Anthropic: Claude Opus 4.7 | anthropic | 1.84 | +31% | [排名下降2位] | 75 | 0.0214 | 20% | 57 | 53 | 71 | 37% | 2.802 | 25.000 | 无显著风险 |
| 9 | Anthropic: Claude Opus 4.8 | anthropic | 1.34 | +44% | [新上榜] | 62 | 0.0340 | 25% | 61 | 57 | 78 | 36% | 2.478 | 25.000 | 无显著风险 |
| 10 | DeepSeek: DeepSeek V3.2 | deepseek | 1.17 | +6% | [稳定] | 29 | 0.1149 | 15% | 32 | 35 | 40 | 6% | 0.510 | 1.076 | 无显著风险 |
指标说明:P/C = 输入 token 总量 ÷ 输出 token 总量;R/C = 推理 token 总量 ÷ 输出 token 总量;top5 App 集中度 = 调用量前 5 应用的 token 之和 ÷ 该模型总 token;Programming % = 编程类调用量 ÷ 该模型总调用量。(均取最新一周 7 天数据)
关键模型筛选:依据 Top 2、|WoW|>35%、排名变化≥3 位、新上榜四条标准,本周共标记 5 个关键模型:DeepSeek V4 Flash(Top 1、WoW +55%)、Tencent Hy3(Top 2、WoW +52%)、MiniMax M3(升 5 位、WoW +198%)、DeepSeek V4 Pro(WoW +54%)、Claude Opus 4.8(新上榜、WoW +44%)。
- 模型质量数据:P/C55R/C1.2965top5 App 集中度28%Intelligence47Coding39Agentic61Input Price0.085Output Price0.257
- 本周变化分析:V4 Flash 本周放量逾五成、稳守榜首,延续了"性能够用、价格极低"的制胜组合。其综合性能在前十中居于中段,本身并不突出,但输入价 0.085、输出价 0.257 同处全榜最低梯队,且近两周持续单边小幅降价、节奏稳定无反弹,显示 DeepSeek 仍以低价主动巩固份额。增长质量也很扎实——R/C 高达 1.30、top5 集中度仅 28%,调用来自分散的真实需求而非单一应用刷量。在 M3 强势放量分流的背景下,它依旧是低价格局中最稳健的头部资产。
- 模型质量数据:P/C90R/C0.7951top5 App 集中度1%Intelligence42Coding36Agentic56Input Price0.032Output Price0.235
- 本周变化分析:Hy3 本周同步放量逾五成、稳居第二,是典型的"极致低价走量"模型。其性能在前十中偏中下,核心竞争力完全押注价格——输入价 0.032 为全榜最低、输出价 0.235 仅次于免费的 Owl,并提供免费版本,价格心智牢固。需求结构极为健康,top5 集中度仅 1%、全榜最分散,几乎不存在头部依赖风险。真正值得警惕的是同为极致低价的小米 MiMo——其输入价 0.013 已低于 Hy3,对后者赖以立足的"最低价"定位构成直接挑战,后续需关注价格优势是否被侵蚀。
- 模型质量数据:P/C189R/C1.0610top5 App 集中度40%Intelligence55Coding43Agentic69Input Price0.135Output Price1.783
- 本周变化分析:M3 本周近三倍放量、跃升 5 位至第三,是本周最大赢家。作为 6 月 1 日新发的开源权重模型,其综合性能在前十中位居前列(Intelligence 55、Agentic 69 均排第三,仅次两款 Opus),高达 62% 的 Programming 占比印证了其强编程定位获专业用户认可,外部测评亦显示其 SWE-Bench Pro 表现逼近闭源旗舰。值得注意的是,上线次周其输入、输出价较首周明显回落(输出价由 2.22 降至 1.78),延续"引流低价、随后微调"的发现期路径;P/C 高达 189、top5 集中度 40% 偏高,增量较依赖少数头部应用,留存仍需观察。
- 模型质量数据:P/C86R/C1.9909top5 App 集中度32%Intelligence52Coding47Agentic67Input Price0.800Output Price2.937
- 本周变化分析:V4 Pro 本周放量逾五成、稳守第七,与同门 V4 Flash 形成高低搭配的同向走强。作为 DeepSeek 的中高端定位,其性能在前十中处于上游(Intelligence 52、Agentic 67),而定价仅为两款 Opus 的零头,在"性能相近、价格更优"的中高端区间性价比突出。本周输出价由 3.02 进一步小幅下探至 2.937,延续温和降价节奏。R/C 接近 2.0,显示推理型调用占比高、需求质量扎实,增长更多源于性价比释放而非短期刺激,可持续性较强。
- 模型质量数据:P/C62R/C0.0340top5 App 集中度25%Intelligence61Coding57Agentic78Input Price2.478Output Price25.000
- 本周变化分析:Opus 4.8 作为新一代旗舰新入榜、放量四成,增长源于性能优势。其 Intelligence 61、Coding 57、Agentic 78 三项均为前十榜首,是全榜综合性能最强的模型,外部测评显示其 SWE-Bench Pro 较前代提升近 5 个百分点、并主打"代码自查诚实度"大幅改善,对高端用户构成严格升级。不过本周其输入价由上线初期的约 1.92 回升至 2.478、输出价仍锁定 25.0,定价偏刚性;R/C 仅 0.03、调用高度集中于少数高价值场景,增长主要来自对价格不敏感的高端需求,能否在上线高峰后稳住位置取决于高端场景对性能溢价的持续买单意愿。
2.3 OpenRouter 厂商调用量榜单分析 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:openrouter.ai/rankings · 厂商按 token 调用量
| 排名 | 厂商 | 最近两周上榜模型数 | 本周总量 (T) | 总量 WoW | 关键观察 | 厂商内部模型变动简述 |
|---|---|---|---|---|---|---|
| 1 | deepseek | 3 | 7.92 | +44% | 总量稳定增长 | 内部模型阵容稳定 |
| 2 | anthropic | 3 | 6.42 | +26% | 总量稳定增长 | 新入榜模型:Anthropic: Claude Opus 4.8 |
| 3 | tencent | 1 | 4.10 | +52% | 总量爆发增长 | 内部模型阵容稳定 |
| 4 | minimax | 1 | 4.08 | +121% | 总量爆发增长 | 内部模型阵容稳定 |
| 5 | 0 | 4.03 | -1% | 总量下滑 | 内部模型无变动 | |
| 6 | xiaomi | 2 | 3.59 | +2% | 总量稳定增长 | 跌出模型:Xiaomi: MiMo-V2.5-Pro |
| 7 | openai | 0 | 2.29 | +2% | 总量稳定增长 | 内部模型无变动 |
| 8 | openrouter | 1 | 2.11 | +6% | 总量稳定增长 | 内部模型阵容稳定 |
| 9 | nvidia | 0 | 1.24 | +61% | 总量爆发增长 | 内部模型无变动 |
关键厂商筛选:依据 Top 2、|WoW|>35%、排名变化≥3 位、新上榜四条标准,本周共标记 5 个关键厂商:deepseek(Top 1)、anthropic(Top 2)、tencent(WoW +52%、升 2 位)、minimax(WoW +121%、升 4 位)、nvidia(WoW +61%、重回榜单)。
稳居榜首,本周总量 7.92T、增长 44%,由三款模型同向驱动——V4 Flash 守住模型榜第一并 +55%、V4 Pro +54%、V3.2 平稳,全线健康放量,无内部此消彼长迹象。受益于覆盖低价到中高端的完整阵容与持续温和降价,其在低价竞争格局中的领先优势进一步扩大。
位列第二,总量 6.42T、增长 26%,本周一改上周下滑、明显修复。核心是新旗舰 Opus 4.8 站稳新入榜并 +44%、上一代 Opus 4.7 同步回升 31%,新旧旗舰共同放量、叠加 Sonnet 4.6 增长,旗舰代际切换的阵痛基本消化,高端标杆地位稳固。
升至第三,总量 4.10T、爆发增长 52%,几乎完全由单一模型 Hy3 preview 拉动。Hy3 凭借全榜最低输入价与极分散的需求结构持续走量,使腾讯以"单点极致低价"模式在头部站稳,但总量高度依赖这一款模型。
跃居第四,总量 4.08T、爆发增长 121%,增长几乎全部来自新模型 M3 的次周放量(由约 1.2T 增至 3.6T),属典型单点新品驱动。后续总量能否延续,关键取决于 M3 在上线高峰退去、定价回归常态后的留存表现。
重回榜单第九,总量 1.24T、爆发增长 61%,主要由免费旗舰 Nemotron-3-Ultra-550B(free)单周从近乎零放量至 0.74T 拉动,是典型的免费模型驱动型上升,增量质量与可持续性需结合后续是否收费来观察。
2.4 OpenRouter 编程调用量榜单 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:openrouter.ai/rankings?category=programming · 编程任务 token 累计 · 本周 vs 上周 Top 9
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | mimo-v2.5 | xiaomi | 2307 | 持平 | 1 | mimo-v2.5 | xiaomi | 1944 |
| 2 | minimax-m3 | minimax | 1559 | 新上榜 | 2 | claude-4.7-opus | anthropic | 890 |
| 3 | deepseek-v4-flash | deepseek | 885 | 上升2位 | 3 | hy3-preview | tencent | 844 |
| 4 | deepseek-v4-pro | deepseek | 785 | 上升4位 | 4 | mimo-v2.5-pro | xiaomi | 821 |
| 5 | hy3-preview | tencent | 772 | 下降2位 | 5 | deepseek-v4-flash | deepseek | 786 |
| 6 | step-3.7-flash | stepfun | 543 | 新上榜 | 6 | claude-4.6-sonnet | anthropic | 548 |
| 7 | claude-4.7-opus | anthropic | 530 | 下降5位 | 7 | nemotron-3-super-120b-a12b:free | nvidia | 480 |
| 8 | mimo-v2.5-pro | xiaomi | 467 | 下降4位 | 8 | deepseek-v4-pro | deepseek | 479 |
| 9 | claude-4.8-opus | anthropic | 422 | 新上榜 | 9 | kimi-k2.6 | moonshotai | 414 |
重大变化判断:本榜存在多处 |排名变化|≥3 及新上榜情况(Opus 4.7 降 5 位、V4 Pro 升 4 位、M3/Step-3.7-Flash/Opus 4.8 新上榜),判定为有重大变化,需展开分析。
- 本周榜单主要变化
- MiniMax M3 新上榜即空降第二(1559B),单周逼近榜首 MiMo-V2.5,成为编程榜最大黑马。
- Claude Opus 4.7 大幅下降 5 位至第七,被新上榜的 Opus 4.8(第九)内部替代。
- DeepSeek 双模型同向走强:V4 Pro 升 4 位至第四(479→785B)、V4 Flash 升 2 位至第三,编程份额显著扩大。
- 可能原因
- MiniMax M3 综合性能居前列、Programming 占比高达 62%,外部测评显示其编程与 Agent 能力逼近闭源旗舰,叠加新品上线高峰,迅速放量逼近榜首。
- Anthropic 旗舰换代,编程用户由 Opus 4.7 迁移至性能全面更强的 Opus 4.8,造成 4.7 排名跳水、4.8 新入榜的代际替代。
- DeepSeek V4 系列凭借持续降价与稳定性能,在编程这一高频付费场景中性价比优势进一步释放,带动双模型排名同步抬升。
2.5 OpenRouter 模型吞吐量 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:openrouter.ai/rankings · 吞吐量指标 · 本周 vs 上周 Top 9
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-oss-safeguard-20b | openai | 565 | 上升1位 | 1 | gpt-oss-120b | openai | 712 |
| 2 | gpt-oss-120b | openai | 544 | 下降1位 | 2 | gpt-oss-safeguard-20b | openai | 526 |
| 3 | Qwen3 32B | qwen | 432 | 上升1位 | 3 | Mercury 2 | inception | 426 |
| 4 | Mercury 2 | inception | 425 | 下降1位 | 4 | Qwen3 32B | qwen | 404 |
| 5 | GLM 4.7 | z-ai | 337 | 上升1位 | 5 | gpt-oss-20b | openai | 363 |
| 6 | gpt-oss-20b | openai | 253 | 下降1位 | 6 | GLM 4.7 | z-ai | 302 |
| 7 | Llama 3.1 8B Instruct | meta-llama | 224 | 新上榜 | 7 | MiniMax M2.5 | minimax | 237 |
| 8 | MiniMax M2.5 | minimax | 213 | 下降1位 | 8 | MiniMax M2.7 | minimax | 196 |
| 9 | MiniMax M2.7 | minimax | 194 | 下降1位 | 9 | o3 Mini | openai | 177 |
重大变化判断:本榜头部仅发生 1 位以内的相邻位次互换,唯一的结构性变化是 Llama 3.1 8B Instruct 新上榜、o3 Mini 跌出榜单,判定为有重大变化。
- 本周榜单主要变化
- 吞吐榜整体格局保持稳定,头部仍由 OpenAI 的 gpt-oss 系列主导,仅发生 gpt-oss-safeguard-20b 与 gpt-oss-120b 的榜首互换等相邻位次微调。
- 榜尾完成一轮更替:Llama 3.1 8B Instruct 新上榜补位,替代跌出的 o3 Mini,其余模型多较上周小幅回落。
其他榜单 — 16 张外部基准
数据采集 · 本周 2026-06-05 → 2026-06-11 · 对照周期 · 上周 2026-05-29 → 2026-06-04 · 每张榜单本周 vs 上周 Top 10 对比 · 各表标注其原始数据来源
3.1 Text Arena 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-fable-5 | Anthropic | 1510 | 新上榜 | 1 | claude-opus-4-6-thinking | Anthropic | 1503 |
| 2 | claude-opus-4-6-thinking | Anthropic | 1504 | 下降1位 | 2 | claude-opus-4-7-thinking | Anthropic | 1500 |
| 3 | claude-opus-4-7-thinking | Anthropic | 1502 | 下降1位 | 3 | claude-opus-4-6 | Anthropic | 1498 |
| 4 | claude-opus-4-6 | Anthropic | 1498 | 下降1位 | 4 | claude-opus-4-7 | Anthropic | 1493 |
| 5 | claude-opus-4-7 | Anthropic | 1492 | 下降1位 | 5 | muse-spark | Meta | 1489 |
| 6 | muse-spark | Meta | 1487 | 下降1位 | 6 | gemini-3.1-pro-preview | 1488 | |
| 7 | gemini-3.1-pro-preview | 1487 | 下降1位 | 7 | gemini-3-pro | 1486 | ||
| 8 | gemini-3-pro | 1486 | 下降1位 | 8 | gpt-5.5-high | OpenAI | 1482 | |
| 9 | claude-opus-4-8-thinking | Anthropic | 1486 | 新上榜 | 9 | gpt-5.4-high | OpenAI | 1479 |
| 10 | gpt-5.5-high | OpenAI | 1481 | 下降2位 | 10 | gemini-3.5-flash | 1477 | |
- 本周榜单主要变化
- Claude Fable 5 新上榜即空降榜首(1510),Opus 4.8-thinking 新上榜第 9。
- GPT-5.4-high 与 Gemini 3.5 Flash 跌出前十,GPT-5.5-high 降 2 位至第 10。
- 可能原因
- Anthropic 于 6 月 9 日发布 Mythos 级公开模型 Claude Fable 5,在近乎全部能力测评中达 SOTA,盲测偏好遥遥领先,直接登顶文本竞技场。
- 头部新旗舰集中入榜抬高前十门槛,原处榜尾的 OpenAI、Google 模型在偏好竞争中被挤出。
3.2 Code Arena 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | claude-fable-5 | Anthropic | 1665 | 新上榜 | 1 | claude-opus-4-7-thinking | Anthropic | 1566 |
| 2 | claude-opus-4-7-thinking | Anthropic | 1566 | 下降1位 | 2 | claude-opus-4-7 | Anthropic | 1558 |
| 3 | claude-opus-4-8-thinking | Anthropic | 1559 | 新上榜 | 3 | claude-opus-4-6-thinking | Anthropic | 1542 |
| 4 | claude-opus-4-7 | Anthropic | 1557 | 下降2位 | 4 | claude-opus-4-6 | Anthropic | 1537 |
| 5 | claude-opus-4-8 | Anthropic | 1543 | 新上榜 | 5 | qwen3.7-max | Alibaba | 1536 |
| 6 | claude-opus-4-6-thinking | Anthropic | 1542 | 下降3位 | 6 | glm-5.1 | Z.ai | 1532 |
| 7 | claude-opus-4-6 | Anthropic | 1539 | 下降3位 | 7 | minimax-m3 | MiniMax | 1531 |
| 8 | qwen3.7-max | Alibaba | 1534 | 下降3位 | 8 | claude-sonnet-4-6 | Anthropic | 1522 |
| 9 | glm-5.1 | Z.ai | 1532 | 下降3位 | 9 | kimi-k2.6 | Moonshot | 1517 |
| 10 | claude-sonnet-4-6 | Anthropic | 1523 | 下降2位 | 10 | muse-spark | Meta | 1508 |
- 本周榜单主要变化
- Claude Fable 5 空降榜首(1665),Opus 4.8-thinking、Opus 4.8 双双新上榜居第 3、5 位。
- Opus 4.6-thinking、Opus 4.6、Qwen 3.7 Max、GLM-5.1 集体下降 3 位;MiniMax M3、Kimi-k2.6 跌出前十。
- 可能原因
- Claude Fable 5 在软件工程上表现尤为突出,官方称代码竞技场 1665 分大幅领先 GPT-5.5,叠加 Opus 4.8 系列同期入榜,Anthropic 在代码榜形成集团式垄断。
- 三款新旗舰挤入前五,对原中游的 Opus 4.6 系列与中国模型形成明显挤压,整体排名顺位后移。
3.3 Agent Arena 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Fable 5 (High) | Anthropic | 12.9% | 新上榜 | 1 | Claude Fable 5 | Anthropic | 11.2% |
| 2 | GPT 5.5 (xHigh) | OpenAI | 10.6% | 新上榜 | 2 | Claude Opus 4.7 (Thinking) | Anthropic | 9.1% |
| 3 | Claude Opus 4.8 (Thinking) | Anthropic | 9.3% | 持平 | 3 | Claude Opus 4.8 (Thinking) | Anthropic | 9.0% |
| 4 | Claude Opus 4.7 (Thinking) | Anthropic | 8.6% | 下降2位 | 4 | GPT 5.5 (High) | OpenAI | 8.8% |
| 5 | GPT 5.5 (High) | OpenAI | 8.2% | 下降1位 | 5 | GPT 5.4 (High) | OpenAI | 8.0% |
| 6 | Claude Opus 4.6 | Anthropic | 8.0% | 持平 | 6 | Claude Opus 4.6 | Anthropic | 7.9% |
| 7 | Claude Opus 4.7 | Anthropic | 7.6% | 上升1位 | 7 | GPT 5.5 | OpenAI | 7.8% |
| 8 | GPT 5.4 (High) | OpenAI | 7.3% | 下降3位 | 8 | Claude Opus 4.7 | Anthropic | 7.7% |
| 9 | GPT 5.5 | OpenAI | 7.1% | 下降2位 | 9 | Claude Opus 4.8 | Anthropic | 4.8% |
| 10 | Claude Opus 4.8 | Anthropic | 4.8% | 下降1位 | 10 | Claude Sonnet 4.6 | Anthropic | 4.0% |
- 本周榜单主要变化
- Claude Fable 5 (High) 与 GPT 5.5 (xHigh) 新上榜占据前二,将原榜首 Claude Fable 5 顺位下挤。
- GPT 5.4 (High) 下降 3 位至第 8,Claude Sonnet 4.6 跌出前十。
- 可能原因
- Claude Fable 5 在长程复杂任务上优势随任务难度放大,其 High 档变体在 Agent 评测中以 12.9% 居首,进一步巩固 Anthropic 在智能体场景的领先。
- 头部新档位入榜推高门槛,原中游 GPT-5.4 与 Sonnet 4.6 在智能体任务竞争中相对承压。
3.4 LiveCodeBench 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Opus 4.7 | Anthropic | 44.1 | 持平 | 1 | Claude Opus 4.7 | Anthropic | 44.1 |
| 2 | Claude Opus 4.6 | Anthropic | 41.2 | 持平 | 2 | Claude Opus 4.6 | Anthropic | 41.2 |
| 3 | GPT 5.5 | OpenAI | 40.2 | 持平 | 3 | GPT 5.5 | OpenAI | 40.2 |
| 4 | Claude Opus 4.6 | Anthropic | 33.3 | 持平 | 4 | Claude Opus 4.6 | Anthropic | 33.3 |
| 5 | GPT 5.4 | OpenAI | 31.4 | 持平 | 5 | GPT 5.4 | OpenAI | 31.4 |
| 6 | GPT 5.2 | OpenAI | 27.4 | 持平 | 6 | GPT 5.2 | OpenAI | 27.4 |
| 7 | Claude Opus 4.5 | Anthropic | 26.5 | 持平 | 7 | Claude Opus 4.5 | Anthropic | 26.5 |
| 8 | GPT 5.4 | OpenAI | 25.5 | 持平 | 8 | GPT 5.4 | OpenAI | 25.5 |
| 9 | Gemini 3.1 Pro | 22.6 | 持平 | 9 | Gemini 3.1 Pro | 22.6 | ||
| 10 | Gemini 3 Pro | 18.6 | 持平 | 10 | Gemini 3 Pro | 18.6 | ||
- 本周榜单主要变化无重大变化
3.5 SWE-bench 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude 4.5 Opus (high reasoning) | Anthropic | 76.8% | 持平 | 1 | Claude 4.5 Opus (high reasoning) | Anthropic | 76.8% |
| 2 | Gemini 3 Flash (high reasoning) | 75.8% | 持平 | 2 | Gemini 3 Flash (high reasoning) | 75.8% | ||
| 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% | 持平 | 3 | MiniMax M2.5 (high reasoning) | MiniMax | 75.8% |
| 4 | Claude Opus 4.6 | Anthropic | 75.6% | 持平 | 4 | Claude Opus 4.6 | Anthropic | 75.6% |
| 5 | GPT-5-2 Codex | OpenAI | 72.8% | 持平 | 5 | GPT-5-2 Codex | OpenAI | 72.8% |
| 6 | GLM-5 (high reasoning) | Z.ai | 72.8% | 持平 | 6 | GLM-5 (high reasoning) | Z.ai | 72.8% |
| 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% | 持平 | 7 | GPT-5-2 (high reasoning) | OpenAI | 72.8% |
| 8 | GPT 5.2 Codex | OpenAI | 72.8% | 持平 | 8 | GPT 5.2 Codex | OpenAI | 72.8% |
| 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% | 持平 | 9 | Claude 4.5 Sonnet (high reasoning) | Anthropic | 71.4% |
| 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% | 持平 | 10 | Kimi K2.5 (high reasoning) | Moonshot | 70.8% |
- 本周榜单主要变化无重大变化
3.6 Image Edit Arena 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1465 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1465 |
| 2 | mai-image-2.5 | Microsoft AI | 1401 | 持平 | 2 | mai-image-2.5 | Microsoft AI | 1401 |
| 3 | chatgpt-image-latest-high-fidelity | OpenAI | 1390 | 持平 | 3 | chatgpt-image-latest-high-fidelity | OpenAI | 1390 |
| 4 | grok-imagine-image-quality | xAI | 1388 | 持平 | 4 | grok-imagine-image-quality | xAI | 1388 |
| 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1388 | 持平 | 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1388 | ||
| 6 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | 持平 | 6 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1387 | ||
| 7 | gemini-3-pro-image-preview (nano-banana-pro) | 1385 | 持平 | 7 | gemini-3-pro-image-preview (nano-banana-pro) | 1385 | ||
| 8 | gpt-image-1.5-high-fidelity | OpenAI | 1373 | 持平 | 8 | gpt-image-1.5-high-fidelity | OpenAI | 1373 |
| 9 | reve-2.0 | Reve | 1356 | 持平 | 9 | reve-2.0 | Reve | 1356 |
| 10 | grok-imagine-image-quality | xAI | 1355 | 持平 | 10 | grok-imagine-image-quality | xAI | 1355 |
- 本周榜单主要变化无重大变化
3.7 Text-to-Image Arena 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gpt-image-2 (medium) | OpenAI | 1385 | 持平 | 1 | gpt-image-2 (medium) | OpenAI | 1384 |
| 2 | reve-2.0 | Reve | 1273 | 持平 | 2 | reve-2.0 | Reve | 1280 |
| 3 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1269 | 持平 | 3 | gemini-3.1-flash-image-preview (nano-banana-2) [web-search] | 1269 | ||
| 4 | mai-image-2.5 | Microsoft AI | 1253 | 持平 | 4 | mai-image-2.5 | Microsoft AI | 1254 |
| 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1245 | 持平 | 5 | gemini-3-pro-image-preview-2k (nano-banana-pro) | 1245 | ||
| 6 | gpt-image-1.5-high-fidelity | OpenAI | 1241 | 持平 | 6 | gpt-image-1.5-high-fidelity | OpenAI | 1242 |
| 7 | grok-imagine-image-quality | xAI | 1234 | 持平 | 7 | grok-imagine-image-quality | xAI | 1232 |
| 8 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | 持平 | 8 | gemini-3-pro-image-preview (nano-banana-pro) | 1232 | ||
| 9 | ideogram-4.0-quality | Ideogram | 1204 | 持平 | 9 | ideogram-4.0-quality | Ideogram | 1204 |
| 10 | uni-1.1-max | Luma AI | 1191 | 持平 | 10 | uni-1.1-max | Luma AI | 1191 |
- 本周榜单主要变化无重大变化
3.8 AA Image Editing 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 1.5 (high) | OpenAI | 1264 | 持平 | 1 | GPT Image 1.5 (high) | OpenAI | 1266 |
| 2 | GPT Image 2 (high) | OpenAI | 1259 | 持平 | 2 | GPT Image 2 (high) | OpenAI | 1259 |
| 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1251 | 持平 | 3 | Nano Banana Pro (Gemini 3 Pro Image) | 1251 | ||
| 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1246 | 持平 | 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1246 | ||
| 5 | grok-imagine-image-quality | xAI | 1237 | 持平 | 5 | grok-imagine-image-quality | xAI | 1240 |
| 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1230 | 持平 | 6 | HunyuanImage 3.0 Instruct (Fal)Open Weights | Tencent | 1233 |
| 7 | Luma UNI 1 Max | Luma Labs | 1222 | 持平 | 7 | Luma UNI 1 Max | Luma Labs | 1221 |
| 8 | grok-imagine-image | xAI | 1220 | 持平 | 8 | grok-imagine-image | xAI | 1221 |
| 9 | Kling Image 3.0 Omni | KlingAI | 1219 | 持平 | 9 | Kling Image 3.0 Omni | KlingAI | 1218 |
| 10 | FLUX.2 [max] | Black Forest Labs | 1214 | 持平 | 10 | FLUX.2 [max] | Black Forest Labs | 1216 |
- 本周榜单主要变化无重大变化
3.9 AA Text-to-Image 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:https://artificialanalysis.ai/image/leaderboard/text-to-image
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT Image 2 (high) | OpenAI | 1339 | 持平 | 1 | GPT Image 2 (high) | OpenAI | 1341 |
| 2 | GPT Image 1.5 (high) | OpenAI | 1266 | 持平 | 2 | GPT Image 1.5 (high) | OpenAI | 1266 |
| 3 | HiDream-O1-Image-1.5 | HiDream | 1264 | 新上榜 | 3 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1261 | |
| 4 | Nano Banana 2 (Gemini 3.1 Flash Image Preview) | 1258 | 下降1位 | 4 | Cosmos3-Super-Text2Image (agentic)Open Weights | NVIDIA | 1241 | |
| 5 | Cosmos3-Super-Text2Image (agentic)Open Weights | NVIDIA | 1236 | 下降1位 | 5 | Nano Banana Pro (Gemini 3 Pro Image) | 1221 | |
| 6 | Nano Banana Pro (Gemini 3 Pro Image) | 1219 | 下降1位 | 6 | Krea 2 Medium | Krea | 1209 | |
| 7 | Krea 2 Medium | Krea | 1209 | 下降1位 | 7 | Recraft V4.1 Utility Pro | Recraft | 1205 |
| 8 | grok-imagine-image-quality | xAI | 1204 | 持平 | 8 | grok-imagine-image-quality | xAI | 1205 |
| 9 | Recraft V4.1 Utility Pro | Recraft | 1204 | 下降2位 | 9 | Recraft V4.1 Utility | Recraft | 1197 |
| 10 | Recraft V4.1 Utility | Recraft | 1197 | 下降1位 | 10 | Seedream 4.0 | ByteDance Seed | 1195 |
- 本周榜单主要变化
- HiDream-O1-Image 新上榜位列第 3,Seedream 4.0 跌出前十,其余模型普遍下降 1 位。
- 可能原因
- HiDream-ai 开源的 8B 像素原生统一模型 HiDream-O1-Image 凭借无 VAE 的统一 Transformer 架构与推理式提示代理,在多项文生图指标上超越数倍参数量的模型,成为榜上最强开源权重模型。
3.10 前沿数学 (FrontierMath) 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% | 持平 | 1 | GPT-5.5 Pro (high) | OpenAI | 52.4% |
| 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% | 持平 | 2 | GPT-5.5 (xhigh) | OpenAI | 51.7% |
| 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% | 持平 | 3 | GPT-5.5 Pro (xhigh) | OpenAI | 51.0% |
| 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% | 持平 | 4 | GPT-5.4 Pro (xhigh) | OpenAI | 50.0% |
| 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% | 持平 | 5 | GPT-5.4 (xhigh) | OpenAI | 47.6% |
| 6 | Claude Opus 4.8 (max) | Anthropic | 47.2% | 新上榜 | 6 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% |
| 7 | Claude Opus 4.7 (xhigh) | Anthropic | 43.8% | 下降1位 | 7 | Claude Opus 4.6 (max) | Anthropic | 40.7% |
| 8 | Claude Opus 4.6 (max) | Anthropic | 40.7% | 下降1位 | 8 | GPT-5.2 (xhigh) | OpenAI | 40.7% |
| 9 | GPT-5.2 (xhigh) | OpenAI | 40.7% | 下降1位 | 9 | GPT-5.2 (high) | OpenAI | 40.3% |
| 10 | GPT-5.2 (high) | OpenAI | 40.3% | 下降1位 | 10 | Claude Opus 4.6 (32k thinking) | Anthropic | 40.0% |
- 本周榜单主要变化
- Claude Opus 4.8 (max) 新上榜位列第 6(47.2%),Claude Opus 4.6 (32k thinking) 跌出前十。
- 可能原因
- Anthropic 旗舰 Opus 4.8 的数学推理能力较前代提升,max 档以 47.2% 入榜并超越同门 Opus 4.7,将榜尾的旧版 Opus 4.6 (32k) 挤出前十。
3.11 HLE 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | gemini-3.1-pro-preview (thinking high) | 46.4 | 持平 | 1 | gemini-3.1-pro-preview (thinking high) | 46.4 | ||
| 2 | gpt-5.4-pro-2026-03-05 | OpenAI | 44.3 | 持平 | 2 | gpt-5.4-pro-2026-03-05 | OpenAI | 44.3 |
| 3 | Muse Spark | Meta | 40.6 | 持平 | 3 | Muse Spark | Meta | 40.6 |
| 4 | gemini-3-pro-preview | 37.5 | 持平 | 4 | gemini-3-pro-preview | 37.5 | ||
| 5 | gpt-5.4-2026-03-05 (xhigh thinking) | OpenAI | 36.2 | 持平 | 5 | gpt-5.4-2026-03-05 (xhigh thinking) | OpenAI | 36.2 |
| 6 | claude-opus-4-7 | Anthropic | 36.2 | 持平 | 6 | claude-opus-4-7 | Anthropic | 36.2 |
| 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 | 持平 | 7 | claude-opus-4-6-thinking-max | Anthropic | 34.4 |
| 8 | gpt-5-pro-2025-10-06 | OpenAI | 31.6 | 持平 | 8 | gpt-5-pro-2025-10-06 | OpenAI | 31.6 |
| 9 | gpt-5.2-2025-12-11 | OpenAI | 27.8 | 持平 | 9 | gpt-5.2-2025-12-11 | OpenAI | 27.8 |
| 10 | gpt-5-2025-08-07 | OpenAI | 25.3 | 持平 | 10 | gpt-5-2025-08-07 | OpenAI | 25.3 |
- 本周榜单主要变化无重大变化
3.12 Agent (GAIA) 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Co-Sight Pro v1.0.1 | ZTE-AICloud | 93.0 | 持平 | 1 | Co-Sight Pro v1.0.1 | ZTE-AICloud | 93.0 |
| 2 | OPS-Agentic-Search | Alibaba Cloud | 92.4 | 持平 | 2 | OPS-Agentic-Search | Alibaba Cloud | 92.4 |
| 3 | CustomGPT.ai Research Lab v41 | CustomGPT.ai | 92.0 | 持平 | 3 | CustomGPT.ai Research Lab v41 | CustomGPT.ai | 92.0 |
| 4 | Co-Sight Pro v1.0.0 | ZTE-AICloud | 92.0 | 持平 | 4 | Co-Sight Pro v1.0.0 | ZTE-AICloud | 92.0 |
| 5 | CustomGPT.ai Research Lab v43 | CustomGPT.ai | 92.0 | 持平 | 5 | CustomGPT.ai Research Lab v43 | CustomGPT.ai | 92.0 |
| 6 | AuraAi | AI | 92.0 | 持平 | 6 | AuraAi | AI | 92.0 |
| 7 | CustomGPT.ai Research Lab V42 | CustomGPT.ai | 92.0 | 持平 | 7 | CustomGPT.ai Research Lab V42 | CustomGPT.ai | 92.0 |
| 8 | openJiuwen-deepagent | openJiuwen | 91.7 | 持平 | 8 | openJiuwen-deepagent | openJiuwen | 91.7 |
| 9 | CustomGPT.ai Research Lab v39 | CustomGPT.ai | 91.7 | 持平 | 9 | CustomGPT.ai Research Lab v39 | CustomGPT.ai | 91.7 |
| 10 | CustomGPT.ai Research Lab v35 | CustomGPT.ai | 91.4 | 持平 | 10 | CustomGPT.ai Research Lab v35 | CustomGPT.ai | 91.4 |
- 本周榜单主要变化无重大变化
3.13 GPQA 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Claude Mythos Preview | Anthropic | 94.6 | 持平 | 1 | Claude Mythos Preview | Anthropic | 94.6 |
| 2 | Gemini 3.1 Pro | 94.3 | 持平 | 2 | Gemini 3.1 Pro | 94.3 | ||
| 3 | Claude Opus 4.7 | Anthropic | 94.2 | 持平 | 3 | Claude Opus 4.7 | Anthropic | 94.2 |
| 4 | Claude Opus 4.8 | Anthropic | 93.6 | 持平 | 4 | Claude Opus 4.8 | Anthropic | 93.6 |
| 5 | GPT-5.5 | OpenAI | 93.6 | 持平 | 5 | GPT-5.5 | OpenAI | 93.6 |
| 6 | GPT-5.2 Pro | OpenAI | 93.2 | 持平 | 6 | GPT-5.2 Pro | OpenAI | 93.2 |
| 7 | GPT-5.4 | OpenAI | 92.8 | 持平 | 7 | GPT-5.4 | OpenAI | 92.8 |
| 8 | Qwen3.7 Max | Alibaba Cloud / Qwen Team | 92.4 | 持平 | 8 | Qwen3.7 Max | Alibaba Cloud / Qwen Team | 92.4 |
| 9 | GPT-5.2 | OpenAI | 92.4 | 持平 | 9 | GPT-5.2 | OpenAI | 92.4 |
| 10 | Gemini 3 Pro | 91.9 | 持平 | 10 | Gemini 3 Pro | 91.9 | ||
- 本周榜单主要变化无重大变化
3.14 国内 - 大语言模型 (OpenCompass) 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | GPT-5.4-2026-03-05 (high) | OpenAI | 67.3 | 持平 | 1 | GPT-5.4-2026-03-05 (high) | OpenAI | 67.3 |
| 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 | 持平 | 2 | DeepSeek-V4-Pro | DeepSeek | 65.1 |
| 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 | 持平 | 3 | Claude Opus 4.7 (high) | Anthropic | 64.0 |
| 4 | Doubao-Seed-2-0-Pro-260215 (high) | ByteDance | 63.5 | 持平 | 4 | Doubao-Seed-2-0-Pro-260215 (high) | ByteDance | 63.5 |
| 5 | Kimi-K2.6 | Moonshot | 63.4 | 持平 | 5 | Kimi-K2.6 | Moonshot | 63.4 |
| 6 | Gemini-3.1-Pro-Preview | 63.2 | 持平 | 6 | Gemini-3.1-Pro-Preview | 63.2 | ||
| 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 | 持平 | 7 | Qwen3.6-Max-Preview | Alibaba | 60.8 |
| 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 | 持平 | 8 | DeepSeek-V4-Flash | DeepSeek | 60.4 |
| 9 | Doubao-Seed-2-0-Lite-260215 (high) | ByteDance | 60.4 | 持平 | 9 | Doubao-Seed-2-0-Lite-260215 (high) | ByteDance | 60.4 |
| 10 | GLM-5.1 | Zhipu AI | 59.0 | 持平 | 10 | GLM-5.1 | Zhipu AI | 59.0 |
- 本周榜单主要变化无重大变化
3.15 国内 - 多模态 (OpenCompass) 数据采集 · 本周 2026-06-05 → 2026-06-11
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | Qwen3.7-Plus | Alibaba | 73.0 | 新上榜 | 1 | Gemini-3.1-Pro-Preview | 66.6 | |
| 2 | Gemini-3.1-Pro-Preview | 72.6 | 下降1位 | 2 | Qwen3.5-397B | Alibaba | 65.4 | |
| 3 | Qwen3.5-397B-A17B | Alibaba | 72.3 | 新上榜 | 3 | Doubao-Seed-2.0-Pro (medium) | ByteDance | 63.2 |
| 4 | GPT-5.5 (high) | OpenAI | 71.1 | 新上榜 | 4 | Kimi-k2.5 | Moonshot AI | 63.0 |
| 5 | Kimi-K2.6 | Moonshot AI | 70.6 | 新上榜 | 5 | SenseNova-V6-5-Pro | SenseTime | 55.6 |
| 6 | Doubao-Seed-2.0-Pro (high) | ByteDance | 69.4 | 新上榜 | 6 | Claude-Opus-4-6 | Anthropic | 55.2 |
| 7 | SenseNova-6-7-Flash-Alpha | SenseTime | 69.0 | 新上榜 | 7 | GLM4_6V | Zhipu AI | 52.5 |
| 8 | GLM-5V-Turbo | Zhipu AI | 62.8 | 新上榜 | 8 | GPT-5.4 | OpenAI | 51.5 |
| 9 | Step-3.7-Flash (high) | StepFun | 61.5 | 新上榜 | 9 | Step3-VL-10B | StepFun | 48.8 |
| 10 | Gemma-4-31B-it | 56.3 | 新上榜 | 10 | Ovis2.6-30B-A3B | Alibaba | 48.4 | |
- 本周榜单主要变化
- 榜单整体大幅重排,Qwen3.7-Plus 空降榜首(73.0),前十仅 Gemini-3.1-Pro 留存,其余九席近乎全员新上榜。
- 上周前十的 Kimi-k2.5、Claude-Opus-4-6、Step3-VL-10B、Ovis2.6 等多数模型集体跌出。
- 可能原因
- 本周多模态榜单整体分数大幅抬升(榜首由 66.6 升至 73.0),呈现典型的评测集更新或一批新模型集中纳入特征,带动前十成员与排名大面积更替。
- 阿里 Qwen3.7-Plus、字节 Doubao-Seed-2.0-Pro、智谱 GLM-5V-Turbo 等新一代多模态模型集中上榜,反映国产多模态模型迭代密集、整体能力快速跃升。
3.16 国内 - 医疗 (MedBench) 数据采集 · 本周 2026-06-05 → 2026-06-11
来源:https://medbench.opencompass.org.cn/leaderboard?lang=zh-CN?lang=zh-CN
| 本周 · 本周 2026-06-05 → 2026-06-11 | 上周 · 上周 2026-05-29 → 2026-06-04 | |||||||
|---|---|---|---|---|---|---|---|---|
| 排名 | 模型 | 公司 | 指标 | 变化 | 排名 | 模型 | 公司 | 指标 |
| 1 | 京医千询 | 京东健康 | 72.6 | 持平 | 1 | 京医千询 | 京东健康 | 72.6 |
| 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 | 持平 | 2 | 卓睦鸟医疗大模型 | 广州中康数字科技有限公司 | 72.1 |
| 3 | 千问健康大模型 | 千问C端 | 71.2 | 持平 | 3 | 千问健康大模型 | 千问C端 | 71.2 |
| 4 | 华为云健康管理大模型 | Huawei | 71.0 | 持平 | 4 | 华为云健康管理大模型 | Huawei | 71.0 |
| 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 | 持平 | 5 | WiseDiag v2 | 杭州智诊科技有限公司 | 69.8 |
| 6 | 微医医疗大模型 | 微医 | 68.2 | 持平 | 6 | 微医医疗大模型 | 微医 | 68.2 |
| 7 | AntAngelMed | MedAIBase | 68.0 | 持平 | 7 | AntAngelMed | MedAIBase | 68.0 |
| 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 | 持平 | 8 | UniGPT-Med-U1 | 云知声智能科技股份有限公司 | 65.7 |
| 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 | 持平 | 9 | 惠每医疗大模型 | 上海新创惠每科技有限公司 | 60.0 |
| 10 | Grok-4 | xAI | 58.4 | 持平 | 10 | Grok-4 | xAI | 58.4 |
- 本周榜单主要变化无重大变化
Agent 原生数据库
01 · 这是什么
TL;DR · pandadataskill.md本站底层是一个面向 AI Agent 开放的实时榜单数据库,涵盖两类数据:OpenRouter 的周度模型调用量、厂商份额与分类榜单(编程 / 工具调用 / 图像 / 音频),以及与周报同源的 15 张外部基准榜单的多期快照(LMArena 文本 / 代码 / 图像编辑 / 文生图、Artificial Analysis、SWE-bench、LiveCodeBench、GPQA、HLE、FrontierMath、GAIA、OpenCompass、MedBench)。全部以只读 SQL + MCP 的形式开放,任何支持 MCP 的 Agent 都能直接查询。下面的两张演示图,就是用这个库画出来的。
数据库每天 08:00(北京时间)自动更新一次;但各数据源有自己的发布节奏,因此各表可用数据的新鲜度以数据源自身的更新时间为准。
如果不想往下读的话,直接甩给你的 agents:
02 · 用同一个库,你可以——
两个演示 · 数据均来自本库Top Models 周度调用量
你可以还原一个 OpenRouter 上的视图。
基准排名 × 真实使用量
你也可以把能力榜单表和 OpenRouter 调用量表跨库 JOIN——横轴 = 基准得分,纵轴 = 近 30 天调用量(对数)。跑分高的模型,真的有人用吗?
用 model_activity 算推理 token ÷ 回答 token,看哪些模型真的在"思考"(有的推理量是答案的 3 倍,有的几乎为零);用输入:输出比例给负载画像——50:1 是文档抽取型,5:1 更像对话;用 rankings_market_share 画 52 周中外厂商份额拉锯;用 model_apps_daily 看一个模型的流量是被少数大应用"承包"还是长尾开发者撑起;或用 models 按发布时间画上下文军备竞赛——1M+ token 的模型已超过 70 个。
03 · 让你的 Agent 直接访问数据库(MCP)
Agent-native · Model Context Protocol本站运行一个 MCP 服务器。任何支持 MCP 的客户端(Claude Code / Claude Desktop / Cursor 等)都能一键连接,直接对自动刷新的实时数据库执行只读查询——无需复制粘贴、无需手动下载。
① 一行接入(Claude Code)
claude mcp add --transport http panda https://pandaleaderboard.com/mcp/
② 或写入 MCP 配置(Claude Desktop / Cursor)
{
"mcpServers": {
"panda": { "url": "https://pandaleaderboard.com/mcp/" }
}
}
③ 可用工具
query_openrouter(sql)— 对实时数据库执行只读 SQL(仅 SELECT / WITH,最多 500 行)。openrouter_schema()— 列出所有表与字段(先调用它了解结构)。openrouter_freshness()— 查看最新数据周与各表行数。query_leaderboards(sql)— 对能力榜单库(LMArena / GPQA / SWE-bench / OpenCompass 等 15 张外部基准表的多期快照)执行只读 SQL。上面的「演示 B」就是这个库和调用量库跨库 JOIN 画出来的。leaderboards_schema()— 列出能力榜单库的表与字段。leaderboards_freshness()— 查看各基准表的最新快照日期。
④ 示例:让 Agent 查询本周调用量榜首
SELECT model_slug, tokens, rank
FROM rankings_top_models
WHERE week_start = (SELECT MAX(week_start) FROM rankings_top_models)
ORDER BY rank LIMIT 10;
历史周报
过往周报归档,可按发布日期、模型或主题搜索。