归档 2026-05-08 大模型榜单周报 · 此页面为快照,数据不再更新 ← 返回当前周报
Panda Leaderboard · 大模型榜单中心
编辑 · 2026-05-13

关键动态

分析生成 · 2026-05-12 数据采集 · 2026-05-05 → 2026-05-12 · 21 主体 / 4 有进展
01
OpenAI2026-05-05默认模型变更

ChatGPT default model upgraded to GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型升级为 GPT-5.5 Instant,结合 GPT-5.5 基础智力与极速回复。免费用户可用,幻觉减少 52.5%,新增记忆来源展示,回答更简洁温暖。

来源 openai.com· 交叉验证:OpenAI 官方 + 量子位
02
字节2026-05-06模型能力升级

Doubao-Seed-2.0-lite 升级,支持全模态理解

字节跳动豆包大模型团队宣布 Doubao-Seed-2.0-lite 升级,新增全模态理解能力,在保持轻量化的同时扩展视觉、音频等多模态输入支持。

来源 developer.volcengine.com· 交叉验证:火山引擎官方 + 量子位
03
百度2026-05-09核心模型发布

百度发布文心大模型 5.1:搜索能力位居国内首位,预训练成本仅为业界 6%

百度正式发布文心 5.1,采用「多维弹性预训练」技术,总参数压缩至文心 5.0 的约 1/3,激活参数约 1/2,仅以业界同规模模型 6% 的预训练成本达到基础效果领先。LMArena 搜索榜国内第一、全球第四。

来源 ithome.com· 交叉验证:IT 之家 + 量子位
04
阶跃星辰2026-05-09垂直模型发布

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布 StepAudio 2.5 Realtime 实时语音大模型,能通过语调、语速等副语言感知用户情绪,支持开发者精细化定制 AI 角色性格与背景,打造更具活人感的对话体验。

来源 ithome.com· 交叉验证:IT 之家 + 量子位
17 / 21其他监控主体本周无重大更新
  • Anthropic
  • Google
  • Meta
  • xAI
  • Microsoft
  • Nvidia
  • Mistral
  • 阿里
  • 腾讯
  • 美团
  • 智谱
  • DeepSeek
  • 月之暗面
  • MiniMax
  • 华为
  • 快手
  • 小米
OpenRouter 分析

OpenRouter 平台调用量与性能

分析生成 · 2026-05-12 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 竞争格局周度分析报告报告周期 · 2026-04-27 至 2026-05-04数据截至 · 2026-05-11分析生成 · 2026-05-13

一、Top 9 模型竞争格局总览

本周 Top 9 模型快照
排名模型厂商Tokens (B)WoW变化健康风险提示
#1 FREE tencent/hy3-preview-20260421:free Tencent 2,678 -11.8% 排名不变 [FREE] 排名受免费驱动;P/C=63 正常;R/C=0.0 正常;App 集中度=12.9% 正常;无显著数据风险
#2 moonshotai/kimi-k2.6-20260420 MoonshotAI 1,614 -11.1% 排名不变 P/C=232 偏高, 但 Programming%=122.7% 属编程场景正常模式;R/C=2.41 正常;App 集中度=8.7% 正常;无显著数据风险
#3 anthropic/claude-4.6-sonnet-20260217 Anthropic 1,453 +7.9% 排名不变 稳定名列前茅 P/C=64 正常;R/C=0.07 正常;App 集中度=38.1% 正常;无显著数据风险
#4 anthropic/claude-4.7-opus-20260416 Anthropic 1,235 +32.1% 上升 1 位 P/C=75 正常;R/C=0.02 正常;App 集中度=27.8% 正常;无显著数据风险
#5 deepseek/deepseek-v4-flash-20260423 DeepSeek 1,111 +57.8% 上升 4 位 排名大幅上升 P/C=50 正常;R/C=1.18 正常;App 集中度=34.7% 正常;无显著数据风险;驱动因素:DeepSeek V4 系列 4 月 24 日发布
#6 google/gemini-3-flash-preview-20251217 Google 1,075 +10.5% 下降 2 位 P/C=22 正常;R/C=0.19 正常;App 集中度=16.5% 正常;无显著数据风险
#7 deepseek/deepseek-v3.2-20251201 DeepSeek 868 -4.4% 下降 1 位 P/C=27 正常;R/C=0.12 正常;App 集中度=11.7% 正常;无显著数据风险
#8 tencent/hy3-preview-20260421 Tencent 857 N/A 新上榜 P/C=63 正常;R/C=0.0 正常;App 集中度=0.9% 正常;无显著数据风险
#9 deepseek/deepseek-v4-pro-20260423 DeepSeek 816 N/A 新上榜 P/C=105 正常;R/C=1.49 正常;App 集中度=32.9% 正常;无显著数据风险
排名变化较大的 Top 模型总结
  • #5 deepseek-v4-flash · #9 → #5 (上升 4 位) · WoW +57.8% · 爆发增长
    模型健康度:P/C=50 正常 · R/C=1.18 正常 · App 集中度 Top5=34.7% 正常 · 风险提示:无显著数据风险
    驱动因素:4 月 24 日 DeepSeek V4 系列正式发布, v4-flash 以 284B 参数 / 13B 激活、$0.14/1M 输入的极高性价比获得快速采用。
  • #8 tencent/hy3-preview · #— → #8 (新上榜) · WoW N/A · 新上榜
    模型健康度:P/C=63 正常 · R/C=0.0 正常 · App 集中度 Top5=0.9% 正常 · 风险提示:无显著数据风险
  • #9 deepseek-v4-pro · #— → #9 (新上榜) · WoW N/A · 新上榜
    模型健康度:P/C=105 正常 · R/C=1.49 正常 · App 集中度 Top5=32.9% 正常 · 风险提示:无显著数据风险
  • #6 gemini-3-flash-preview · #4 → #6 (下降 2 位) · WoW +10.5% · 温和增长
    模型健康度:P/C=22 正常 · R/C=0.19 正常 · App 集中度 Top5=16.5% 正常 · 风险提示:无显著数据风险

二、Top 厂商格局表

排名厂商最近两周上榜模型数本周 tokens总量 WoW关键观察厂商内部模型变动简述
#1 Anthropic 2 / 3 3,736B +11.0% 总量稳居第一, 双旗舰驱动增长 Sonnet 4.6 稳居 #3 且调用量温和增长 +7.9%;Opus 4.7 从 #5 上升至 #4, 调用量 +32.1%, 带动厂商总量上升;Opus 4.6 掉出 Top9, 新旧版本内部迁移迹象明显, 需持续观察。
#2 Google 1 / 1 3,610B +4.1% 总量温和增长, 单一模型支撑 Gemini 3.1 Flash Preview 从 #4 降至 #6, 但调用量仍增长 +10.5%, 整体表现平稳。
#3 Tencent 2 / 1 3,535B +16.5% 总量显著增长, Hy3 免费版持续领跑 Hy3 preview :free 虽下降 11.8% 但仍居 #1;Hy3 preview 付费版新上榜 #8, 免费与付费双轨并行, 需关注付费版后续留存。
#4 DeepSeek 3 / 1 2,988B +35.5% 总量大幅跃升, V4 系列拉动明显 V4 Flash 从 #9 跃升至 #5, 调用量 +57.8%;V4 Pro 新上榜 #9;V3.2 从 #6 降至 #7, 调用量 -4.4%, V4 系列内部替代效应显著。
#5 OpenAI 0 / 0 2,630B +2.3% 总量平稳, 无模型进入 Top9 在榜模型表现平稳, 无显著内部迁移。
#6 MoonshotAI 1 / 1 1,903B -10.0% 总量温和下滑 Kimi K2.6 稳居 #2, 但调用量下降 11.1%, 需关注后续稳定性。
#7 Qwen 0 / 0 1,302B +7.2% 总量温和增长, 无模型进入 Top9 在榜模型表现平稳, 无显著内部迁移。
#8 MiniMax 0 / 1 1,028B -5.0% 总量温和下滑, M2.7 掉出 Top9 M2.7 上周 #8 本周掉出榜单, 厂商总量承压, 无新模型对冲。
#9 Z.ai 0 / 0 987B -2.0% 总量轻微下滑 在榜模型表现平稳, 无显著内部迁移。

三、行业趋势洞察

趋势 1 · 开源迭代加速

DeepSeek 以月度级迭代节奏推动 V4 系列快速上位 — V4 Flash 上线两周内从 #9 跃升至 #5 (+57.8%), V4 Pro 新上榜 #9, 同期 V3.2 下降 4.4%, 内部替代共现。关注:V4 系列能否持续维持增长动能, 以及 V3.2 的进一步衰减。

趋势 2 · 免费策略驱动

免费 / 低价模型在 Top9 中占据重要位置, 调用量占比显著 — 本周 #1 为 Tencent Hy3 免费版 (2.68T tokens), DeepSeek V4 Flash 以 $0.14/1M 输入的极低定价实现 57.8% 爆发增长。关注:免费模型转收费后的 retention 变化, 以及性价比模型对付费模型的持续挤压。

趋势 3 · 中国厂商集群崛起

中国厂商 (Tencent、DeepSeek、MoonshotAI、MiniMax、Qwen、Z.ai) 合计占 Top9 中 5 席, 总量占比超 60% — Tencent Hy3 以免费策略登顶, DeepSeek V4 系列快速切入, Kimi K2.6 稳居 #2。关注:中国厂商在全球开源模型生态中的份额持续提升, 以及海外头部 (Anthropic、Google、OpenAI) 的应对策略。

四、下周重点关注清单

  • DeepSeek V4 系列:V4 Flash 已从 #9 跃升至 #5 (+57.8%), V4 Pro 新上榜 #9, 需持续观察 V4 系列是否能维持增长动能, 以及 V3.2 的进一步衰减情况;V4 系列以极高性价比 ($0.14/1M 输入) 定位, 关注其对其他厂商定价策略的潜在影响。
  • Anthropic Opus 4.7:4 月 16 日发布后调用量 +32.1% 且排名升至 #4, 与 Sonnet 4.6 形成双旗舰格局;5 月 5 日 Anthropic 联合 JPMorgan 发布 10 个金融 Agent 模板, 进一步拓展企业场景。关注:Opus 4.7 能否进一步缩小与 Hy3 免费版的差距。
  • Tencent Hy3:免费版虽仍居 #1 但下降 11.8%, 付费版新上榜 #8, 双轨并行策略初显。关注:付费版后续调用留存, 以及免费版是否存在进一步下降趋势。
OpenRouter · 调用量与性能

整体调用量 / 厂商份额 / 性能 / 编程类(4 张)

LLM Leaderboard — Top Models 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 平台 token 调用量份额排序

排名模型公司04-27 份额05-04 份额WoW Δ
1tencent/hy3-preview-20260421:freetencent15.12%12.33%-11.8%
2moonshotai/kimi-k2.6-20260420moonshotai9.05%7.43%-11.1%
3anthropic/claude-4.6-sonnet-20260217anthropic6.71%6.69%+7.9%
4anthropic/claude-4.7-opus-20260416anthropic4.66%5.69%+32.1%
5deepseek/deepseek-v4-flash-20260423deepseek3.51%5.11%+57.8%
6google/gemini-3-flash-preview-20251217google4.85%4.95%+10.5%
7deepseek/deepseek-v3.2-20251201deepseek4.52%3.99%-4.4%
8tencent/hy3-preview-20260421tencent3.94%NEW
9deepseek/deepseek-v4-pro-20260423deepseek3.76%NEW
  • 本周榜单主要变化本周 (2026-05-04 → 2026-05-10) Top 9 出现 3 处关键变动:(1) DeepSeek V4 Flash 上升 4 位至 #5 (+57.8%) 为最大单模型涨幅;(2) Hy3 preview 付费版与 DeepSeek V4 Pro 双双新上榜 (#8 / #9), Top 9 首次出现「同厂双产品」格局 (Tencent 双 Hy3、DeepSeek 三模型);(3) Hy3 [FREE] 守住 #1 但首次 -11.8% 衰退。其余:Gemini Flash 下降 2 位至 #6,V3.2 下降 1 位至 #7,Claude Opus 4.7 上升 1 位至 #4 (+32.1%)。
  • 原因分析DeepSeek V4 系列 (4-24 发布) 以 $0.14/$0.28 per 1M tokens 极低定价 + 1M token 上下文快速获取份额,Flash 一周内吃下 V3.2 流失的份额 + 进一步压缩 MiniMax;Tencent 同步推出 Hy3 付费版以承接免费版自然 decay 的过渡;Hy3 [FREE] 上线两周后进入典型 launch spike → decay 期。Anthropic Opus 4.7 增长源于持续推广,Gemini 与 V3.2 排名下滑主因是分母被新进者拉大。

Market Share — 厂商市场份额 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 平台厂商按 token 占比

排名公司04-27 份额05-04 份额WoW Δ pp
1anthropic14.11%14.51%+0.40pp
2google14.54%14.02%-0.52pp
3tencent12.72%13.73%+1.01pp
4deepseek9.24%11.61%+2.37pp
5openai10.77%10.21%-0.56pp
6moonshotai8.86%7.39%-1.47pp
7qwen5.09%5.06%-0.03pp
8minimax4.54%3.99%-0.55pp
9z-ai4.22%3.83%-0.39pp
  • 本周榜单主要变化本周 (2026-05-04 → 2026-05-10) 厂商份额 pp 变动全部收窄至 ±3pp 以内, 与上周 Tencent +12.72pp 的极端值形成对比。3 处显著变化:(1) Anthropic 与 Google 互换 #1 / #2 (Anthropic +0.40pp 至 14.51% 升 #1, Google -0.52pp 至 14.02% 降 #2);(2) DeepSeek +2.37pp 至 11.61% 为最大单家上升, 排名 #5 → #4;(3) Moonshot AI -1.47pp 至 7.39% 为最大单家下降。其余厂商 (Tencent +1.01pp、OpenAI -0.56pp 等) 维持小幅波动。
  • 原因分析Anthropic 由 Opus 4.7 (+32.1%) 与 Sonnet 4.6 (+7.9%) 双旗舰拉动厂商总量 +11.0%;DeepSeek V4 系列双版本入榜带来厂商总量 +35.5%;Moonshot Kimi K2.6 launch spike 后进入 -11.1% 衰退期, 拖累厂商总量 -10.0%;Tencent 增速由上周 +12.72pp 大幅收窄至 +1.01pp, 反映 Hy3 [FREE] 进入 decay 期。

Performance — 模型速度排行 数据采集 · 2026-05-12 快照

p50 throughput(最佳服务方)

排名模型速度
1morph/morph-v3-large3159 tok/s
2relace/relace-apply-31571 tok/s
3openai/gpt-oss-safeguard-20b566 tok/s
4bytedance-seed/seedream-4.5329 tok/s
5openai/o3-mini-high273 tok/s
6inception/mercury216 tok/s
7openai/o3-mini214 tok/s
8google/gemini-2.5-flash-lite188 tok/s
9morph/morph-v3-fast180 tok/s
  • 本周榜单主要变化无重要变化。

Programming — 编程类调用量 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 编程任务 token 累计

排名模型公司调用量 (周)WoW Δ
1tencent/hy3-preview-20260421:freetencent2.70T-28.8%
2moonshotai/kimi-k2.6-20260420moonshotai2.16T-21.6%
3anthropic/claude-4.7-opus-20260416anthropic594.71B+56.5%
4deepseek/deepseek-v4-pro-20260423deepseek541.64BNEW
5stepfun/step-3.5-flashstepfun523.61B-22.7%
6anthropic/claude-4.6-sonnet-20260217anthropic514.75B-13.5%
7deepseek/deepseek-v4-flash-20260423deepseek476.90B+166.4%
8nvidia/nemotron-3-super-120b-a12b-20230311:freenvidia370.99B+7.6%
9minimax/minimax-m2.7-20260318minimax352.53B-27.7%
  • 本周榜单主要变化本周 (2026-05-04 → 2026-05-10) 编程类调用量 Top 9 整体呈现「头部回落, 尾部新上线」格局: Hy3 [FREE] 仍居 #1 (2.70T) 但 -28.8%, Kimi K2.6 守 #2 (2.16T) 但 -21.6%, 头部双雄同步衰退;DeepSeek V4 Pro 新上榜直接进入 #4 (542B), V4 Flash 上升至 #7 (+166.4%); Claude Opus 4.7 凭 +56.5% 升至 #3 (595B)。Step 3.5 / Sonnet 4.6 / Nemotron / M2.7 均出现两位数下滑。
  • 原因分析编程场景与总调用量榜的衰退节奏一致, 但幅度更大 — Hy3 [FREE] 在编程任务上的回吐幅度 (-28.8%) 远超总榜 (-11.8%), 说明编程开发者率先对免费 spike 模型产生选择性迁移;DeepSeek V4 系列 (Pro + Flash) 同期发布凭借 $0.14/$0.28 per 1M tokens 极低定价快速承接份额;Claude Opus 4.7 +56.5% 反映企业级编程任务的稳态使用持续扩张, 不受免费替代品冲击。
其他榜单

能力评测 — 16 张外部基准 (国际 13 + 国内 3)

大语言模型 / 代码 / 图像 / 理科 / 数学 / HLE / Agent / 综合智能 / 国内 OpenCompass × 2 + MedBench。分析生成 · 2026-05-12 数据采集 · 2026-05-12 · Δ 对照分析报告参考周期 2026-04-27 · AA Intelligence 因 2026-05-12 抓取局部异常,临时回退至 2026-05-08 (回退) 数据。

大语言模型 · Text Arena

LMArena 文本对话盲测 ELO

LMArena · Text Arena 数据采集 · 2026-05-12

用户对比投票 ELO 排名

排名模型公司ELOΔ
1claude-opus-4-7-thinkingAnthropic1503
2claude-opus-4-6-thinkingAnthropic1502
3claude-opus-4-6Anthropic1498
4gemini-3.1-pro-previewGoogle1492↑1
5claude-opus-4-7Anthropic1491↓1
6muse-sparkMeta1490
7gemini-3-proGoogle1486
8gpt-5.5-highOpenAI1484NEW
9grok-4.20-beta1xAI1480↓1
10gpt-5.2-chat-latest-20260210OpenAI1477NEW
  • 本周榜单主要变化GPT 5.5 High 和 GPT 5.2 Chat 新上榜,分别位列第 8 和第 10。GPT 5.4 High 和 Grok 4.20 Beta reasoning 跌出 Top10。Anthropic 继续霸榜前 4,Claude Opus 4.7 Thinking 保持第 1。
  • 原因分析OpenAI 于 4 月 23 日发布 GPT 5.5,定位复杂推理、多模态和 Agent 框架,1.1M Token 上下文,在通用对话场景迅速获得用户投票认可。GPT 5.2 Chat 作为 GPT 5.2 系列的对话优化版本进入 Top10,反映 OpenAI 对对话体验的持续迭代。Grok 4.20 Beta reasoning 跌出,因 xAI 于 5 月 1 日发布 Grok 4.3,用户注意力与 API 流量向新版本迁移。Anthropic Claude Opus 4.7(4 月 16 日发布)凭借在软件工程和长任务可靠性的提升,持续占据榜首。
代码能力 · Code Arena + LiveCodeBench + SWE-bench

代码盲测 ELO + 真实代码任务解决率

LMArena · Code Arena 数据采集 · 2026-05-12

代码任务对比投票 ELO

排名模型公司ELOΔ
1claude-opus-4-7-thinkingAnthropic1570
2claude-opus-4-7Anthropic1560
3claude-opus-4-6-thinkingAnthropic1549
4claude-opus-4-6Anthropic1544
5glm-5.1Z.ai1531
6claude-sonnet-4-6Anthropic1524↑1
7kimi-k2.6Moonshot1523↓1
8muse-sparkMeta1509
9gpt-5.5-high (codex-harness)OpenAI1491NEW
10claude-opus-4-5-20251101-thinking-32kAnthropic1490↓1
  • 本周榜单主要变化GPT 5.5 High (codex-harness) 新上榜第 9,Qwen3.6 Plus 跌出 Top10。Anthropic 继续垄断前 4 名,Claude Opus 4.7 Thinking 以 1570 ELO 稳居第 1。
  • 原因分析GPT 5.5 在 Codex harness 下的代码能力获得用户认可,进入代码榜 Top9。Anthropic 在代码领域的统治地位进一步巩固,Claude Opus 4.7 在 SWE-Bench Verified 上达到 87.6%(较 4.6 提升 6.8 个百分点),且支持 xhigh 推理级别和超长上下文,使其在代码生成和调试场景保持绝对优势。Qwen3.6 Plus 跌出或因阿里将资源向 Qwen3.5-397B 和 Qwen3.6 Flash 倾斜。

LiveCodeBench GSO 数据采集 · 2026-05-12

Opt@1 主流 scaffold 得分

排名模型公司得分Δ
1Claude Opus 4.7Anthropic44.12
2Claude Opus 4.6Anthropic41.18
3GPT 5.5OpenAI40.20
4Claude Opus 4.6Anthropic33.33
5GPT 5.4OpenAI31.37
6GPT 5.2OpenAI27.45
7Claude Opus 4.5Anthropic26.47
8GPT 5.4OpenAI25.49
9Gemini 3.1 ProGoogle22.55
10Gemini 3 ProGoogle18.63
  • 本周榜单主要变化本周 (2026-05-08 → 2026-05-12) 排名零变动, Top 10 与上一窗口完全一致, 由 Anthropic Claude Opus 4.7 (44.12%) 领跑, Claude Opus 4.6 (41.18%) 第 2, GPT 5.5 (40.20%) 第 3。
  • 原因分析评测方在 2026-04-27 → 2026-05-08 期间更新了模型命名规范 (旧版 Claude-4.6-Opus / GPT-5.4 (xhigh) 等改为新版 Claude Opus 4.6 / GPT 5.4), 本卡片的 Δ 对照基准已锁定为 2026-05-08 (而非全页面统一的 2026-04-27), 以避免改名带来的 NEW 误报。
  • 结构观察Claude Opus 4.7 在 SWE-Bench Verified 达 87.6%, 在 LiveCodeBench 中同样领先;前 8 由 Anthropic / OpenAI 包揽, Google Gemini 系列仍落后, 排第 9 / 10。

SWE-bench Verified 数据采集 · 2026-05-12

真实仓库 issue 解决率

排名模型公司解决率Δ
1Claude 4.5 Opus (high reasoning)76.8%
2Gemini 3 Flash (high reasoning)75.8%
3MiniMax M2.5 (high reasoning)75.8%
4Claude Opus 4.675.6%
5GPT-5-2 Codex72.8%
6GLM-5 (high reasoning)72.8%
7GPT-5-2 (high reasoning)72.8%
8GPT 5.2 Codex72.8%
9Claude 4.5 Sonnet (high reasoning)71.4%
10Kimi K2.5 (high reasoning)70.8%
  • 本周榜单主要变化无重要变化。
图像编辑和生成 · LMArena + Artificial Analysis

图像编辑 / 文生图 共 4 张

LMArena · Image Edit Arena 数据采集 · 2026-05-12

图像编辑投票 ELO

排名模型公司ELOΔ
1gpt-image-2 (medium)OpenAI1470
2chatgpt-image-latest-high-fidelity (20251216)OpenAI1392
3gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1386↑2
4gemini-3-pro-image-preview-2k (nano-banana-pro)Google1386↓1
5gemini-3-pro-image-preview (nano-banana-pro)Google1386↓1
6gpt-image-1.5-high-fidelityOpenAI1373
7grok-imagine-image-qualityxAI1356NEW
8uni-1.1-maxLuma AI1337NEW
9grok-imagine-imagexAI1330↓2
10grok-imagine-image-pro (20260207)xAI1314↓2
  • 本周榜单主要变化Gemini 3.1 Flash Image 上升 2 位从第 5 升至第 3。Grok Imagine Image Quality 和 Luma AI Uni-1.1 Max 新上榜,分列第 7 和第 8。Grok Imagine Image (20260207) 和 Seedream 4.5 跌出 Top10。OpenAI GPT Image 2 以 1470 ELO 保持第 1。
  • 原因分析Google Gemini 3.1 Flash Image Preview 凭借与搜索功能的深度整合和低成本优势,在图像编辑场景获得用户青睐。xAI 于 5 月初发布 Grok 4.3 系列,其中 Grok Imagine Image Quality 作为新版本图像模型进入榜单。Luma AI 于 5 月 6 日正式开放 Uni-1.1 API,该模型采用自回归 Transformer 统一推理与生成,支持多参考图约束和句子级编辑,在 Arena.ai 盲测中冲进全球前三,2K 分辨率单图最低 $0.0404,已获得阿迪达斯、马自达等商业客户。Seedream 4.5 跌出反映字节跳动图像模型在编辑场景竞争力不足。

LMArena · Text-to-Image Arena 数据采集 · 2026-05-12

文生图投票 ELO

排名模型公司ELOΔ
1gpt-image-2 (medium)OpenAI1398
2gemini-3.1-flash-image-preview (nano-banana-2) [web-search]Google1268
3gemini-3-pro-image-preview-2k (nano-banana-pro)Google1242
4gpt-image-1.5-high-fidelityOpenAI1240
5gemini-3-pro-image-preview (nano-banana-pro)Google1232
6grok-imagine-image-qualityxAI1223NEW
7uni-1.1-maxLuma AI1193NEW
8uni-1.1Luma AI1190NEW
9mai-image-2Microsoft AI1181↓3
10reve-v1.5Reve1177↓3
  • 本周榜单主要变化Grok Imagine Image Quality、Luma AI Uni-1.1 Max 和 Uni-1.1 新上榜,分列第 6、第 7 和第 8。MAI Image 2 下降 3 位,Reve v1.5 下降 3 位。Grok Imagine Image、Qwen Image 2.0 Pro 和 Flux 2 Max 跌出 Top10。OpenAI GPT Image 2 保持第 1。
  • 原因分析xAI Grok 4.3 系列中的图像质量版本在文生图场景表现突出,凭借 1M Token 上下文理解和原生视频/图像多模态能力获得用户投票。Luma AI Uni-1.1 双版本进入 Top8,其 decoder-only 自回归架构实现文本与图像 token 共享同一序列,在复杂版面生成和句子级编辑上表现优异,且价格仅为 Nano Banana 级别的一半。Microsoft AI 的 MAI Image 2 和 Reve v1.5 排名下滑,面临 OpenAI、Google 和新兴厂商的三面夹击。Flux 2 Max 跌出反映 Black Forest Labs 在文生图领域的竞争压力加大。

Artificial Analysis · Image Editing 数据采集 · 2026-05-12

AA 平台图像编辑 ELO

排名模型公司ELOΔ
1GPT Image 1.5 (high)OpenAI1262
2GPT Image 2 (high)OpenAI1249
3Nano Banana Pro (Gemini 3 Pro Image)Google1241
4Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1231
5HunyuanImage 3.0 Instruct (Fal)Open WeightsTencent1222
6grok-imagine-imagexAI1213
7grok-imagine-image-proxAI1212
8Kling Image 3.0 OmniKlingAI1207NEW
9FLUX.2 [max]Black Forest Labs1206↓1
10Wan 2.7 ProAlibaba1199NEW
  • 本周榜单主要变化Kling Image 3.0 Omni 和 Wan 2.7 Pro 新上榜,分列第 9 和第 10。Kling Image 3.0 和 Kling Image O1 跌出。OpenAI GPT Image 1.5 和 GPT Image 2 保持前两名。
  • 原因分析快手 Kling Image 3.0 Omni 于近期发布,支持原生 4K 输出和 Visual Chain-of-Thought 推理,在图像编辑场景获得评测机构认可。阿里巴巴 Wan 2.7 Pro 于 4 月发布,作为开源视频生成套件的图像版本,27B 总参/14B 激活的 MoE 架构在成本效益上具有优势。Kling Image 3.0 和 O1 被新版 Omni 替代后自然跌出。OpenAI 继续凭借 GPT Image 1.5($133/1k imgs)和 GPT Image 2($211/1k imgs)的高画质输出稳居榜首。

Artificial Analysis · Text-to-Image 数据采集 · 2026-05-12

AA 平台文生图 ELO

排名模型公司ELOΔ
1GPT Image 2 (high)OpenAI1338
2GPT Image 1.5 (high)OpenAI1267
3Nano Banana 2 (Gemini 3.1 Flash Image Preview)Google1263
4Nano Banana Pro (Gemini 3 Pro Image)Google1220
5Seedream 4.0ByteDance Seed1198
6MAI-Image-2Microsoft1198↑1
7FLUX.2 [max]Black Forest Labs1197↓1
8Peanut (Open Weights Coming Soon)Peanut1188NEW
9FLUX.2 [pro]Black Forest Labs1186↓1
10grok-imagine-imagexAI1182↓1
  • 本周榜单主要变化Peanut (Open Weights Coming Soon) 新上榜第 8,Grok Imagine Image 跌出 Top10。OpenAI GPT Image 2 以 1338 ELO 保持第 1。
  • 原因分析Peanut 作为即将开源的新模型于 5 月进入榜单,引发社区关注,但其「Coming Soon」状态意味着评分可能基于预览版本或早期测试。Grok Imagine Image 跌出或因 xAI 将资源集中于 Grok Imagine Image Quality 新版本。Black Forest Labs 的 Flux 2 系列(max/pro/flex)占据第 5、第 9、第 10 位,显示开源模型在文生图领域仍有一席之地。
理科能力 · GPQA

PhD 级科学多选

GPQA Diamond 数据采集 · 2026-05-12

研究级科学推理

排名模型公司得分Δ
1Claude Mythos PreviewAnthropic94.60
2Gemini 3.1 ProGoogle94.30
3Claude Opus 4.7Anthropic94.20
4GPT-5.5OpenAI93.60
5GPT-5.2 ProOpenAI93.20
6GPT-5.4OpenAI92.80
7GPT-5.2OpenAI92.40
8Gemini 3 ProGoogle91.90
9Claude Opus 4.6Anthropic91.30
10Kimi K2.6Moonshot AI90.50
  • 本周榜单主要变化无重要变化。
前沿数学 · Epoch FrontierMath

前沿数学问题准确率

Epoch FrontierMath 数据采集 · 2026-05-12

前沿数学问题准确率

排名模型公司得分Δ
1GPT-5.5 Pro (high)OpenAI52.4%
2GPT-5.5 (xhigh)OpenAI51.7%
3GPT-5.5 Pro (xhigh)OpenAI51.0%
4GPT-5.4 Pro (xhigh)OpenAI50.0%
5GPT-5.4 (xhigh)OpenAI47.6%
6Claude Opus 4.7 (xhigh)Anthropic43.8%
7Claude Opus 4.6 (max)Anthropic40.7%
8GPT-5.2 (xhigh)OpenAI40.7%
9GPT-5.2 (high)OpenAI40.3%
10Claude Opus 4.6 (32k thinking)Anthropic40.0%
  • 本周榜单主要变化无重要变化。
多模态基准 · Scale Humanity's Last Exam

高难度知识推理

Scale Humanity's Last Exam 数据采集 · 2026-05-12

高难度知识推理

排名模型公司得分Δ
1gemini-3.1-pro-preview (thinking high)46.44
2gpt-5.4-pro-2026-03-0544.32
3Muse Spark40.56
4gemini-3-pro-preview37.52
5gpt-5.4-2026-03-05 (xhigh thinking)36.24
6claude-opus-4-736.20
7claude-opus-4-6-thinking-max34.44
8gpt-5-pro-2025-10-0631.64
9gpt-5.2-2025-12-1127.80
10gpt-5-2025-08-0725.32
  • 本周榜单主要变化无重要变化。
Agent · HuggingFace GAIA

工具调用 + 多步推理

HuggingFace · GAIA Agent Leaderboard 数据采集 · 2026-05-12

通用 agent 平均分(level 1/2/3 加权)

排名模型公司平均分Δ
1OPS-Agentic-SearchAlibaba Cloud92.36
2openJiuwen-deepagentopenJiuwen91.69
3LemonLR AILab of Lenovo CTO Org91.36
4JoinAI_V2.2JoinAI-CMCC90.70
5Nemotron-ToolOrchestra-0107NVIDIA90.37↑1
6Nemotron-ToolOrchestra-0106NVIDIA90.37↓1
7JoinAI_V2.1JoinAI-CMCC90.03
8SU Zero - Shuqian Series Pro MAXSuzhou AI Lab, Shuqian Tech90.03
9HALO V1217-1Microsoft AI Asia - Ads89.37↑1
10ShawnAgent_v3.189.37↓1
  • 本周榜单主要变化无重要变化。
综合智能 · Artificial Analysis Intelligence Index

AA 综合智能评分(多基准加权)

Artificial Analysis Intelligence Index 数据采集 · 2026-05-08 (回退)

综合智能评分(实时)

排名模型公司得分Δ
1GPT-5.5 (xhigh)openai60.20
2Claude Opus 4.7 (Adaptive Reasoning, Max Effort)anthropic57.30
3Gemini 3.1 Pro Previewgoogle57.20
4GPT-5.4 (xhigh)openai56.80
5Kimi K2.6moonshotai53.90
6MiMo-V2.5-Proxiaomi53.80
7GPT-5.3 Codex (xhigh)openai53.60
8Grok 4.3x-ai53.20NEW
9Claude Opus 4.6 (Adaptive Reasoning, Max Effort)anthropic53.00↓1
10Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)anthropic51.70↓1
  • 本周榜单主要变化GPT 5.5 Pro 新上榜第 1(60.2 分),Grok 4.3 新上榜第 8(53.2 分)。GPT 5.5 (xhigh) 和 DeepSeek V4 Pro 跌出。OpenAI 继续占据第 1、第 4、第 7 名。
  • 原因分析GPT 5.5 Pro 以 60.2 分登顶 Intelligence Index,较 Claude Opus 4.7(57.3 分)领先 2.9 分,反映 OpenAI 在综合推理、工具调用和多模态能力上的全面领先。Grok 4.3 于 5 月 1 日发布,以 53.2 分进入 Top8,其 1M Token 上下文、推理速度提升 3 倍和降价 40% 的 API 策略($1.25/M 输入)获得市场认可。DeepSeek V4 Pro 跌出或因 V4 Flash 的发布导致用户和评测方注意力转移。小米 MiMo-V2.5-Pro 以 53.8 分保持第 6,是中国厂商中排名最高的非推理模型。
— 国内榜单 · OpenCompass × 2 + MedBench —
大语言模型 · OpenCompass

OpenCompass 中文综合评测

OpenCompass · 大语言模型榜 数据采集 · 2026-05-12

OpenCompass 综合评测

排名模型公司得分Δ
1Gemini-3-Pro-PreviewGoogle76.50
2Qwen3-Max-2026-01-23Alibaba74.40
3Claude Opus 4.5 (Thinking)Anthropic74.20
4Kimi-K2.5Moonshot73.30
5GPT-5.2-2025-12-11 (high)OpenAI73.10
6GLM-4.7Zhipu AI72.80
7Kimi-K2-ThinkingMoonshot71.10
8DeepSeek-V3.2DeepSeek70.80
9Claude Sonnet 4.5 (Thinking)Anthropic69.40
10Tencent HY 2.0 ThinkTencent69.10
  • 本周榜单主要变化无重要变化。
多模态模型 · OpenCompass

OpenCompass 多模态综合评测

OpenCompass · 多模态模型榜 数据采集 · 2026-05-12

OpenCompass 多模态综合评测

排名模型公司得分Δ
1Gemini-3.1-Pro-PreviewGoogle66.62
2Qwen3.5-397BAlibaba65.41
3Doubao-Seed-2.0-Pro (medium)ByteDance63.19
4Kimi-k2.5Moonshot AI63.05
5SenseNova-V6-5-Pro-20251215SenseTime55.61
6Claude-Opus-4-6Anthropic55.16
7GLM4_6VZhipu AI52.54
8GPT-5.4OpenAI51.55
9Step3-VL-10BStepFun48.80
10Ovis2.6-30B-A3BAlibaba48.37
  • 本周榜单主要变化无重要变化。
医疗健康 · MedBench

中文医疗领域专项评测

MedBench · 医疗大模型榜 数据采集 · 2026-05-12

中文医疗领域评测

排名模型公司得分Δ
1京医千询京东健康72.60
2卓睦鸟医疗大模型广州中康数字科技有限公司72.10
3千问健康大模型千问C端71.20
4华为云健康管理大模型Huawei71.00
5WiseDiag v2杭州智诊科技有限公司69.80
6微医医疗大模型微医68.20
7AntAngelMedMedAIBase68.00
8UniGPT-Med-U1云知声智能科技股份有限公司65.70
9惠每医疗大模型上海新创惠每科技有限公司60.00
10Grok-4xAI58.40
  • 本周榜单主要变化无重要变化。
02 DYNAMIC ANALYSIS

动态分析

周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。

A · 01本周一览

本周大盘三项核心指标

本期 (2026-05-04 → 2026-05-10) 大盘 21.72T tokens, 环比 +8.2%; 上一窗口集中发布的 5 款旗舰模型本期进入 token 沉淀期; 4 周均值 +6.5%, 大盘仍在结构性上行段。

01

本周 OpenRouter 共流转 21.72T tokens, 环比 +8.2% — 较上周 20.07T 继续上行, 但增速从 +9.8% 略缓。

大盘仍处历史高位;增速放缓主因是上周 4-23 → 4-24 的旗舰发布窗口已经过去, 本周进入新模型的 token 沉淀期。
02

上周 5 家头部厂商 8 天密集发布旗舰 — Anthropic Opus 4.7 (4-16)、Moonshot Kimi K2.6 (4-20)、OpenAI GPT-5.5 (4-23)、Tencent Hy3 preview (4-24)、DeepSeek V4 系列 (4-24)。

本周 Top 9 中已有 6 款来自这一发布密集期;后面 4 章节每一处变化都和其中某一款相关 — 这也是为什么本周值得专门拆开看。
03

大盘 4 周均值 +6.5%, 本周 +8.2% 仍高于均值。

连续 4 周环比正增长 (依次 +5.1% / +6.4% / +9.8% / +8.2%) — 增速虽较上周回落, 但仍处结构性扩张段。后续判断关键是 Hy3 [FREE] 免费期结束后是否会带来 token 回吐。

本期关键指标 数据采集 · 2026-05-04 → 2026-05-10

本期 2026-05-04 → 2026-05-10 · Δ 对照上一窗口 2026-04-27 → 2026-05-03

live
本周 token 总量
21.72T
+8.2% WoW · vs 上周 · 20.07T
近 4 周大盘 WoW 涨幅
沉淀期 · 本周 Top 9
6 / 9
来自 4-16 ~ 4-24 发布期
头部 5 家旗舰发布时间线
  • 04-16 Anthropic Claude Opus 4.7
  • 04-20 Moonshot Kimi K2.6
  • 04-23 OpenAI GPT-5.5
  • 04-24 Tencent Hy3 preview
  • 04-24 DeepSeek V4 Flash / Pro
近 4 周平均周环比
+6.5%
大盘仍处结构性扩张
本周 vs 近 4 周均值
本周
+8.2%
avg
+6.5%
高出均值 1.26×
B · 02调用量 Top 9 · 2026-05-04 → 2026-05-10

本周 Top 9 的 3 处关键变动

本周 Top 9 出现首次的「双版本现象」: Tencent 与 DeepSeek 同时各有两款模型入榜。三个数字撑起本周叙事 — Hy3 [FREE] 首次衰退、V4 Flash 单周冲到第 5、Hy3 付费版 + V4 Pro 双双新上榜。

01

首次衰退 #1 — Hy3 Preview [FREE]:2.68T tokens · -11.8% WoW · 仍蝉联第 1, 但出现首次回吐。

上周空降 #1 (3.03T) 之后, 本周开始可见 decay 信号。免费通道结束前的标准 launch-spike → decay 轨迹, 后续两周是检验「免费转付费」机制的关键节点。
02

最大单模型涨幅 #5 — DeepSeek V4 Flash:第 9 → 第 5 (上升 4 位) · +57.8% WoW · 1.11T tokens。

$0.14 / $0.28 per 1M tokens 的定价 (Claude Opus 4.7 的 1/35) + 1M token 上下文 + SWE-Bench 80.6%。性价比最敏感的开发者层面立刻投票, 一周内吃下整个 V3.2 流失的份额。
03

双版本新入榜 — Hy3 付费版 #8 + V4 Pro #9:同周各有两家厂商把自家第二款也送进 Top 9。

Hy3 paid (857B) 是免费版的姊妹付费档, 验证「免费 → 付费」转化雏形;V4 Pro (816B, $1.74/$3.48) 与 V4 Flash 同期发布, 高低价位双线攻入榜单 — Top 9 第一次出现「同厂双产品」格局。

Token 调用量 · Top 9 数据采集 · 2026-05-04 → 2026-05-10

2026-04-27 → 2026-05-04 · 单位 B tokens · 按厂商着色

9 / 9
横向条形 · 降序 · `tabular-nums` — · 全量视图
C · 03排名变迁 · 近 4 周

近 4 周 Top 模型排名走势

把 4 个连续 7 天窗口叠在一起看, 浮现 4 种不同的产品轨迹: V4 Flash 是最陡的「跃升曲线」、Hy3 是「空降后持稳」、Sonnet 4.6 是「平滑下滑」、V3.2 是「连续退让」。

01

DeepSeek V4 Flash 是最陡的跃升曲线: 04-27 窗口 #9 入榜, 下一窗口 (05-04 起) 跳到 #5。

单周上升 4 位在近期 Top 9 内属于罕见幅度;价格 + 上下文窗口 + 代码能力三档同时拉满, 开发者用脚投票最快的产品轨迹之一。
02

Hy3 Preview [FREE] 是「空降后持稳」: 04-27 窗口 #1 入榜, 05-04 窗口仍守住 #1。

尽管 token 量 -11.8%, 排名未跌 — 体量优势仍足以拉开与 #2 的距离。后续两周是检验是否能稳定在 Top 3 的关键。
03

Claude Sonnet 4.6 是平滑下滑曲线: 1 → 2 → 3 → 3 (4 周连续退一档后稳住第 3)。

绝对调用量并未明显下滑 (+7.9% WoW 本周), 排名下降主要是分母被新进者拉大造成的相对位移 — 不是产品衰退。
04

DeepSeek V3.2 连续退让: 2 → 3 → 6 → 7 (4 周连续掉 5 档)。

先后被外部 (Hy3 / K2.6) 和自家 (V4 Flash) 两次替代。同厂内部新旧版本迁移完成后, V3.2 的份额转给 V4 系列;模型迭代周期压缩至月度级的最清晰案例。

排名变迁 · 近 4 周 数据采集 · 04-13 → 05-04

X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines

6 lines
线段断点表示当周未进 Top · 不插值 — · 全量视图
D · 04厂商份额 Δ · 2026-04-27 → 2026-05-04

厂商份额变化分布: 上周「单家暴涨」格局回归多家竞争

本周厂商份额 pp 变动幅度全部收窄至 ±3pp 以内, 与上周 Tencent +12.72pp 的极端值形成鲜明对比。3 家正向 / 5 家负向 — 多家竞争而非单家垄断的格局。

01

DeepSeek +2.37pp — 本周最大单家上升: 全部来自 V4 系列双版本入榜。

V4 Flash 单模型 +57.8% (#5)、V4 Pro 新上榜 (#9), 抵消 V3.2 -4.4% 的下滑。厂商总量从 2.20T 升至 2.99T (+35.5%)。
02

Tencent +1.01pp — 增速大幅放缓: 上周 +12.72pp 后本周仅 +1.01pp, 但仍是正向。

免费版 Hy3 -11.8% 但被付费版新上榜 (857B) 抵消, 厂商总量小幅扩张。腰部从 0 变成 1 (paid 版), 但暂时还撑不起免费版回吐的部分。
03

Anthropic +0.40pp — 由负转正: 上周 -3.34pp 的承压后本周转为温和回升。

Opus 4.7 +32.1% 推动厂商总量 +11.0%, Sonnet 4.6 +7.9% 同步贡献。「上周下降是稀释而非衰退」的判断在本周得到验证 — 内部新旧版本迁移已平稳过渡。
04

Moonshot AI -1.47pp — 本周最大单家下降: launch spike 衰退期。

Kimi K2.6 -11.1% 拖累厂商总量 -10%。属于典型「上周首发夺冠 → 本周自然回落」的曲线;评测端的 Top 5 位置尚未让出, 但调用量层面已开始 decay。

厂商份额 Δ 数据采集 · 2026-04-27 → 2026-05-04

百分点变动 · 中线 0 · 绿正红负

9 厂商
正向 + 3 家 · 负向 - 5 家 · 持平 1 家 — · 全量视图
E · 05区域版图 · 05-04 vs 04-27

国产份额继续上行, 海外三家份额暂稳, 长尾被持续挤压

本周中国厂商累计份额 44.67% → 45.61% (+0.94pp), 较上周 +12.07pp 的猛冲明显放缓但仍在上行;海外三家从 39.42% → 38.74% (-0.68pp), 退守速度也减慢;长尾继续被压缩, Others 29.76% → 28.53% (-1.23pp)。

01

国产阵营继续上行至 45.61% (+0.94pp): 从冲刺转为爬坡。

Tencent (12.72→13.73) + DeepSeek (9.24→11.61) + Moonshot (8.86→7.39) + Qwen (5.09→5.06) + MiniMax (4.54→3.99) + Z.ai (4.22→3.83) 累计 token 池。注意是「6 家中 3 家上升、3 家下降」的混合走势 — 上周由 Tencent 单家拉起, 本周变成 DeepSeek 主推。
02

海外三家份额暂稳: 39.42% → 38.74% (-0.68pp), 退守速度大幅减慢。

Anthropic +0.40pp (恢复)、OpenAI -0.56pp、Google -0.52pp。上周三家合计 -6.05pp 的恐慌式回吐, 本周收敛至 -0.68pp。其中 Anthropic 由负转正是关键 — 「上周下降是稀释而非衰退」的判断得到验证。
03

长尾继续被挤压: Others 29.76% → 28.53% (-1.23pp), 已连续两周失血。

头部 6 家继续分食长尾流量。这两周累计长尾流失 11.4pp — 「新发布密集期会先吃长尾再切对手」的结构性规律在第二周仍在生效。

厂商份额组成 数据采集 · 05-04 (外环) vs 04-27 (内环)

双层 doughnut · 7 段

% of total tokens