关键动态

分析生成 · 2026-05-12 数据采集 · 2026-05-05 → 2026-05-12 · 21 主体 / 4 有进展

OpenAI2026-05-05默认模型变更

ChatGPT default model upgraded to GPT-5.5 Instant

OpenAI 将 ChatGPT 默认模型升级为 GPT-5.5 Instant,结合 GPT-5.5 基础智力与极速回复。免费用户可用,幻觉减少 52.5%,新增记忆来源展示,回答更简洁温暖。

来源 openai.com· 交叉验证：OpenAI 官方 + 量子位

字节2026-05-06模型能力升级

Doubao-Seed-2.0-lite 升级,支持全模态理解

字节跳动豆包大模型团队宣布 Doubao-Seed-2.0-lite 升级,新增全模态理解能力,在保持轻量化的同时扩展视觉、音频等多模态输入支持。

来源 developer.volcengine.com· 交叉验证：火山引擎官方 + 量子位

百度2026-05-09核心模型发布

百度发布文心大模型 5.1：搜索能力位居国内首位,预训练成本仅为业界 6%

百度正式发布文心 5.1,采用「多维弹性预训练」技术,总参数压缩至文心 5.0 的约 1/3,激活参数约 1/2,仅以业界同规模模型 6% 的预训练成本达到基础效果领先。LMArena 搜索榜国内第一、全球第四。

来源 ithome.com· 交叉验证：IT 之家 + 量子位

阶跃星辰2026-05-09垂直模型发布

阶跃星辰发布新一代实时语音大模型 StepAudio 2.5 Realtime,支持情绪感知与人设自定义

阶跃星辰发布 StepAudio 2.5 Realtime 实时语音大模型,能通过语调、语速等副语言感知用户情绪,支持开发者精细化定制 AI 角色性格与背景,打造更具活人感的对话体验。

来源 ithome.com· 交叉验证：IT 之家 + 量子位

17 / 21其他监控主体本周无重大更新

Anthropic
Google
Meta
xAI
Microsoft
Nvidia
Mistral
阿里
腾讯
美团
智谱
DeepSeek
月之暗面
MiniMax
华为
快手
小米

本周核心趋势洞察3 条分析生成 · 2026-05-12

趋势 1

默认模型升级成为头部厂商竞争新焦点 — OpenAI 与百度本周分别通过 GPT-5.5 Instant 和 ERNIE 5.1 完成默认模型 / 旗舰基座升级,且均强调「更低幻觉 + 更高效率」的组合优化,显示头部厂商正从单纯参数竞赛转向用户体验与成本效率的精细化打磨。

趋势 2

全模态轻量化模型加速渗透端侧场景 — 字节 Doubao-Seed-2.0-lite 在保持轻量定位的同时扩展全模态理解能力,表明「轻量模型 + 全模态」正成为端侧部署与消费级应用落地的核心路径,端侧模型不再局限于纯文本交互。

趋势 3

语音交互进入「实时情感化」新阶段 — 阶跃星辰 StepAudio 2.5 Realtime 聚焦副语言情绪感知与千万级人设自定义,标志着语音大模型从「准确识别」向「自然交互」跃迁,实时语音有望成为继文本 Agent 之后的下一个高频落地场景。

OpenRouter 分析

OpenRouter 平台调用量与性能

分析生成 · 2026-05-12 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 竞争格局周度分析报告报告周期 · 2026-04-27 至 2026-05-04数据截至 · 2026-05-11分析生成 · 2026-05-13

一、Top 9 模型竞争格局总览

本周 Top 9 模型快照

排名	模型	厂商	Tokens (B)	WoW	变化	健康风险提示
#1	FREE tencent/hy3-preview-20260421:free	Tencent	2,678	-11.8%	排名不变	[FREE] 排名受免费驱动;P/C=63 正常;R/C=0.0 正常;App 集中度=12.9% 正常;无显著数据风险
#2	moonshotai/kimi-k2.6-20260420	MoonshotAI	1,614	-11.1%	排名不变	P/C=232 偏高, 但 Programming%=122.7% 属编程场景正常模式;R/C=2.41 正常;App 集中度=8.7% 正常;无显著数据风险
#3	anthropic/claude-4.6-sonnet-20260217	Anthropic	1,453	+7.9%	排名不变稳定名列前茅	P/C=64 正常;R/C=0.07 正常;App 集中度=38.1% 正常;无显著数据风险
#4	anthropic/claude-4.7-opus-20260416	Anthropic	1,235	+32.1%	上升 1 位	P/C=75 正常;R/C=0.02 正常;App 集中度=27.8% 正常;无显著数据风险
#5	deepseek/deepseek-v4-flash-20260423	DeepSeek	1,111	+57.8%	上升 4 位排名大幅上升	P/C=50 正常;R/C=1.18 正常;App 集中度=34.7% 正常;无显著数据风险;驱动因素：DeepSeek V4 系列 4 月 24 日发布
#6	google/gemini-3-flash-preview-20251217	Google	1,075	+10.5%	下降 2 位	P/C=22 正常;R/C=0.19 正常;App 集中度=16.5% 正常;无显著数据风险
#7	deepseek/deepseek-v3.2-20251201	DeepSeek	868	-4.4%	下降 1 位	P/C=27 正常;R/C=0.12 正常;App 集中度=11.7% 正常;无显著数据风险
#8	tencent/hy3-preview-20260421	Tencent	857	N/A	新上榜	P/C=63 正常;R/C=0.0 正常;App 集中度=0.9% 正常;无显著数据风险
#9	deepseek/deepseek-v4-pro-20260423	DeepSeek	816	N/A	新上榜	P/C=105 正常;R/C=1.49 正常;App 集中度=32.9% 正常;无显著数据风险

排名变化较大的 Top 模型总结

#5 deepseek-v4-flash · #9 → #5 (上升 4 位) · WoW +57.8% · 爆发增长

模型健康度：P/C=50 正常 · R/C=1.18 正常 · App 集中度 Top5=34.7% 正常 · 风险提示：无显著数据风险

驱动因素：4 月 24 日 DeepSeek V4 系列正式发布, v4-flash 以 284B 参数 / 13B 激活、$0.14/1M 输入的极高性价比获得快速采用。
#8 tencent/hy3-preview · #— → #8 (新上榜) · WoW N/A · 新上榜

模型健康度：P/C=63 正常 · R/C=0.0 正常 · App 集中度 Top5=0.9% 正常 · 风险提示：无显著数据风险
#9 deepseek-v4-pro · #— → #9 (新上榜) · WoW N/A · 新上榜

模型健康度：P/C=105 正常 · R/C=1.49 正常 · App 集中度 Top5=32.9% 正常 · 风险提示：无显著数据风险
#6 gemini-3-flash-preview · #4 → #6 (下降 2 位) · WoW +10.5% · 温和增长

模型健康度：P/C=22 正常 · R/C=0.19 正常 · App 集中度 Top5=16.5% 正常 · 风险提示：无显著数据风险

二、Top 厂商格局表

排名	厂商	最近两周上榜模型数	本周 tokens	总量 WoW	关键观察	厂商内部模型变动简述
#1	Anthropic	2 / 3	3,736B	+11.0%	总量稳居第一, 双旗舰驱动增长	Sonnet 4.6 稳居 #3 且调用量温和增长 +7.9%;Opus 4.7 从 #5 上升至 #4, 调用量 +32.1%, 带动厂商总量上升;Opus 4.6 掉出 Top9, 新旧版本内部迁移迹象明显, 需持续观察。
#2	Google	1 / 1	3,610B	+4.1%	总量温和增长, 单一模型支撑	Gemini 3.1 Flash Preview 从 #4 降至 #6, 但调用量仍增长 +10.5%, 整体表现平稳。
#3	Tencent	2 / 1	3,535B	+16.5%	总量显著增长, Hy3 免费版持续领跑	Hy3 preview :free 虽下降 11.8% 但仍居 #1;Hy3 preview 付费版新上榜 #8, 免费与付费双轨并行, 需关注付费版后续留存。
#4	DeepSeek	3 / 1	2,988B	+35.5%	总量大幅跃升, V4 系列拉动明显	V4 Flash 从 #9 跃升至 #5, 调用量 +57.8%;V4 Pro 新上榜 #9;V3.2 从 #6 降至 #7, 调用量 -4.4%, V4 系列内部替代效应显著。
#5	OpenAI	0 / 0	2,630B	+2.3%	总量平稳, 无模型进入 Top9	在榜模型表现平稳, 无显著内部迁移。
#6	MoonshotAI	1 / 1	1,903B	-10.0%	总量温和下滑	Kimi K2.6 稳居 #2, 但调用量下降 11.1%, 需关注后续稳定性。
#7	Qwen	0 / 0	1,302B	+7.2%	总量温和增长, 无模型进入 Top9	在榜模型表现平稳, 无显著内部迁移。
#8	MiniMax	0 / 1	1,028B	-5.0%	总量温和下滑, M2.7 掉出 Top9	M2.7 上周 #8 本周掉出榜单, 厂商总量承压, 无新模型对冲。
#9	Z.ai	0 / 0	987B	-2.0%	总量轻微下滑	在榜模型表现平稳, 无显著内部迁移。

三、行业趋势洞察

趋势 1 · 开源迭代加速

DeepSeek 以月度级迭代节奏推动 V4 系列快速上位 — V4 Flash 上线两周内从 #9 跃升至 #5 (+57.8%), V4 Pro 新上榜 #9, 同期 V3.2 下降 4.4%, 内部替代共现。关注：V4 系列能否持续维持增长动能, 以及 V3.2 的进一步衰减。

趋势 2 · 免费策略驱动

免费 / 低价模型在 Top9 中占据重要位置, 调用量占比显著 — 本周 #1 为 Tencent Hy3 免费版 (2.68T tokens), DeepSeek V4 Flash 以 $0.14/1M 输入的极低定价实现 57.8% 爆发增长。关注：免费模型转收费后的 retention 变化, 以及性价比模型对付费模型的持续挤压。

趋势 3 · 中国厂商集群崛起

中国厂商 (Tencent、DeepSeek、MoonshotAI、MiniMax、Qwen、Z.ai) 合计占 Top9 中 5 席, 总量占比超 60% — Tencent Hy3 以免费策略登顶, DeepSeek V4 系列快速切入, Kimi K2.6 稳居 #2。关注：中国厂商在全球开源模型生态中的份额持续提升, 以及海外头部 (Anthropic、Google、OpenAI) 的应对策略。

四、下周重点关注清单

DeepSeek V4 系列：V4 Flash 已从 #9 跃升至 #5 (+57.8%), V4 Pro 新上榜 #9, 需持续观察 V4 系列是否能维持增长动能, 以及 V3.2 的进一步衰减情况;V4 系列以极高性价比 ($0.14/1M 输入) 定位, 关注其对其他厂商定价策略的潜在影响。
Anthropic Opus 4.7：4 月 16 日发布后调用量 +32.1% 且排名升至 #4, 与 Sonnet 4.6 形成双旗舰格局;5 月 5 日 Anthropic 联合 JPMorgan 发布 10 个金融 Agent 模板, 进一步拓展企业场景。关注：Opus 4.7 能否进一步缩小与 Hy3 免费版的差距。
Tencent Hy3：免费版虽仍居 #1 但下降 11.8%, 付费版新上榜 #8, 双轨并行策略初显。关注：付费版后续调用留存, 以及免费版是否存在进一步下降趋势。

OpenRouter · 调用量与性能

整体调用量 / 厂商份额 / 性能 / 编程类（4 张）

LLM Leaderboard — Top Models 数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 平台 token 调用量份额排序

排名	模型	公司	04-27 份额	05-04 份额	WoW Δ
1	tencent/hy3-preview-20260421:free	tencent	15.12%	12.33%	-11.8%
2	moonshotai/kimi-k2.6-20260420	moonshotai	9.05%	7.43%	-11.1%
3	anthropic/claude-4.6-sonnet-20260217	anthropic	6.71%	6.69%	+7.9%
4	anthropic/claude-4.7-opus-20260416	anthropic	4.66%	5.69%	+32.1%
5	deepseek/deepseek-v4-flash-20260423	deepseek	3.51%	5.11%	+57.8%
6	google/gemini-3-flash-preview-20251217	google	4.85%	4.95%	+10.5%
7	deepseek/deepseek-v3.2-20251201	deepseek	4.52%	3.99%	-4.4%
8	tencent/hy3-preview-20260421	tencent	—	3.94%	NEW
9	deepseek/deepseek-v4-pro-20260423	deepseek	—	3.76%	NEW

本周榜单主要变化本周 (2026-05-04 → 2026-05-10) Top 9 出现 3 处关键变动:(1) DeepSeek V4 Flash 上升 4 位至 #5 (+57.8%) 为最大单模型涨幅;(2) Hy3 preview 付费版与 DeepSeek V4 Pro 双双新上榜 (#8 / #9), Top 9 首次出现「同厂双产品」格局 (Tencent 双 Hy3、DeepSeek 三模型);(3) Hy3 [FREE] 守住 #1 但首次 -11.8% 衰退。其余:Gemini Flash 下降 2 位至 #6,V3.2 下降 1 位至 #7,Claude Opus 4.7 上升 1 位至 #4 (+32.1%)。
原因分析DeepSeek V4 系列 (4-24 发布) 以 $0.14/$0.28 per 1M tokens 极低定价 + 1M token 上下文快速获取份额,Flash 一周内吃下 V3.2 流失的份额 + 进一步压缩 MiniMax;Tencent 同步推出 Hy3 付费版以承接免费版自然 decay 的过渡;Hy3 [FREE] 上线两周后进入典型 launch spike → decay 期。Anthropic Opus 4.7 增长源于持续推广,Gemini 与 V3.2 排名下滑主因是分母被新进者拉大。

Market Share — 厂商市场份额数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 平台厂商按 token 占比

排名	公司	04-27 份额	05-04 份额	WoW Δ pp
1	anthropic	14.11%	14.51%	+0.40pp
2	google	14.54%	14.02%	-0.52pp
3	tencent	12.72%	13.73%	+1.01pp
4	deepseek	9.24%	11.61%	+2.37pp
5	openai	10.77%	10.21%	-0.56pp
6	moonshotai	8.86%	7.39%	-1.47pp
7	qwen	5.09%	5.06%	-0.03pp
8	minimax	4.54%	3.99%	-0.55pp
9	z-ai	4.22%	3.83%	-0.39pp

本周榜单主要变化本周 (2026-05-04 → 2026-05-10) 厂商份额 pp 变动全部收窄至 ±3pp 以内, 与上周 Tencent +12.72pp 的极端值形成对比。3 处显著变化:(1) Anthropic 与 Google 互换 #1 / #2 (Anthropic +0.40pp 至 14.51% 升 #1, Google -0.52pp 至 14.02% 降 #2);(2) DeepSeek +2.37pp 至 11.61% 为最大单家上升, 排名 #5 → #4;(3) Moonshot AI -1.47pp 至 7.39% 为最大单家下降。其余厂商 (Tencent +1.01pp、OpenAI -0.56pp 等) 维持小幅波动。
原因分析Anthropic 由 Opus 4.7 (+32.1%) 与 Sonnet 4.6 (+7.9%) 双旗舰拉动厂商总量 +11.0%;DeepSeek V4 系列双版本入榜带来厂商总量 +35.5%;Moonshot Kimi K2.6 launch spike 后进入 -11.1% 衰退期, 拖累厂商总量 -10.0%;Tencent 增速由上周 +12.72pp 大幅收窄至 +1.01pp, 反映 Hy3 [FREE] 进入 decay 期。

Performance — 模型速度排行数据采集 · 2026-05-12 快照

p50 throughput（最佳服务方）

排名	模型	速度
1	morph/morph-v3-large	3159 tok/s
2	relace/relace-apply-3	1571 tok/s
3	openai/gpt-oss-safeguard-20b	566 tok/s
4	bytedance-seed/seedream-4.5	329 tok/s
5	openai/o3-mini-high	273 tok/s
6	inception/mercury	216 tok/s
7	openai/o3-mini	214 tok/s
8	google/gemini-2.5-flash-lite	188 tok/s
9	morph/morph-v3-fast	180 tok/s

本周榜单主要变化无重要变化。

Programming — 编程类调用量数据采集 · 2026-05-04 → 2026-05-10

OpenRouter 编程任务 token 累计

排名	模型	公司	调用量 (周)	WoW Δ
1	tencent/hy3-preview-20260421:free	tencent	2.70T	-28.8%
2	moonshotai/kimi-k2.6-20260420	moonshotai	2.16T	-21.6%
3	anthropic/claude-4.7-opus-20260416	anthropic	594.71B	+56.5%
4	deepseek/deepseek-v4-pro-20260423	deepseek	541.64B	NEW
5	stepfun/step-3.5-flash	stepfun	523.61B	-22.7%
6	anthropic/claude-4.6-sonnet-20260217	anthropic	514.75B	-13.5%
7	deepseek/deepseek-v4-flash-20260423	deepseek	476.90B	+166.4%
8	nvidia/nemotron-3-super-120b-a12b-20230311:free	nvidia	370.99B	+7.6%
9	minimax/minimax-m2.7-20260318	minimax	352.53B	-27.7%

本周榜单主要变化本周 (2026-05-04 → 2026-05-10) 编程类调用量 Top 9 整体呈现「头部回落, 尾部新上线」格局: Hy3 [FREE] 仍居 #1 (2.70T) 但 -28.8%, Kimi K2.6 守 #2 (2.16T) 但 -21.6%, 头部双雄同步衰退;DeepSeek V4 Pro 新上榜直接进入 #4 (542B), V4 Flash 上升至 #7 (+166.4%); Claude Opus 4.7 凭 +56.5% 升至 #3 (595B)。Step 3.5 / Sonnet 4.6 / Nemotron / M2.7 均出现两位数下滑。
原因分析编程场景与总调用量榜的衰退节奏一致, 但幅度更大 — Hy3 [FREE] 在编程任务上的回吐幅度 (-28.8%) 远超总榜 (-11.8%), 说明编程开发者率先对免费 spike 模型产生选择性迁移;DeepSeek V4 系列 (Pro + Flash) 同期发布凭借 $0.14/$0.28 per 1M tokens 极低定价快速承接份额;Claude Opus 4.7 +56.5% 反映企业级编程任务的稳态使用持续扩张, 不受免费替代品冲击。

其他榜单

能力评测 — 16 张外部基准 (国际 13 + 国内 3)

大语言模型 / 代码 / 图像 / 理科 / 数学 / HLE / Agent / 综合智能 / 国内 OpenCompass × 2 + MedBench。分析生成 · 2026-05-12 数据采集 · 2026-05-12 · Δ 对照分析报告参考周期 2026-04-27 · AA Intelligence 因 2026-05-12 抓取局部异常,临时回退至 2026-05-08 (回退) 数据。

大语言模型 · Text Arena

LMArena 文本对话盲测 ELO

LMArena · Text Arena 数据采集 · 2026-05-12

用户对比投票 ELO 排名

排名	模型	公司	ELO	Δ
1	claude-opus-4-7-thinking	Anthropic	1503	—
2	claude-opus-4-6-thinking	Anthropic	1502	—
3	claude-opus-4-6	Anthropic	1498	—
4	gemini-3.1-pro-preview	Google	1492	↑1
5	claude-opus-4-7	Anthropic	1491	↓1
6	muse-spark	Meta	1490	—
7	gemini-3-pro	Google	1486	—
8	gpt-5.5-high	OpenAI	1484	NEW
9	grok-4.20-beta1	xAI	1480	↓1
10	gpt-5.2-chat-latest-20260210	OpenAI	1477	NEW

本周榜单主要变化GPT 5.5 High 和 GPT 5.2 Chat 新上榜，分别位列第 8 和第 10。GPT 5.4 High 和 Grok 4.20 Beta reasoning 跌出 Top10。Anthropic 继续霸榜前 4，Claude Opus 4.7 Thinking 保持第 1。
原因分析OpenAI 于 4 月 23 日发布 GPT 5.5，定位复杂推理、多模态和 Agent 框架，1.1M Token 上下文，在通用对话场景迅速获得用户投票认可。GPT 5.2 Chat 作为 GPT 5.2 系列的对话优化版本进入 Top10，反映 OpenAI 对对话体验的持续迭代。Grok 4.20 Beta reasoning 跌出，因 xAI 于 5 月 1 日发布 Grok 4.3，用户注意力与 API 流量向新版本迁移。Anthropic Claude Opus 4.7（4 月 16 日发布）凭借在软件工程和长任务可靠性的提升，持续占据榜首。

代码能力 · Code Arena + LiveCodeBench + SWE-bench

代码盲测 ELO + 真实代码任务解决率

LMArena · Code Arena 数据采集 · 2026-05-12

代码任务对比投票 ELO

排名	模型	公司	ELO	Δ
1	claude-opus-4-7-thinking	Anthropic	1570	—
2	claude-opus-4-7	Anthropic	1560	—
3	claude-opus-4-6-thinking	Anthropic	1549	—
4	claude-opus-4-6	Anthropic	1544	—
5	glm-5.1	Z.ai	1531	—
6	claude-sonnet-4-6	Anthropic	1524	↑1
7	kimi-k2.6	Moonshot	1523	↓1
8	muse-spark	Meta	1509	—
9	gpt-5.5-high (codex-harness)	OpenAI	1491	NEW
10	claude-opus-4-5-20251101-thinking-32k	Anthropic	1490	↓1

本周榜单主要变化GPT 5.5 High (codex-harness) 新上榜第 9，Qwen3.6 Plus 跌出 Top10。Anthropic 继续垄断前 4 名，Claude Opus 4.7 Thinking 以 1570 ELO 稳居第 1。
原因分析GPT 5.5 在 Codex harness 下的代码能力获得用户认可，进入代码榜 Top9。Anthropic 在代码领域的统治地位进一步巩固，Claude Opus 4.7 在 SWE-Bench Verified 上达到 87.6%（较 4.6 提升 6.8 个百分点），且支持 xhigh 推理级别和超长上下文，使其在代码生成和调试场景保持绝对优势。Qwen3.6 Plus 跌出或因阿里将资源向 Qwen3.5-397B 和 Qwen3.6 Flash 倾斜。

LiveCodeBench GSO 数据采集 · 2026-05-12

Opt@1 主流 scaffold 得分

排名	模型	公司	得分	Δ
1	Claude Opus 4.7	Anthropic	44.12	—
2	Claude Opus 4.6	Anthropic	41.18	—
3	GPT 5.5	OpenAI	40.20	—
4	Claude Opus 4.6	Anthropic	33.33	—
5	GPT 5.4	OpenAI	31.37	—
6	GPT 5.2	OpenAI	27.45	—
7	Claude Opus 4.5	Anthropic	26.47	—
8	GPT 5.4	OpenAI	25.49	—
9	Gemini 3.1 Pro	Google	22.55	—
10	Gemini 3 Pro	Google	18.63	—

本周榜单主要变化本周 (2026-05-08 → 2026-05-12) 排名零变动, Top 10 与上一窗口完全一致, 由 Anthropic Claude Opus 4.7 (44.12%) 领跑, Claude Opus 4.6 (41.18%) 第 2, GPT 5.5 (40.20%) 第 3。
原因分析评测方在 2026-04-27 → 2026-05-08 期间更新了模型命名规范 (旧版 Claude-4.6-Opus / GPT-5.4 (xhigh) 等改为新版 Claude Opus 4.6 / GPT 5.4), 本卡片的 Δ 对照基准已锁定为 2026-05-08 (而非全页面统一的 2026-04-27), 以避免改名带来的 NEW 误报。
结构观察Claude Opus 4.7 在 SWE-Bench Verified 达 87.6%, 在 LiveCodeBench 中同样领先;前 8 由 Anthropic / OpenAI 包揽, Google Gemini 系列仍落后, 排第 9 / 10。

SWE-bench Verified 数据采集 · 2026-05-12

真实仓库 issue 解决率

排名	模型	解决率	Δ
1	Claude 4.5 Opus (high reasoning)	76.8%	—
2	Gemini 3 Flash (high reasoning)	75.8%	—
3	MiniMax M2.5 (high reasoning)	75.8%	—
4	Claude Opus 4.6	75.6%	—
5	GPT-5-2 Codex	72.8%	—
6	GLM-5 (high reasoning)	72.8%	—
7	GPT-5-2 (high reasoning)	72.8%	—
8	GPT 5.2 Codex	72.8%	—
9	Claude 4.5 Sonnet (high reasoning)	71.4%	—
10	Kimi K2.5 (high reasoning)	70.8%	—

本周榜单主要变化无重要变化。

图像编辑和生成 · LMArena + Artificial Analysis

图像编辑 / 文生图共 4 张

LMArena · Image Edit Arena 数据采集 · 2026-05-12

图像编辑投票 ELO

排名	模型	公司	ELO	Δ
1	gpt-image-2 (medium)	OpenAI	1470	—
2	chatgpt-image-latest-high-fidelity (20251216)	OpenAI	1392	—
3	gemini-3.1-flash-image-preview (nano-banana-2) [web-search]	Google	1386	↑2
4	gemini-3-pro-image-preview-2k (nano-banana-pro)	Google	1386	↓1
5	gemini-3-pro-image-preview (nano-banana-pro)	Google	1386	↓1
6	gpt-image-1.5-high-fidelity	OpenAI	1373	—
7	grok-imagine-image-quality	xAI	1356	NEW
8	uni-1.1-max	Luma AI	1337	NEW
9	grok-imagine-image	xAI	1330	↓2
10	grok-imagine-image-pro (20260207)	xAI	1314	↓2

本周榜单主要变化Gemini 3.1 Flash Image 上升 2 位从第 5 升至第 3。Grok Imagine Image Quality 和 Luma AI Uni-1.1 Max 新上榜，分列第 7 和第 8。Grok Imagine Image (20260207) 和 Seedream 4.5 跌出 Top10。OpenAI GPT Image 2 以 1470 ELO 保持第 1。
原因分析Google Gemini 3.1 Flash Image Preview 凭借与搜索功能的深度整合和低成本优势，在图像编辑场景获得用户青睐。xAI 于 5 月初发布 Grok 4.3 系列，其中 Grok Imagine Image Quality 作为新版本图像模型进入榜单。Luma AI 于 5 月 6 日正式开放 Uni-1.1 API，该模型采用自回归 Transformer 统一推理与生成，支持多参考图约束和句子级编辑，在 Arena.ai 盲测中冲进全球前三，2K 分辨率单图最低 $0.0404，已获得阿迪达斯、马自达等商业客户。Seedream 4.5 跌出反映字节跳动图像模型在编辑场景竞争力不足。

LMArena · Text-to-Image Arena 数据采集 · 2026-05-12

文生图投票 ELO

排名	模型	公司	ELO	Δ
1	gpt-image-2 (medium)	OpenAI	1398	—
2	gemini-3.1-flash-image-preview (nano-banana-2) [web-search]	Google	1268	—
3	gemini-3-pro-image-preview-2k (nano-banana-pro)	Google	1242	—
4	gpt-image-1.5-high-fidelity	OpenAI	1240	—
5	gemini-3-pro-image-preview (nano-banana-pro)	Google	1232	—
6	grok-imagine-image-quality	xAI	1223	NEW
7	uni-1.1-max	Luma AI	1193	NEW
8	uni-1.1	Luma AI	1190	NEW
9	mai-image-2	Microsoft AI	1181	↓3
10	reve-v1.5	Reve	1177	↓3

本周榜单主要变化Grok Imagine Image Quality、Luma AI Uni-1.1 Max 和 Uni-1.1 新上榜，分列第 6、第 7 和第 8。MAI Image 2 下降 3 位，Reve v1.5 下降 3 位。Grok Imagine Image、Qwen Image 2.0 Pro 和 Flux 2 Max 跌出 Top10。OpenAI GPT Image 2 保持第 1。
原因分析xAI Grok 4.3 系列中的图像质量版本在文生图场景表现突出，凭借 1M Token 上下文理解和原生视频/图像多模态能力获得用户投票。Luma AI Uni-1.1 双版本进入 Top8，其 decoder-only 自回归架构实现文本与图像 token 共享同一序列，在复杂版面生成和句子级编辑上表现优异，且价格仅为 Nano Banana 级别的一半。Microsoft AI 的 MAI Image 2 和 Reve v1.5 排名下滑，面临 OpenAI、Google 和新兴厂商的三面夹击。Flux 2 Max 跌出反映 Black Forest Labs 在文生图领域的竞争压力加大。

Artificial Analysis · Image Editing 数据采集 · 2026-05-12

AA 平台图像编辑 ELO

排名	模型	公司	ELO	Δ
1	GPT Image 1.5 (high)	OpenAI	1262	—
2	GPT Image 2 (high)	OpenAI	1249	—
3	Nano Banana Pro (Gemini 3 Pro Image)	Google	1241	—
4	Nano Banana 2 (Gemini 3.1 Flash Image Preview)	Google	1231	—
5	HunyuanImage 3.0 Instruct (Fal)Open Weights	Tencent	1222	—
6	grok-imagine-image	xAI	1213	—
7	grok-imagine-image-pro	xAI	1212	—
8	Kling Image 3.0 Omni	KlingAI	1207	NEW
9	FLUX.2 [max]	Black Forest Labs	1206	↓1
10	Wan 2.7 Pro	Alibaba	1199	NEW

本周榜单主要变化Kling Image 3.0 Omni 和 Wan 2.7 Pro 新上榜，分列第 9 和第 10。Kling Image 3.0 和 Kling Image O1 跌出。OpenAI GPT Image 1.5 和 GPT Image 2 保持前两名。
原因分析快手 Kling Image 3.0 Omni 于近期发布，支持原生 4K 输出和 Visual Chain-of-Thought 推理，在图像编辑场景获得评测机构认可。阿里巴巴 Wan 2.7 Pro 于 4 月发布，作为开源视频生成套件的图像版本，27B 总参/14B 激活的 MoE 架构在成本效益上具有优势。Kling Image 3.0 和 O1 被新版 Omni 替代后自然跌出。OpenAI 继续凭借 GPT Image 1.5（$133/1k imgs）和 GPT Image 2（$211/1k imgs）的高画质输出稳居榜首。

Artificial Analysis · Text-to-Image 数据采集 · 2026-05-12

AA 平台文生图 ELO

排名	模型	公司	ELO	Δ
1	GPT Image 2 (high)	OpenAI	1338	—
2	GPT Image 1.5 (high)	OpenAI	1267	—
3	Nano Banana 2 (Gemini 3.1 Flash Image Preview)	Google	1263	—
4	Nano Banana Pro (Gemini 3 Pro Image)	Google	1220	—
5	Seedream 4.0	ByteDance Seed	1198	—
6	MAI-Image-2	Microsoft	1198	↑1
7	FLUX.2 [max]	Black Forest Labs	1197	↓1
8	Peanut (Open Weights Coming Soon)	Peanut	1188	NEW
9	FLUX.2 [pro]	Black Forest Labs	1186	↓1
10	grok-imagine-image	xAI	1182	↓1

本周榜单主要变化Peanut (Open Weights Coming Soon) 新上榜第 8，Grok Imagine Image 跌出 Top10。OpenAI GPT Image 2 以 1338 ELO 保持第 1。
原因分析Peanut 作为即将开源的新模型于 5 月进入榜单，引发社区关注，但其「Coming Soon」状态意味着评分可能基于预览版本或早期测试。Grok Imagine Image 跌出或因 xAI 将资源集中于 Grok Imagine Image Quality 新版本。Black Forest Labs 的 Flux 2 系列（max/pro/flex）占据第 5、第 9、第 10 位，显示开源模型在文生图领域仍有一席之地。

理科能力 · GPQA

PhD 级科学多选

GPQA Diamond 数据采集 · 2026-05-12

研究级科学推理

排名	模型	公司	得分	Δ
1	Claude Mythos Preview	Anthropic	94.60	—
2	Gemini 3.1 Pro	Google	94.30	—
3	Claude Opus 4.7	Anthropic	94.20	—
4	GPT-5.5	OpenAI	93.60	—
5	GPT-5.2 Pro	OpenAI	93.20	—
6	GPT-5.4	OpenAI	92.80	—
7	GPT-5.2	OpenAI	92.40	—
8	Gemini 3 Pro	Google	91.90	—
9	Claude Opus 4.6	Anthropic	91.30	—
10	Kimi K2.6	Moonshot AI	90.50	—

本周榜单主要变化无重要变化。

前沿数学 · Epoch FrontierMath

前沿数学问题准确率

Epoch FrontierMath 数据采集 · 2026-05-12

前沿数学问题准确率

排名	模型	公司	得分	Δ
1	GPT-5.5 Pro (high)	OpenAI	52.4%	—
2	GPT-5.5 (xhigh)	OpenAI	51.7%	—
3	GPT-5.5 Pro (xhigh)	OpenAI	51.0%	—
4	GPT-5.4 Pro (xhigh)	OpenAI	50.0%	—
5	GPT-5.4 (xhigh)	OpenAI	47.6%	—
6	Claude Opus 4.7 (xhigh)	Anthropic	43.8%	—
7	Claude Opus 4.6 (max)	Anthropic	40.7%	—
8	GPT-5.2 (xhigh)	OpenAI	40.7%	—
9	GPT-5.2 (high)	OpenAI	40.3%	—
10	Claude Opus 4.6 (32k thinking)	Anthropic	40.0%	—

本周榜单主要变化无重要变化。

多模态基准 · Scale Humanity's Last Exam

高难度知识推理

Scale Humanity's Last Exam 数据采集 · 2026-05-12

高难度知识推理

排名	模型	得分	Δ
1	gemini-3.1-pro-preview (thinking high)	46.44	—
2	gpt-5.4-pro-2026-03-05	44.32	—
3	Muse Spark	40.56	—
4	gemini-3-pro-preview	37.52	—
5	gpt-5.4-2026-03-05 (xhigh thinking)	36.24	—
6	claude-opus-4-7	36.20	—
7	claude-opus-4-6-thinking-max	34.44	—
8	gpt-5-pro-2025-10-06	31.64	—
9	gpt-5.2-2025-12-11	27.80	—
10	gpt-5-2025-08-07	25.32	—

本周榜单主要变化无重要变化。

Agent · HuggingFace GAIA

工具调用 + 多步推理

HuggingFace · GAIA Agent Leaderboard 数据采集 · 2026-05-12

通用 agent 平均分（level 1/2/3 加权）

排名	模型	公司	平均分	Δ
1	OPS-Agentic-Search	Alibaba Cloud	92.36	—
2	openJiuwen-deepagent	openJiuwen	91.69	—
3	Lemon	LR AILab of Lenovo CTO Org	91.36	—
4	JoinAI_V2.2	JoinAI-CMCC	90.70	—
5	Nemotron-ToolOrchestra-0107	NVIDIA	90.37	↑1
6	Nemotron-ToolOrchestra-0106	NVIDIA	90.37	↓1
7	JoinAI_V2.1	JoinAI-CMCC	90.03	—
8	SU Zero - Shuqian Series Pro MAX	Suzhou AI Lab, Shuqian Tech	90.03	—
9	HALO V1217-1	Microsoft AI Asia - Ads	89.37	↑1
10	ShawnAgent_v3.1		89.37	↓1

本周榜单主要变化无重要变化。

综合智能 · Artificial Analysis Intelligence Index

AA 综合智能评分（多基准加权）

Artificial Analysis Intelligence Index 数据采集 · 2026-05-08 (回退)

综合智能评分（实时）

排名	模型	公司	得分	Δ
1	GPT-5.5 (xhigh)	openai	60.20	—
2	Claude Opus 4.7 (Adaptive Reasoning, Max Effort)	anthropic	57.30	—
3	Gemini 3.1 Pro Preview	google	57.20	—
4	GPT-5.4 (xhigh)	openai	56.80	—
5	Kimi K2.6	moonshotai	53.90	—
6	MiMo-V2.5-Pro	xiaomi	53.80	—
7	GPT-5.3 Codex (xhigh)	openai	53.60	—
8	Grok 4.3	x-ai	53.20	NEW
9	Claude Opus 4.6 (Adaptive Reasoning, Max Effort)	anthropic	53.00	↓1
10	Claude Sonnet 4.6 (Adaptive Reasoning, Max Effort)	anthropic	51.70	↓1

本周榜单主要变化GPT 5.5 Pro 新上榜第 1（60.2 分），Grok 4.3 新上榜第 8（53.2 分）。GPT 5.5 (xhigh) 和 DeepSeek V4 Pro 跌出。OpenAI 继续占据第 1、第 4、第 7 名。
原因分析GPT 5.5 Pro 以 60.2 分登顶 Intelligence Index，较 Claude Opus 4.7（57.3 分）领先 2.9 分，反映 OpenAI 在综合推理、工具调用和多模态能力上的全面领先。Grok 4.3 于 5 月 1 日发布，以 53.2 分进入 Top8，其 1M Token 上下文、推理速度提升 3 倍和降价 40% 的 API 策略（$1.25/M 输入）获得市场认可。DeepSeek V4 Pro 跌出或因 V4 Flash 的发布导致用户和评测方注意力转移。小米 MiMo-V2.5-Pro 以 53.8 分保持第 6，是中国厂商中排名最高的非推理模型。

— 国内榜单 · OpenCompass × 2 + MedBench —

大语言模型 · OpenCompass

OpenCompass 中文综合评测

OpenCompass · 大语言模型榜数据采集 · 2026-05-12

OpenCompass 综合评测

排名	模型	公司	得分	Δ
1	Gemini-3-Pro-Preview	Google	76.50	—
2	Qwen3-Max-2026-01-23	Alibaba	74.40	—
3	Claude Opus 4.5 (Thinking)	Anthropic	74.20	—
4	Kimi-K2.5	Moonshot	73.30	—
5	GPT-5.2-2025-12-11 (high)	OpenAI	73.10	—
6	GLM-4.7	Zhipu AI	72.80	—
7	Kimi-K2-Thinking	Moonshot	71.10	—
8	DeepSeek-V3.2	DeepSeek	70.80	—
9	Claude Sonnet 4.5 (Thinking)	Anthropic	69.40	—
10	Tencent HY 2.0 Think	Tencent	69.10	—

本周榜单主要变化无重要变化。

多模态模型 · OpenCompass

OpenCompass 多模态综合评测

OpenCompass · 多模态模型榜数据采集 · 2026-05-12

OpenCompass 多模态综合评测

排名	模型	公司	得分	Δ
1	Gemini-3.1-Pro-Preview	Google	66.62	—
2	Qwen3.5-397B	Alibaba	65.41	—
3	Doubao-Seed-2.0-Pro (medium)	ByteDance	63.19	—
4	Kimi-k2.5	Moonshot AI	63.05	—
5	SenseNova-V6-5-Pro-20251215	SenseTime	55.61	—
6	Claude-Opus-4-6	Anthropic	55.16	—
7	GLM4_6V	Zhipu AI	52.54	—
8	GPT-5.4	OpenAI	51.55	—
9	Step3-VL-10B	StepFun	48.80	—
10	Ovis2.6-30B-A3B	Alibaba	48.37	—

本周榜单主要变化无重要变化。

医疗健康 · MedBench

中文医疗领域专项评测

MedBench · 医疗大模型榜数据采集 · 2026-05-12

中文医疗领域评测

排名	模型	公司	得分	Δ
1	京医千询	京东健康	72.60	—
2	卓睦鸟医疗大模型	广州中康数字科技有限公司	72.10	—
3	千问健康大模型	千问C端	71.20	—
4	华为云健康管理大模型	Huawei	71.00	—
5	WiseDiag v2	杭州智诊科技有限公司	69.80	—
6	微医医疗大模型	微医	68.20	—
7	AntAngelMed	MedAIBase	68.00	—
8	UniGPT-Med-U1	云知声智能科技股份有限公司	65.70	—
9	惠每医疗大模型	上海新创惠每科技有限公司	60.00	—
10	Grok-4	xAI	58.40	—

本周榜单主要变化无重要变化。

02 DYNAMIC ANALYSIS

动态分析

周报聚焦本周亮点,通过可互动的方式呈现值得关注的变化和趋势。

A · 01本周一览

本周大盘三项核心指标

本期 (2026-05-04 → 2026-05-10) 大盘 21.72T tokens, 环比 +8.2%; 上一窗口集中发布的 5 款旗舰模型本期进入 token 沉淀期; 4 周均值 +6.5%, 大盘仍在结构性上行段。

本周 OpenRouter 共流转 21.72T tokens, 环比 +8.2% — 较上周 20.07T 继续上行, 但增速从 +9.8% 略缓。

大盘仍处历史高位;增速放缓主因是上周 4-23 → 4-24 的旗舰发布窗口已经过去, 本周进入新模型的 token 沉淀期。

上周 5 家头部厂商 8 天密集发布旗舰 — Anthropic Opus 4.7 (4-16)、Moonshot Kimi K2.6 (4-20)、OpenAI GPT-5.5 (4-23)、Tencent Hy3 preview (4-24)、DeepSeek V4 系列 (4-24)。

本周 Top 9 中已有 6 款来自这一发布密集期;后面 4 章节每一处变化都和其中某一款相关 — 这也是为什么本周值得专门拆开看。

大盘 4 周均值 +6.5%, 本周 +8.2% 仍高于均值。

连续 4 周环比正增长 (依次 +5.1% / +6.4% / +9.8% / +8.2%) — 增速虽较上周回落, 但仍处结构性扩张段。后续判断关键是 Hy3 [FREE] 免费期结束后是否会带来 token 回吐。

本期关键指标数据采集 · 2026-05-04 → 2026-05-10

本期 2026-05-04 → 2026-05-10 · Δ 对照上一窗口 2026-04-27 → 2026-05-03

live

本周 token 总量

21.72T

+8.2% WoW · vs 上周 · 20.07T

近 4 周大盘 WoW 涨幅

沉淀期 · 本周 Top 9

6 / 9

来自 4-16 ~ 4-24 发布期

头部 5 家旗舰发布时间线

04-16 Anthropic Claude Opus 4.7
04-20 Moonshot Kimi K2.6
04-23 OpenAI GPT-5.5
04-24 Tencent Hy3 preview
04-24 DeepSeek V4 Flash / Pro

近 4 周平均周环比

+6.5%

大盘仍处结构性扩张

本周 vs 近 4 周均值

本周

+8.2%

avg

+6.5%

高出均值 1.26×

B · 02调用量 Top 9 · 2026-05-04 → 2026-05-10

本周 Top 9 的 3 处关键变动

本周 Top 9 出现首次的「双版本现象」: Tencent 与 DeepSeek 同时各有两款模型入榜。三个数字撑起本周叙事 — Hy3 [FREE] 首次衰退、V4 Flash 单周冲到第 5、Hy3 付费版 + V4 Pro 双双新上榜。

首次衰退 #1 — Hy3 Preview [FREE]：2.68T tokens · -11.8% WoW · 仍蝉联第 1, 但出现首次回吐。

上周空降 #1 (3.03T) 之后, 本周开始可见 decay 信号。免费通道结束前的标准 launch-spike → decay 轨迹, 后续两周是检验「免费转付费」机制的关键节点。

最大单模型涨幅 #5 — DeepSeek V4 Flash：第 9 → 第 5 (上升 4 位) · +57.8% WoW · 1.11T tokens。

$0.14 / $0.28 per 1M tokens 的定价 (Claude Opus 4.7 的 1/35) + 1M token 上下文 + SWE-Bench 80.6%。性价比最敏感的开发者层面立刻投票, 一周内吃下整个 V3.2 流失的份额。

双版本新入榜 — Hy3 付费版 #8 + V4 Pro #9：同周各有两家厂商把自家第二款也送进 Top 9。

Hy3 paid (857B) 是免费版的姊妹付费档, 验证「免费 → 付费」转化雏形;V4 Pro (816B, $1.74/$3.48) 与 V4 Flash 同期发布, 高低价位双线攻入榜单 — Top 9 第一次出现「同厂双产品」格局。

Token 调用量 · Top 9 数据采集 · 2026-05-04 → 2026-05-10

2026-04-27 → 2026-05-04 · 单位 B tokens · 按厂商着色

9 / 9

横向条形 · 降序 · `tabular-nums` — · 全量视图

C · 03排名变迁 · 近 4 周

近 4 周 Top 模型排名走势

把 4 个连续 7 天窗口叠在一起看, 浮现 4 种不同的产品轨迹: V4 Flash 是最陡的「跃升曲线」、Hy3 是「空降后持稳」、Sonnet 4.6 是「平滑下滑」、V3.2 是「连续退让」。

DeepSeek V4 Flash 是最陡的跃升曲线: 04-27 窗口 #9 入榜, 下一窗口 (05-04 起) 跳到 #5。

单周上升 4 位在近期 Top 9 内属于罕见幅度;价格 + 上下文窗口 + 代码能力三档同时拉满, 开发者用脚投票最快的产品轨迹之一。

Hy3 Preview [FREE] 是「空降后持稳」: 04-27 窗口 #1 入榜, 05-04 窗口仍守住 #1。

尽管 token 量 -11.8%, 排名未跌 — 体量优势仍足以拉开与 #2 的距离。后续两周是检验是否能稳定在 Top 3 的关键。

Claude Sonnet 4.6 是平滑下滑曲线: 1 → 2 → 3 → 3 (4 周连续退一档后稳住第 3)。

绝对调用量并未明显下滑 (+7.9% WoW 本周), 排名下降主要是分母被新进者拉大造成的相对位移 — 不是产品衰退。

DeepSeek V3.2 连续退让: 2 → 3 → 6 → 7 (4 周连续掉 5 档)。

先后被外部 (Hy3 / K2.6) 和自家 (V4 Flash) 两次替代。同厂内部新旧版本迁移完成后, V3.2 的份额转给 V4 系列;模型迭代周期压缩至月度级的最清晰案例。

排名变迁 · 近 4 周数据采集 · 04-13 → 05-04

X · 7 天窗口起点 · Y · 排名 (#1 在顶部) · 6 lines

6 lines

线段断点表示当周未进 Top · 不插值 — · 全量视图

D · 04厂商份额 Δ · 2026-04-27 → 2026-05-04

厂商份额变化分布: 上周「单家暴涨」格局回归多家竞争

本周厂商份额 pp 变动幅度全部收窄至 ±3pp 以内, 与上周 Tencent +12.72pp 的极端值形成鲜明对比。3 家正向 / 5 家负向 — 多家竞争而非单家垄断的格局。

DeepSeek +2.37pp — 本周最大单家上升: 全部来自 V4 系列双版本入榜。

V4 Flash 单模型 +57.8% (#5)、V4 Pro 新上榜 (#9), 抵消 V3.2 -4.4% 的下滑。厂商总量从 2.20T 升至 2.99T (+35.5%)。

Tencent +1.01pp — 增速大幅放缓: 上周 +12.72pp 后本周仅 +1.01pp, 但仍是正向。

免费版 Hy3 -11.8% 但被付费版新上榜 (857B) 抵消, 厂商总量小幅扩张。腰部从 0 变成 1 (paid 版), 但暂时还撑不起免费版回吐的部分。

Anthropic +0.40pp — 由负转正: 上周 -3.34pp 的承压后本周转为温和回升。

Opus 4.7 +32.1% 推动厂商总量 +11.0%, Sonnet 4.6 +7.9% 同步贡献。「上周下降是稀释而非衰退」的判断在本周得到验证 — 内部新旧版本迁移已平稳过渡。

Moonshot AI -1.47pp — 本周最大单家下降: launch spike 衰退期。

Kimi K2.6 -11.1% 拖累厂商总量 -10%。属于典型「上周首发夺冠 → 本周自然回落」的曲线;评测端的 Top 5 位置尚未让出, 但调用量层面已开始 decay。

厂商份额 Δ 数据采集 · 2026-04-27 → 2026-05-04

百分点变动 · 中线 0 · 绿正红负

9 厂商

正向 + 3 家 · 负向 - 5 家 · 持平 1 家 — · 全量视图

E · 05区域版图 · 05-04 vs 04-27

国产份额继续上行, 海外三家份额暂稳, 长尾被持续挤压

本周中国厂商累计份额 44.67% → 45.61% (+0.94pp), 较上周 +12.07pp 的猛冲明显放缓但仍在上行;海外三家从 39.42% → 38.74% (-0.68pp), 退守速度也减慢;长尾继续被压缩, Others 29.76% → 28.53% (-1.23pp)。

国产阵营继续上行至 45.61% (+0.94pp): 从冲刺转为爬坡。

Tencent (12.72→13.73) + DeepSeek (9.24→11.61) + Moonshot (8.86→7.39) + Qwen (5.09→5.06) + MiniMax (4.54→3.99) + Z.ai (4.22→3.83) 累计 token 池。注意是「6 家中 3 家上升、3 家下降」的混合走势 — 上周由 Tencent 单家拉起, 本周变成 DeepSeek 主推。

海外三家份额暂稳: 39.42% → 38.74% (-0.68pp), 退守速度大幅减慢。

Anthropic +0.40pp (恢复)、OpenAI -0.56pp、Google -0.52pp。上周三家合计 -6.05pp 的恐慌式回吐, 本周收敛至 -0.68pp。其中 Anthropic 由负转正是关键 — 「上周下降是稀释而非衰退」的判断得到验证。

长尾继续被挤压: Others 29.76% → 28.53% (-1.23pp), 已连续两周失血。

头部 6 家继续分食长尾流量。这两周累计长尾流失 11.4pp — 「新发布密集期会先吃长尾再切对手」的结构性规律在第二周仍在生效。

厂商份额组成数据采集 · 05-04 (外环) vs 04-27 (内环)

双层 doughnut · 7 段

% of total tokens