评测

刚发布的 Gemma4 12B 能打吗？三款最新顶流开源模型跑分全解读，堪比跟去年主流闭源模型

Gemma4 12B（6月3日刚发布）、Gemma4 26B A4B、Qwen3.6-35B-A3B，三款近期开源模型在 MMLU-Pro、GPQA Diamond、AIME 等评测中全面对标 Claude Sonnet 4 和 GPT-4.1 这两款 2025 年中闭源旗舰，数学科学推理甚至大幅领先。一文看懂跑分、架构差异和使用场景。

仙踪问道

10 Jun 2026 — 6 min read

Google DeepMind 在 6 月 3 日悄悄放出了 Gemma4 12B——一款 unified multimodal 架构、原生支持 Apple Silicon 的轻量模型。加上之前发布的 Gemma4 26B A4B（3月底）和阿里的 Qwen3.6-35B-A3B（4月中），最近两个月的开源大模型圈，连续出了三款硬货。

三款模型的共同特征是：参数看着不小，但跑起来不贵——靠 MoE 混合专家或极致压缩，在消费级硬件上就能跑出不错的推理能力。

那到底什么水平？为了让大家有个直观的感觉，我把三款开源模型跟 Claude Sonnet 4、GPT-4.1 做了个横向对比。需要说明的是：Sonnet 4 和 GPT-4.1 都是去年（2025年）年中发布的主力模型，现在已经过去一年，当前的一线大模型能力已经大幅超越了这两个版本。选它们作为参照，不是因为它们代表今天的最高水平，而是因为它们是大模型发展史上的重要标杆——用它们做"能力锚点"，可以更直观地感受这代开源模型到底跑到了什么位置。

三位选手速览

Gemma4 12B（Google DeepMind）—— 6月3日刚发布

架构：Dense 12B，统一多模态（文本+图像+音频+视频，无需独立编码器）
定位：能跑在笔记本上的通用小钢炮，原生支持 Apple Silicon，功耗低、响应快
独特优势：原生图文音视频全模态理解，不像大多数开源模型需要外挂视觉编码器。这意味着看图、听音频、看视频都是模型本身的能力，部署和维护更简单
热度：刚发布，社区讨论度高，是截至目前最新一批开源模型

Gemma4 26B A4B（Google DeepMind）—— 3月31日发布

架构：MoE 混合专家，总参数量 26B，每次推理激活 4B 参数
定位：性能比 12B 版跃升一个台阶，但依然适合单张高端消费级 GPU

Qwen3.6-35B-A3B（阿里通义千问）—— 4月16日发布

架构：MoE 混合专家，总参数量 35B，每次推理仅激活 3B 参数
定位：开源本地部署里综合文本推理能力最突出，Apache 2.0 开源协议

评测项目说明

评测项目	测什么	难度感知
MMLU / MMLU-Pro	知识广度，覆盖57个学科（Pro版更难，题目更刁钻）	知识面考试
GPQA Diamond	研究生级物理/化学/生物推理题，博士出题	科学思维能力
AIME	美国数学邀请赛真题，高中奥数级	数学硬功夫
SWE-bench Verified	真实 GitHub Issue 修复，检验工程代码能力	编程实战力

特别提醒：Sonnet 4 和 GPT-4.1 的 MMLU 分数用的是标准版 MMLU，而三款开源模型是 MMLU-Pro（更难版本）。所以知识面这个维度不能简单横向比数字，要整体定性判断。

核心数据对比

模型	架构	MMLU-Pro	GPQA Diamond	AIME	SWE-bench
Gemma4 12B	Dense 12B	77.2	78.8	77.5	—
Gemma4 26B A4B	MoE 26B/4B	82.6	82.3	88.3	—
Qwen3.6-35B-A3B	MoE 35B/3B	85.2	86.0	92.7	73.4
Claude Sonnet 4	闭源	85.4(标准MMLU)	70.0	33.1	72.7
GPT-4.1	闭源	90.2(标准MMLU)	66.3	48.1(2024版)	54.6

注：Qwen3.6 分数引自社区独立评测，Gemma4 数据来自 Google 官方，Sonnet 4 数据来自 Anthropic，GPT-4.1 数据来自 OpenAI 及第三方。

Claude Sonnet4 和GPT-4.1的MMLU评测使用的是标准版，难度低于Pro版本。

GPT-4.1的AIME评测使用的是2024版本，难度低于其他。

几个值得注意的发现

发现一：数学推理上，开源模型大幅超出这两款去年的闭源旗舰。

AIME 数学竞赛题是同套题，是最直观的对比维度。Gemma4 26B 拿下 88.3，Qwen3.6-35B 更是冲到 92.7——反观 Sonnet 4 只有 33.1，GPT-4.1 用更简单的 2024 版试卷也才 48.1。差距是量级上的。

发现二：科学推理，三款开源模型全面超越两个去年闭源标杆。

GPQA Diamond 是研究生级硬核科学题，三款开源模型全部在 78-86 分之间，Sonnet 4（70.0）和 GPT-4.1（66.3）明显落后。在需要深度推理的场景里，这代开源模型已经跑到了前面。

发现三：代码工程，Qwen3.6-35B 是唯一公开 SWE-bench 的开源模型。

但 73.4 的成绩略高于 Sonnet 4（72.7），远超 GPT-4.1（54.6）。Gemma4 系列暂缺 SWE-bench 数据，有待后续补全。

发现四：刚发布的 Gemma4 12B，小身材咬得很紧。

12B 的 GPQA Diamond（78.8）虽然略低于 26B 版（82.3），但差距不大——12B dense 架构在科学推理上并不吃亏。更关键的是，12B 版支持原生图文音视频理解，在需要看图、听音频的场景里，比纯文本模型多一个维度。

使用场景推荐

场景	推荐模型	理由
笔记本日常使用/图文/音视频多模态处理	Gemma4 12B	Dense 12B，原生 Apple Silicon，功耗低、响应快。原生统一多模态架构，无需外挂视觉/音频编码器，部署简单
数学/科学专项研究	Qwen3.6-35B-A3B	AIME 92.7 + GPQA 86.0，文本推理双料最强
编程与工程开发	Qwen3.6-35B-A3B	SWE-bench 73.4，开源工程能力靠前
既要推理又要多模态	Gemma4 26B A4B	MoE 高效推理 + 原生多模态理解，综合最均衡
企业高并发推理	Qwen3.6-35B-A3B + Gemma4 26B	3-4B 激活参数，单卡高吞吐