刚发布的 Gemma4 12B 能打吗?三款最新顶流开源模型跑分全解读,堪比跟去年主流闭源模型

Gemma4 12B(6月3日刚发布)、Gemma4 26B A4B、Qwen3.6-35B-A3B,三款近期开源模型在 MMLU-Pro、GPQA Diamond、AIME 等评测中全面对标 Claude Sonnet 4 和 GPT-4.1 这两款 2025 年中闭源旗舰 ,数学科学推理甚至大幅领先。一文看懂跑分、架构差异和使用场景。

刚发布的 Gemma4 12B 能打吗?三款最新顶流开源模型跑分全解读,堪比跟去年主流闭源模型

Google DeepMind 在 6 月 3 日悄悄放出了 Gemma4 12B——一款 unified multimodal 架构、原生支持 Apple Silicon 的轻量模型。加上之前发布的 Gemma4 26B A4B(3月底)和阿里的 Qwen3.6-35B-A3B(4月中),最近两个月的开源大模型圈,连续出了三款硬货。

三款模型的共同特征是:参数看着不小,但跑起来不贵——靠 MoE 混合专家或极致压缩,在消费级硬件上就能跑出不错的推理能力。

那到底什么水平?为了让大家有个直观的感觉,我把三款开源模型跟 Claude Sonnet 4、GPT-4.1 做了个横向对比。需要说明的是:Sonnet 4 和 GPT-4.1 都是去年(2025年)年中发布的主力模型,现在已经过去一年,当前的一线大模型能力已经大幅超越了这两个版本。选它们作为参照,不是因为它们代表今天的最高水平,而是因为它们是大模型发展史上的重要标杆——用它们做"能力锚点",可以更直观地感受这代开源模型到底跑到了什么位置。

三位选手速览

Gemma4 12B(Google DeepMind)—— 6月3日刚发布

  • 架构:Dense 12B,统一多模态(文本+图像+音频+视频,无需独立编码器)
  • 定位:能跑在笔记本上的通用小钢炮,原生支持 Apple Silicon,功耗低、响应快
  • 独特优势:原生图文音视频全模态理解,不像大多数开源模型需要外挂视觉编码器。这意味着看图、听音频、看视频都是模型本身的能力,部署和维护更简单
  • 热度:刚发布,社区讨论度高,是截至目前最新一批开源模型

Gemma4 26B A4B(Google DeepMind)—— 3月31日发布

  • 架构:MoE 混合专家,总参数量 26B,每次推理激活 4B 参数
  • 定位:性能比 12B 版跃升一个台阶,但依然适合单张高端消费级 GPU

Qwen3.6-35B-A3B(阿里通义千问)—— 4月16日发布

  • 架构:MoE 混合专家,总参数量 35B,每次推理仅激活 3B 参数
  • 定位:开源本地部署里综合文本推理能力最突出,Apache 2.0 开源协议

评测项目说明

评测项目 测什么 难度感知
MMLU / MMLU-Pro 知识广度,覆盖57个学科(Pro版更难,题目更刁钻) 知识面考试
GPQA Diamond 研究生级物理/化学/生物推理题,博士出题 科学思维能力
AIME 美国数学邀请赛真题,高中奥数级 数学硬功夫
SWE-bench Verified 真实 GitHub Issue 修复,检验工程代码能力 编程实战力

特别提醒:Sonnet 4 和 GPT-4.1 的 MMLU 分数用的是标准版 MMLU,而三款开源模型是 MMLU-Pro(更难版本)。所以知识面这个维度不能简单横向比数字,要整体定性判断。

核心数据对比

模型 架构 MMLU-Pro GPQA Diamond AIME SWE-bench
Gemma4 12B Dense 12B 77.2 78.8 77.5
Gemma4 26B A4B MoE 26B/4B 82.6 82.3 88.3
Qwen3.6-35B-A3B MoE 35B/3B 85.2 86.0 92.7 73.4
Claude Sonnet 4 闭源 85.4(标准MMLU) 70.0 33.1 72.7
GPT-4.1 闭源 90.2(标准MMLU) 66.3 48.1(2024版) 54.6
注:Qwen3.6 分数引自社区独立评测,Gemma4 数据来自 Google 官方,Sonnet 4 数据来自 Anthropic,GPT-4.1 数据来自 OpenAI 及第三方。
Claude Sonnet4 和GPT-4.1的MMLU评测使用的是标准版,难度低于Pro版本。
GPT-4.1的AIME评测使用的是2024版本,难度低于其他。

几个值得注意的发现

发现一:数学推理上,开源模型大幅超出这两款去年的闭源旗舰。

AIME 数学竞赛题是同套题,是最直观的对比维度。Gemma4 26B 拿下 88.3,Qwen3.6-35B 更是冲到 92.7——反观 Sonnet 4 只有 33.1,GPT-4.1 用更简单的 2024 版试卷也才 48.1。差距是量级上的。

发现二:科学推理,三款开源模型全面超越两个去年闭源标杆。

GPQA Diamond 是研究生级硬核科学题,三款开源模型全部在 78-86 分之间,Sonnet 4(70.0)和 GPT-4.1(66.3)明显落后。在需要深度推理的场景里,这代开源模型已经跑到了前面。

发现三:代码工程,Qwen3.6-35B 是唯一公开 SWE-bench 的开源模型。

但 73.4 的成绩略高于 Sonnet 4(72.7),远超 GPT-4.1(54.6)。Gemma4 系列暂缺 SWE-bench 数据,有待后续补全。

发现四:刚发布的 Gemma4 12B,小身材咬得很紧。

12B 的 GPQA Diamond(78.8)虽然略低于 26B 版(82.3),但差距不大——12B dense 架构在科学推理上并不吃亏。更关键的是,12B 版支持原生图文音视频理解,在需要看图、听音频的场景里,比纯文本模型多一个维度。

使用场景推荐

场景 推荐模型 理由
笔记本日常使用/图文/音视频多模态处理 Gemma4 12B Dense 12B,原生 Apple Silicon,功耗低、响应快。原生统一多模态架构,无需外挂视觉/音频编码器,部署简单
数学/科学专项研究 Qwen3.6-35B-A3B AIME 92.7 + GPQA 86.0,文本推理双料最强
编程与工程开发 Qwen3.6-35B-A3B SWE-bench 73.4,开源工程能力靠前
既要推理又要多模态 Gemma4 26B A4B MoE 高效推理 + 原生多模态理解,综合最均衡
企业高并发推理 Qwen3.6-35B-A3B + Gemma4 26B 3-4B 激活参数,单卡高吞吐

怎么跑起来?

三个模型都支持 oMLX 格式——专门为 Apple 芯片(M系列)优化的推理引擎,能在 Mac 上充分利用 GPU 加速。但自己折腾下载、转格式、调配置,费时费力,而且国内从 HuggingFace 拉模型经常卡住。

仙踪问道·爱马仕助手(Hermes Assistant)就是解决这个痛点的——内置 Gemma4 E4B/12B/26B 和 Qwen3.6-35B-A3B 等 8 款本地模型,图形化一键安装,国内网络高速下载,配 Open WebUI 聊天界面。

感兴趣快去产品官网看看,Mac 用户四步搞定。

Read more

Google最新多模态模型Gemma 4 12B登陆仙踪问道!6GB内存就能跑,笔记本党的春天真的来了

Google最新多模态模型Gemma 4 12B登陆仙踪问道!6GB内存就能跑,笔记本党的春天真的来了

Google最新Gemma 4 12B多模态模型正式登陆仙踪问道智能助手。无编码器统一架构,支持文本、图像、音频、视频一举通吃,8bit仅需13GB内存、4bit压到6GB,普通笔记本就能流畅跑。同步开放MCP视频生成能力,接入万相、可灵、Seedance、Runway等12种专业视频模型。国内网络加速下载,告别科学上网和漫无止境的等待。

By 仙踪问道