News

Google最新多模态模型Gemma 4 12B登陆仙踪问道！6GB内存就能跑，笔记本党的春天真的来了

Google最新Gemma 4 12B多模态模型正式登陆仙踪问道智能助手。无编码器统一架构，支持文本、图像、音频、视频一举通吃，8bit仅需13GB内存、4bit压到6GB，普通笔记本就能流畅跑。同步开放MCP视频生成能力，接入万相、可灵、Seedance、Runway等12种专业视频模型。国内网络加速下载，告别科学上网和漫无止境的等待。

仙踪问道

10 Jun 2026 — 5 min read

如果你一直因为显存不够、配置不够，只能看着别人玩大模型干瞪眼——这次可以把嘴角上扬了。

仙踪问道·爱马仕助手和龙虾助手同步上架 Google DeepMind 在6月3日刚发布的 Gemma 4 12B 模型。注意，这不是什么小众实验品，这是 Gemma 4 家族的正牌中杯——而且它有一个让轻薄本用户直接破防的特性：8bit 量化只需约13GB内存，4bit 更是压到6GB左右，一台再普通不过的办公笔记本，就能流畅跑起多模态推理。

Gemma 4 12B，凭什么出圈？

Gemma 4 12B 是 Google DeepMind 为"把 Agent 级多模态智能塞进笔记本"这个目标量身打造的。它在产品线上的位置很有意思——夹在手机端的 E4B 和服务器级的 26B MoE 之间，但性能表现直接逼近体积是自己两倍多的 26B 模型。

架构上做了一个相当大胆的决定：把传统多模态模型那套臃肿的编码器体系掀了。

常规多模态模型怎么干的？图像进来，先过一个视觉编码器；音频进来，再过一个音频编码器——等于在 LLM 主体外面挂了好几个"翻译官"，内存吃得狠、延迟也高。Gemma 4 12B 的思路截然不同：图像通过一个轻量嵌入模块直接投射进 LLM 主干（就一次矩阵乘法的事），音频更彻底，原始波形信号直入 Token 空间。一个统一的 Transformer，同时啃文字、看图片、听音频、理解视频。

这叫"无编码器"架构。翻译成人话就是：省内存、降延迟、结构简单到令人发指。

性能数据不是吹的。Google 官方基准：MMLU Pro 77.2%，AIME 2026 数学推理 77.5%，LiveCodeBench v6 编程 72.0%。这三个数字拿出来跟 Gemma 4 26B MoE 放一块对比，差距小到几乎可以忽略。同时把上一代 Gemma 3 27B 明显甩开。更关键的一点——这是 Gemma 家族第一个在中杯体量上原生支持音频输入的模型，语音转写、语种识别、说话人分离，全部端侧跑，数据不出本机。

上下文窗口 256K。拿来做长文档分析、代码库级推理、多轮对话记忆，都不在话下。Apache 2.0 开源协议，商用友好。

下载？交给仙踪问道智能助手

我知道你在担心什么：模型是好，但几十 GB 的文件，GitHub 那一关能不能过去都是个问题，更别说动辄几小时甚至一两天的下载。

这正是仙踪问道智能助手要解决的问题。爱马仕助手和龙虾助手内置了模型下载加速通道，国内网络环境下直接高速拉取，不需要配置代理、不需要折腾网络、不需要守着进度条过夜。从选模型到跑起来，几分钟的事情。

两个助手怎么选：

爱马仕助手：面向 Hermes Agent 用户，纯血本地部署，图形化管理，一键安装，持久化记忆和 40+ 工具集成全部配好。
龙虾助手：面向 OpenClaw 生态用户，同样支持图形化操作和国内网络加速，无缝迁移。

二者都基于 oMLX 引擎驱动（Gemma 4 12B 需要 oMLX 0.4.2 以上版本），在 Apple Silicon Mac 上跑 mLX 量化模型，体验流畅。Intel 芯片的机器同样支持。

不只是一个新模型，是三条产品线同步升级

Gemma 4 12B 只是这次上新的重头戏之一，另外两项升级同样值得关注：

图文和视频模型全面迭代。 做内容配图、视频生成、视觉理解——背后的模型已经切换到了当前主流前沿版本。不是小修小补，是全线翻新。

MCP 服务开放视频生成能力。 这可能是对创作者最实用的一项升级。不只是一两个视频模型，而是一口气接入了万相、可灵、Seedance、Runway 等 12 种专业级视频生成模型。通过统一的 MCP 接口调用，不需要在各平台之间来回切，不需要记不同的参数名和 API 格式。对 Hermes 说一句需求描述，模型自动调度，输出结果。