Google最新多模态模型Gemma 4 12B登陆仙踪问道!6GB内存就能跑,笔记本党的春天真的来了
Google最新Gemma 4 12B多模态模型正式登陆仙踪问道智能助手。无编码器统一架构,支持文本、图像、音频、视频一举通吃,8bit仅需13GB内存、4bit压到6GB,普通笔记本就能流畅跑。同步开放MCP视频生成能力,接入万相、可灵、Seedance、Runway等12种专业视频模型。国内网络加速下载,告别科学上网和漫无止境的等待。
如果你一直因为显存不够、配置不够,只能看着别人玩大模型干瞪眼——这次可以把嘴角上扬了。
仙踪问道·爱马仕助手和龙虾助手同步上架 Google DeepMind 在6月3日刚发布的 Gemma 4 12B 模型。注意,这不是什么小众实验品,这是 Gemma 4 家族的正牌中杯——而且它有一个让轻薄本用户直接破防的特性:8bit 量化只需约13GB内存,4bit 更是压到6GB左右,一台再普通不过的办公笔记本,就能流畅跑起多模态推理。
Gemma 4 12B,凭什么出圈?
Gemma 4 12B 是 Google DeepMind 为"把 Agent 级多模态智能塞进笔记本"这个目标量身打造的。它在产品线上的位置很有意思——夹在手机端的 E4B 和服务器级的 26B MoE 之间,但性能表现直接逼近体积是自己两倍多的 26B 模型。
架构上做了一个相当大胆的决定:把传统多模态模型那套臃肿的编码器体系掀了。
常规多模态模型怎么干的?图像进来,先过一个视觉编码器;音频进来,再过一个音频编码器——等于在 LLM 主体外面挂了好几个"翻译官",内存吃得狠、延迟也高。Gemma 4 12B 的思路截然不同:图像通过一个轻量嵌入模块直接投射进 LLM 主干(就一次矩阵乘法的事),音频更彻底,原始波形信号直入 Token 空间。一个统一的 Transformer,同时啃文字、看图片、听音频、理解视频。
这叫"无编码器"架构。翻译成人话就是:省内存、降延迟、结构简单到令人发指。
性能数据不是吹的。Google 官方基准:MMLU Pro 77.2%,AIME 2026 数学推理 77.5%,LiveCodeBench v6 编程 72.0%。这三个数字拿出来跟 Gemma 4 26B MoE 放一块对比,差距小到几乎可以忽略。同时把上一代 Gemma 3 27B 明显甩开。更关键的一点——这是 Gemma 家族第一个在中杯体量上原生支持音频输入的模型,语音转写、语种识别、说话人分离,全部端侧跑,数据不出本机。
上下文窗口 256K。拿来做长文档分析、代码库级推理、多轮对话记忆,都不在话下。Apache 2.0 开源协议,商用友好。
下载?交给仙踪问道智能助手
我知道你在担心什么:模型是好,但几十 GB 的文件,GitHub 那一关能不能过去都是个问题,更别说动辄几小时甚至一两天的下载。
这正是仙踪问道智能助手要解决的问题。爱马仕助手和龙虾助手内置了模型下载加速通道,国内网络环境下直接高速拉取,不需要配置代理、不需要折腾网络、不需要守着进度条过夜。从选模型到跑起来,几分钟的事情。
两个助手怎么选:
- 爱马仕助手:面向 Hermes Agent 用户,纯血本地部署,图形化管理,一键安装,持久化记忆和 40+ 工具集成全部配好。
- 龙虾助手:面向 OpenClaw 生态用户,同样支持图形化操作和国内网络加速,无缝迁移。
二者都基于 oMLX 引擎驱动(Gemma 4 12B 需要 oMLX 0.4.2 以上版本),在 Apple Silicon Mac 上跑 mLX 量化模型,体验流畅。Intel 芯片的机器同样支持。
不只是一个新模型,是三条产品线同步升级
Gemma 4 12B 只是这次上新的重头戏之一,另外两项升级同样值得关注:
图文和视频模型全面迭代。 做内容配图、视频生成、视觉理解——背后的模型已经切换到了当前主流前沿版本。不是小修小补,是全线翻新。
MCP 服务开放视频生成能力。 这可能是对创作者最实用的一项升级。不只是一两个视频模型,而是一口气接入了万相、可灵、Seedance、Runway 等 12 种专业级视频生成模型。通过统一的 MCP 接口调用,不需要在各平台之间来回切,不需要记不同的参数名和 API 格式。对 Hermes 说一句需求描述,模型自动调度,输出结果。
一句话总结这次上新
模型更聪明了(Gemma 4 12B)、工具更强了(12种视频模型 MCP 接入)、下载更快了(国内加速通道)。如果你手头有一台 16GB 内存的 MacBook 或普通 Windows 笔记本,Gemma 4 12B 的 4bit 版本基本不用犹豫。24GB 以上的机器,8bit 版本体验更好。

