谷歌这次把 Gemma 4 放开了（二）

Wed, 08 Apr 2026 23:52:20 +0800

如果只看榜单，最容易心动的肯定是 31B。

但真把机器搬出来，还是那台没升级的 RTX 3060 12GB，判断马上就会变。怎么说呢，本地部署这件事，最后拼的不是谁最风光，而是谁最像能长期相处的那个。对我来说，这次真正值得先跑的，不是 31B，而是 26B A4B。

上一篇谷歌这次把 Gemma 4 放开了（一）：先别急着跑本地，型号和协议得先看明白把发布和协议讲完了。当前这一篇就只说本地体验本身；最后一篇接着写谷歌这次把 Gemma 4 放开了（三）：显存不够为什么会断崖，Mac 为什么能兜底却快不起来。

为什么我先跑 `26B A4B`

原因其实很土，就是硬件现实。

31B 当然强，官方榜单和社区第一波反馈都挺猛。但你把它放到 3060 12GB 这种机器上，问题马上就不再是“它强不强”，而是“它值不值得你等”。一旦模型和 cache 往系统内存回退，速度很容易直接塌掉，这件事我放到第三篇详细讲。

26B A4B 不一样。

它虽然总参数是 25.2B，但每个 token 真正激活的大约只有 3.8B。说白了，它就是这次 Gemma 4 里最像“专门留给本地玩家”的那档。

所以如果你的机器和我差不多，还是消费级老卡，判断可以直接一点：

想看榜单，上 31B
想真本地长期用，先看 26B A4B

五角星这题，这次终于有人看懂我在挖坑

我自己一直有个很土的测试题，让模型写一段 C++ 代码，在控制台输出五角星。

这题看起来像玩笑，实际挺坏。因为很多模型会把它理解成一个纯数学绘图题，接着就开始上坐标、三角函数、循环，最后在纯文本控制台里输出一坨根本不能看的字符。

去年很多小参数开源模型，基本都死在这里。

Gemma 4 这次第一反应，反而让我很意外。它没急着装懂，而是先识别约束，给出了这段判断：

由于在纯文本的控制台（Console）中通过数学逻辑直接绘制一个具有精确几何结构的五角星非常复杂（涉及到坐标系转换和像素填充），最经典且视觉效果最好的方法是使用 ASCII Art（字符艺术）。

说白了，它先看懂了题目背后的环境限制。控制台不是画布，字符网格也不是像素网格。你要先把“怎么稳定给出一个五角星”想明白，再谈数学绘制。

然后它第一版直接给了一个硬编码的五角星字符串。

这个动作特别对味。不是为了秀推导，而是先把题做对。

更让我意外的是，它还能继续往下走

如果只是停在 ASCII Art，这题还只能算它识别了陷阱。

真正让我高看一眼的是，后面我继续追着要求它用数学计算，它也没有露馅，而是能顺着往下做，把几何关系映射到字符网格，最后把五角星算出来。

这说明的不是“它会写一段代码”，而是它知道这题其实分两层：

第一层，控制台里最稳的答案是什么
第二层，如果你非要做计算，怎么把几何问题降到字符网格上

以前很多本地小模型一上来就冲第二层，最后第一层都没做好。Gemma 4 这次反过来了，先把边界认出来，再决定怎么解。

我觉得这件事比单独一项 benchmark 分数更值钱。

这次 coding 提升，不只是“更聪明了”

五角星这题之所以好用，就是因为它不只是考语法。

它真正考的是：

能不能先理解输出环境
能不能承认直觉解法不合适
能不能在“最优展示效果”和“用户强制要求计算”之间切换

这种题一旦能做对，说明模型开始更像一个会处理现实约束的开发助手，而不是只会补全代码片段。

这也是为什么我对 Gemma 4 的第一印象会比去年那批小参数开源模型好很多。去年很多模型属于能聊天、能补全、能凑合，但一碰到这种稍微带点边界感的问题，就容易露底。

这次谷歌起码把这个短板补上了。

翻译这条线，反而不能简单说“Gemma 4 全面接班”

你前面提到一个点很关键，以前常拿 Gemma 跑本地翻译。

这件事到 Gemma 4 这里，其实没那么线性。因为谷歌在 2026 年 2 月单独发了 TranslateGemma，而且还是建在 Gemma 3 那套尺寸上。

这意味着什么？

意味着如果你现成的本地翻译链路已经跑顺了，短期内不一定非要全部切到 Gemma 4。尤其是那种目标特别单一、只想稳定多语言转换的场景，专门的翻译模型还是有它的价值。

但如果你想要的是一套本地模型，尽量兼顾翻译、问答、代码和一般文本任务，那 26B A4B 这种更全能的路线就很顺。

它未必是最专的，但它更像现实世界里“只想先跑起来一个够用主力模型”的选择。

为什么我不想在第二篇里继续吹 `31B`

不是因为 31B 不行，恰恰相反，它太行了，所以很容易把注意力带偏。

你一旦一直盯着 31B 的榜单表现看，很容易把这篇写成“强模型真强”。但本地部署最怕的就是这种话。因为真正决定你每天会不会继续用它的，不是榜单，而是：

启动是不是太慢
回答是不是掉速严重
长上下文是不是很快就拖垮体验
自己机器到底撑不撑得住

在 3060 12GB 这种机器上，这些现实问题比榜单重要多了。

所以我对第二篇的收口很简单。

31B 值得看，26B A4B 值得用。对本地玩家来说，这两句话不是一回事。

我的本地第一结论

如果让我用一句话概括这次实测感受，那就是：

Gemma 4 终于开始像一个会看场景的本地模型了。

尤其是 26B A4B。它不是那种最能拿来晒榜单的型号，但在老机器、消费级显卡、本地长期使用这些现实约束下，它反而更像真正的主力选择。

至少这次五角星测试，谷歌是过关了。

参考资料

写作附记

原始提示词

$blog-writer 谷歌时隔一年，发布了 Gemma4 模型，老规矩，尝试本地部署，还是那台没升级的台式 3060 12GB 英伟达显卡。这次赶上了首发，但是没找到以前常用 Gemma3 的升级版本，但是多有个类似的版本 GemmaE4b，你先搜索介绍下，本次发布了的所有型号，里面的缩写字母什么意思，然后搜索下网上关于 Gemma4 的评价，关键是，本次谷歌更新该了模型的协议，大家用起来的限制更少了。最大的惊喜，我常用的测试题：写一段 C++ 代码，在控制台输出五角星，去年的小参数开源模型都没搞定这个问题，谷歌这次搞定了，第一版给出答案，完全超出我的意料，它知道了我的陷阱，控制台输出五角星很麻烦，它直接硬编码了一个五角星的字符串，控制台直接输出。这是原文：由于在纯文本的控制台（Console）中通过数学逻辑直接绘制一个具有精确几何结构的五角星非常复杂（涉及到坐标系转换和像素填充），最经典且视觉效果最好的方法是使用 ASCII Art（字符艺术）。在我去强制要求进行计算以后，它也搞定了，通过数学计算，成功的绘制了五角星。以前常用 Gemma4 进行本地的翻译任务，当前博客很多历史文章的多语言版本就是这样来的。本地测试用的：gemma-4-26b-a4b 模型，31b 版本属实太慢了。但是看测评 31b 效果很不错，排行榜的成绩很好。同时刷论坛，我认知到了，显存如果不够，模型参数上去了，生成 token 的速度会断崖式下降，你解释下为什么？Mac 不会有这个问题，它走的是统一内存，解释下技术原因。还有就是，如果需要速度，那还是 英伟达大显存的显卡才行。Mac 的方案能兜底，但是速度上不去。本次的内容很多，你评估下是否拆成系列文章。

写作思路摘要

第二篇只保留本地体验，不再替第一篇做总述，也不替第三篇讲显存原理。
先给出“为什么先跑 26B A4B”的硬判断，再展开五角星测试。
五角星题被当成主轴，是因为它比跑分更能说明 coding 场景里的边界感。
翻译任务单独收一节，避免把 Gemma 4 写成对所有旧流程的线性接班。

3060 on 向叔记事簿