Gemma 4 开放以后(三):显存速度决定本地体验
这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。
以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。
这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。
以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。
如果只看榜单,最容易心动的肯定是 31B。
但真把机器搬出来,还是那台没升级的 RTX 3060 12GB,判断马上就会变。怎么说呢,本地部署这件事,最后拼的不是谁最风光,而是谁最像能长期相处的那个。对我来说,这次真正值得先跑的,不是 31B,而是 26B A4B。
首发当天我本来想干的事很简单,找一个和 Gemma 3 对应得上的升级版,先下下来跑。
结果一圈看下来,人先有点傻眼。以前熟的 4B / 12B / 27B 那套名字没了,冒出来的是 E4B、26B A4B、31B。怎么说呢,这次谷歌真正改的,不只是模型大小,而是连“你该怎么理解这批模型”都一起改了。
刚开始用 Codex 的时候,我对 medium 这个默认档位有点误会。
它看起来像一个很稳的中间值:不至于太慢,也不至于太省。网上又经常有人说 GPT-5.4 编码很强,于是很容易顺手把两件事合在一起理解:既然模型强,那默认 medium 应该就够了。
用了一段时间以后,我的结论变了。小修小补可以继续 medium,但只要任务开始跨文件、需求有歧义、需要先读代码再判断,我更愿意直接开 high。xhigh 不当日常默认,留给 high 已经证明啃不动的任务。
翻了一圈现在仓库里的配置,我反而更确定一件事:这套东西最后拼的不是单个模型有多强,而是每一层到底该让谁来承担成本。
最明显的一个信号就是,当前生效的 published.runtime.json 还是 2026 年 4 月 2 日生成的 minimax-m2,但 2026 年 4 月 3 日 16:38 的 5f17088 已经把 blog-style-suite 的默认 provider 切到了本地 LM Studio 里的 gemma-4-26b-a4b。这看起来像前后不一致,其实不是,它恰好说明了这条流水线开始有了分工。
如果 token 足够,最省脑子的办法其实很粗暴:把历史文章直接塞给模型,让它自己学。
问题在于,这种办法只适合偶尔来一篇,不适合反复写。你要是真把博客写作当成长期工作流来做,生吃历史文章这条路,很快就会从“简单直接”变成“又贵又乱”。
去年写了不少 AI 稿子,那会最土的流程就是,自己先整理个大纲或者问题清单,让大模型把正文吐出来,然后再把内容复制到本地 md 文档里,补 frontmatter、标签、分类、标题,最后再发布。
这套流程不是不能用,是很烦。真正费时间的地方,不是正文,而是正文外面那一圈重复劳动。尤其是最近 Codex 用多了以后,这种别扭感更强了。它能读仓库、能改文件、能补资料、还能直接把文章写进目录里,我要是还手工复制来复制去,反而像是人把工具的腿绑住了。
春节期间几家国内 AI 厂商撒钱拉新,动作一点都不陌生。
红包、补贴、免单、强入口,先把用户带进 App,先把 DAU 做起来,先让市场看到“大家都在用”。这是上一个互联网周期最熟的一套打法。
它不是没用。问题在于,AI 这门生意不能只按注意力经济算。人进来了,聊了几句,生成了几张图,这些都只是开始。真正决定用户会不会留下、会不会付费的,是它到底替用户做成了什么。