Tags

5 个页面

gemma

谷歌这次把 Gemma 4 放开了(三)

这次刷论坛,最让我长记性的不是哪家又发了榜单,而是一句很土的话,显存不够,参数再大也白搭。

以前我总把“模型慢”理解成算力问题。后来越看越明白,很多时候根本不是 GPU 算不动,而是数据没法待在对的地方。只要内存路径一变,token 速度就不是慢一点,是直接掉下去。

谷歌这次把 Gemma 4 放开了(二)

如果只看榜单,最容易心动的肯定是 31B

但真把机器搬出来,还是那台没升级的 RTX 3060 12GB,判断马上就会变。怎么说呢,本地部署这件事,最后拼的不是谁最风光,而是谁最像能长期相处的那个。对我来说,这次真正值得先跑的,不是 31B,而是 26B A4B

谷歌这次把 Gemma 4 放开了(一)

首发当天我本来想干的事很简单,找一个和 Gemma 3 对应得上的升级版,先下下来跑。

结果一圈看下来,人先有点傻眼。以前熟的 4B / 12B / 27B 那套名字没了,冒出来的是 E4B26B A4B31B。怎么说呢,这次谷歌真正改的,不只是模型大小,而是连“你该怎么理解这批模型”都一起改了。

弱模型别硬上强活

最近把一些边角活往 MiniMax 和本地模型上迁,越用越觉得,这事不能老拿“最强模型”那套标准去衡量。

我的判断很直接,弱模型别硬上强活。MiniMax 这类模型,能力弱是弱,拿去做复杂编码、长链路推理、模糊需求拆解,确实差点意思。但如果你让它做数据清洗、文档编写、方案资料搜索,这类活它是完全能接住的。同样的逻辑,本地 12B 左右的模型也一样,翻译、格式改写、批量清洗,反而是它们真正适合待的位置。

说白了,不是模型没价值,而是别把它放错工位。

博客翻译项目碎碎念:历史会话

博客翻译项目最初设计过于复杂——先解析 Markdown 格式,再用占位符保护内容,最后送给大模型翻译。其实这完全是多此一举,大模型本身就具备识别 Markdown 语法的能力,可以直接处理原始内容并在翻译时保持格式完整。

我们的工作就从调试代码,切换到调试大模型的提示词

模型:google/gemma-3-4b 硬件:Nvdia 3060 12GB

没错,选的非思考模型,思考模型在执行翻译任务时,效率不够高,对比了 4b 参数和 12b 参数的效果,针对翻译任务来说 gemma3 的 4b 参数已经足够了,12b 的参数在翻译任务上并没有明显的优势。

12b 参数的速度:11.32 tok/sec,4b 参数的速度:75.21 tok/sec