<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>本地模型 on 向叔记事簿</title>
        <link>https://ttf248.life/tags/%E6%9C%AC%E5%9C%B0%E6%A8%A1%E5%9E%8B/</link>
        <description>Recent content in 本地模型 on 向叔记事簿</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 03 Apr 2026 22:00:34 +0800</lastBuildDate><atom:link href="https://ttf248.life/tags/%E6%9C%AC%E5%9C%B0%E6%A8%A1%E5%9E%8B/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI 写博客这件事，后来还是得做成工程（三）</title>
        <link>https://ttf248.life/p/how-i-split-local-online-and-minimax-models/</link>
        <pubDate>Fri, 03 Apr 2026 21:06:02 +0800</pubDate>
        
        <guid>https://ttf248.life/p/how-i-split-local-online-and-minimax-models/</guid>
        <description>&lt;p&gt;翻了一圈现在仓库里的配置，我反而更确定一件事：这套东西最后拼的不是单个模型有多强，而是每一层到底该让谁来承担成本。&lt;/p&gt;
&lt;p&gt;最明显的一个信号就是，当前生效的 &lt;code&gt;published.runtime.json&lt;/code&gt; 还是 2026 年 4 月 2 日生成的 &lt;code&gt;minimax-m2&lt;/code&gt;，但 2026 年 4 月 3 日 16:38 的 &lt;code&gt;5f17088&lt;/code&gt; 已经把 &lt;code&gt;blog-style-suite&lt;/code&gt; 的默认 provider 切到了本地 &lt;code&gt;LM Studio&lt;/code&gt; 里的 &lt;code&gt;gemma-4-26b-a4b&lt;/code&gt;。这看起来像前后不一致，其实不是，它恰好说明了这条流水线开始有了分工。&lt;/p&gt;
&lt;p&gt;这组文章到这里，前两篇已经把边界铺开了。&lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/why-blog-writer-had-to-exist/&#34; &gt;第一篇&lt;/a&gt; 讲的是 &lt;code&gt;blog-writer&lt;/code&gt; 为什么会长出来，&lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/how-blog-style-suite-split-style-and-token-cost/&#34; &gt;第二篇&lt;/a&gt; 讲的是 &lt;code&gt;blog-style-suite&lt;/code&gt; 怎么把风格学习和 token 成本拆开。最后这一篇，就收在最现实的问题上：本地模型、在线模型、&lt;code&gt;Minimax&lt;/code&gt;，到底该放在哪个工位上。&lt;/p&gt;
&lt;h2 id=&#34;训练风格数据不值得每一步都烧在线模型&#34;&gt;训练风格数据，不值得每一步都烧在线模型
&lt;/h2&gt;&lt;p&gt;风格数据这件事，一旦开始认真做，token 很快就会变成现实问题。&lt;/p&gt;
&lt;p&gt;不是你想不想省，而是你如果不分工，这套东西根本跑不久。&lt;/p&gt;
&lt;p&gt;以前最容易出现的误区，就是让一个在线模型把所有活都包了。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;扫历史文章&lt;/li&gt;
&lt;li&gt;做筛选&lt;/li&gt;
&lt;li&gt;做归类&lt;/li&gt;
&lt;li&gt;评分&lt;/li&gt;
&lt;li&gt;抽样本&lt;/li&gt;
&lt;li&gt;压风格&lt;/li&gt;
&lt;li&gt;最后再去写稿&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这么干的最大问题，不是“模型不够强”，而是每一步都在烧同一档成本。&lt;/p&gt;
&lt;p&gt;现在回头看，真正合理的做法应该是反过来想：哪些步骤必须在线，哪些步骤其实应该尽量本地化，哪些步骤甚至根本不该交给模型。&lt;/p&gt;
&lt;p&gt;只要这个边界不清楚，再强的模型进来，最后也只是在帮你重复做一堆本来能预处理掉的活。&lt;/p&gt;
&lt;h2 id=&#34;本地模型更适合脏活重活和反复试错&#34;&gt;本地模型更适合脏活、重活和反复试错
&lt;/h2&gt;&lt;p&gt;我现在越来越愿意把本地模型定义成生产侧的体力层。&lt;/p&gt;
&lt;p&gt;它不一定最强，也不一定每次都最漂亮，但它特别适合承担这些事情：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;反复试跑的构建&lt;/li&gt;
&lt;li&gt;风格数据的多轮压缩实验&lt;/li&gt;
&lt;li&gt;配置改动后的重新扫描&lt;/li&gt;
&lt;li&gt;对已有结构做低风险重算&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类活的共同点很明显。&lt;/p&gt;
&lt;p&gt;不是单次价值极高，而是要反复跑、能容忍试错、并且最好别每一轮都重新付高价。&lt;/p&gt;
&lt;p&gt;当前 &lt;code&gt;scripts/blog-style-suite/config.json&lt;/code&gt; 已经切到了 &lt;code&gt;lm-studio-gemma4&lt;/code&gt;，这本身就说明判断在变。不是说本地 &lt;code&gt;gemma&lt;/code&gt; 一定比在线模型更强，而是生产侧这条链路，终于开始优先考虑“跑得起、跑得勤、能反复改”。&lt;/p&gt;
&lt;p&gt;这一点，其实和我前面写过的 &lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/weaker-models-shouldnt-do-frontier-work/&#34; &gt;弱模型别硬上强活&lt;/a&gt; 是同一个逻辑。&lt;/p&gt;
&lt;p&gt;本地模型不一定适合总包复杂写稿，但很适合接那些脏活、重活、批量活。风格数据的预处理，本来就更像这一类任务。&lt;/p&gt;
&lt;h2 id=&#34;在线模型更适合收口不适合包办一切&#34;&gt;在线模型更适合收口，不适合包办一切
&lt;/h2&gt;&lt;p&gt;说本地模型适合生产侧，不等于在线模型就没价值了。&lt;/p&gt;
&lt;p&gt;在线模型真正值钱的地方，恰恰是最后那一下收口。&lt;/p&gt;
&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;根据最新资料补事实&lt;/li&gt;
&lt;li&gt;在更大上下文里整理论证&lt;/li&gt;
&lt;li&gt;处理需要联网核验的时间敏感信息&lt;/li&gt;
&lt;li&gt;把已经准备好的结构化风格资产，转成一篇能发出来的文章&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些动作对表达质量、事实整合、上下文理解要求更高，在线模型放在这里更值。&lt;/p&gt;
&lt;p&gt;也就是说，强模型更像总装线最后那几道工序。它不是不可以往前多干点，但如果你让它从头扫到尾，整个成本结构很快就会走形。&lt;/p&gt;
&lt;p&gt;这也是为什么 &lt;code&gt;blog-writer&lt;/code&gt; 在设计上只读发布位 &lt;code&gt;published.runtime.json&lt;/code&gt;，而不是写稿时再去切 provider、再去回扫 suite 目录。消费侧越轻，越适合让更强的模型专心把文章收好。&lt;/p&gt;
&lt;h2 id=&#34;minimax-的意义不只是多接了一个-provider&#34;&gt;Minimax 的意义，不只是多接了一个 provider
&lt;/h2&gt;&lt;p&gt;很多人看到 &lt;code&gt;Minimax&lt;/code&gt;，第一反应可能是：无非又多接了一个模型。&lt;/p&gt;
&lt;p&gt;我觉得不是。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Minimax&lt;/code&gt; 真正有价值的地方，是它把“多 provider 输出，同一发布契约消费”这条路走通了。&lt;/p&gt;
&lt;p&gt;2026 年 4 月 2 日 10:18 的 &lt;code&gt;9f15199&lt;/code&gt; 把 &lt;code&gt;blog-style-suite&lt;/code&gt; 改成了多模型配置，输出按 provider 隔离。后面 README 和 runtime 结构也一直在强调一件事：suite 可以生成很多份结果，但真正生效的只有人工挑出来的 &lt;code&gt;published.runtime.json&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;这个边界特别重要。&lt;/p&gt;
&lt;p&gt;因为一旦边界明确了，&lt;code&gt;Minimax&lt;/code&gt; 的角色就不再是“必须绑定在写稿流程里”，而变成了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它可以参与生产侧的对比&lt;/li&gt;
&lt;li&gt;可以用来生成一版 runtime&lt;/li&gt;
&lt;li&gt;可以和本地模型产物横向比较&lt;/li&gt;
&lt;li&gt;最后由人工决定哪一版发布&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就把 provider 从“系统依赖”变成了“可替换部件”。&lt;/p&gt;
&lt;p&gt;我觉得这是 &lt;code&gt;Minimax&lt;/code&gt; 在这套工程里最有意思的意义。它不是来统治整条链路的，它是来验证这条链路到底有没有把接口收干净。&lt;/p&gt;
&lt;h2 id=&#34;真正的分工不是按模型强弱分是按任务类型分&#34;&gt;真正的分工，不是按模型强弱分，是按任务类型分
&lt;/h2&gt;&lt;p&gt;我现在更认同一种很土，但很管用的划分法。&lt;/p&gt;
&lt;h3 id=&#34;规则和硬约束&#34;&gt;规则和硬约束
&lt;/h3&gt;&lt;p&gt;交给本地脚本。&lt;/p&gt;
&lt;p&gt;能用 &lt;code&gt;scanner.py&lt;/code&gt;、&lt;code&gt;write_post.py&lt;/code&gt;、&lt;code&gt;write_post_series.py&lt;/code&gt; 这种确定性工具解决的，就别让模型掺和。&lt;/p&gt;
&lt;h3 id=&#34;风格数据生产&#34;&gt;风格数据生产
&lt;/h3&gt;&lt;p&gt;优先交给本地模型或成本更低的 provider。&lt;/p&gt;
&lt;p&gt;因为这里最重要的是可重复、可试错、可缓存，不是单次输出必须最华丽。&lt;/p&gt;
&lt;h3 id=&#34;最终写稿和事实收口&#34;&gt;最终写稿和事实收口
&lt;/h3&gt;&lt;p&gt;交给更适合长上下文整合、表达收束、联网补事实的模型。&lt;/p&gt;
&lt;p&gt;这一层才是在线模型最值得花钱的地方。&lt;/p&gt;
&lt;p&gt;这么一拆，很多原来纠结的问题反而没那么复杂了。你不需要每天争论“到底哪个模型最强”，你只需要问一句：这个任务属于哪一层。&lt;/p&gt;
&lt;h2 id=&#34;到最后最值钱的不是模型而是边界清楚&#34;&gt;到最后，最值钱的不是模型，而是边界清楚
&lt;/h2&gt;&lt;p&gt;第三篇我就收在这里。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;blog-writer&lt;/code&gt; 和 &lt;code&gt;blog-style-suite&lt;/code&gt; 这套东西一路演化下来，我觉得最值钱的，不是又接了谁、又换了谁、又试了哪个 provider。&lt;/p&gt;
&lt;p&gt;最值钱的是边界终于越来越清楚了。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;blog-writer&lt;/code&gt; 管消费侧&lt;/li&gt;
&lt;li&gt;&lt;code&gt;blog-style-suite&lt;/code&gt; 管生产侧&lt;/li&gt;
&lt;li&gt;&lt;code&gt;published.runtime.json&lt;/code&gt; 是发布位&lt;/li&gt;
&lt;li&gt;本地模型更适合反复跑的脏活和重活&lt;/li&gt;
&lt;li&gt;在线模型更适合最后的收口&lt;/li&gt;
&lt;li&gt;&lt;code&gt;Minimax&lt;/code&gt; 这类在线 provider 更像可替换部件，而不是系统中枢&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;边界一清楚，整个工作流就顺了。&lt;/p&gt;
&lt;p&gt;你不会再指望一个模型包打天下，也不会再把每一步都堆到最贵那一层去做。到最后，这件事看起来是在选模型，实际上是在给不同类型的任务安排工位。&lt;/p&gt;
&lt;p&gt;说白了，单点更强当然好。&lt;/p&gt;
&lt;p&gt;但长期跑下来，边界清楚，往往比单点更强更重要。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;仓库提交：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ttf248/notebook/commit/9f1519967981c5eef7bd1eb407b0406ac542ebd0&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;&lt;code&gt;9f1519967981c5eef7bd1eb407b0406ac542ebd0&lt;/code&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;仓库提交：&lt;a class=&#34;link&#34; href=&#34;https://github.com/ttf248/notebook/commit/5f17088391ee858b88fc50df884bc0103ff0b3c1&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;&lt;code&gt;5f17088391ee858b88fc50df884bc0103ff0b3c1&lt;/code&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;仓库文件：&lt;code&gt;scripts/blog-style-suite/config.json&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;生效运行时：&lt;code&gt;.agents/data/blog-writing/published.runtime.json&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;相关旧文：&lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/a-long-period-of-deep-ai-programming/&#34; &gt;重度AI编程的一段日子&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;相关旧文：&lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/ultimately-its-returning-to-domestic-models/&#34; &gt;终归还是回到国产模型&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;相关旧文：&lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/weaker-models-shouldnt-do-frontier-work/&#34; &gt;弱模型别硬上强活&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;写作附记&#34;&gt;写作附记
&lt;/h2&gt;&lt;h3 id=&#34;原始提示词&#34;&gt;原始提示词
&lt;/h3&gt;&lt;pre&gt;&lt;code class=&#34;language-text&#34;&gt;$blog-writer 本次的内容比较多，拆分成系列文章：去年就有很多稿子是通过大模型写的，那会是自己写个大纲或者问题清单，然后AI出稿子，复制内容到本地 md 文档，填写头信息，标签信息、发布文章；近期 codex 用了很多，发现 codex 里面的联网搜索能力很强，那我是不是能写个 skill，将这些事情自动化，此时诞生了 skill blog-writer 的第一稿，我还想着让 AI 学习我以前文章的风格，这就导致 blog-writer 运行的时候，很费 token，后续我针对 blog-writer 进行了多个版本的优化，拆分了 数据模块，数据生成的模块，原本数据生成的模块还是独立的 skill，写着写着，我就发现，更适合做成 Python 项目，此时就有了 blog-style-suite，然后我又发现，训练风格数据，也是比较费 token，我就想着用本地的大模型，对接了本地的大模型，我又想到了对比下本地大模型和在线版本的区别，又对接了 minimax；blog-style-suite 和 blog-writer 的演化历史可以分析的 git 提价记录。顺带基于本地 blog-writer、blog-style-suite 的代码，可以讲讲里面的设计思路，是如何做到了节约 token，数据结构是如何设计的，核心的设计思路。Token 富裕完全能生吃历史文章，预处理能节约很多 token
&lt;/code&gt;&lt;/pre&gt;
&lt;h3 id=&#34;写作思路摘要&#34;&gt;写作思路摘要
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;第三篇不再重复讲架构，而是把“模型分工”这个现实问题单独收口。&lt;/li&gt;
&lt;li&gt;直接用当前仓库里 &lt;code&gt;published.runtime.json&lt;/code&gt; 还是 &lt;code&gt;minimax-m2&lt;/code&gt;、&lt;code&gt;config.json&lt;/code&gt; 已切到本地 &lt;code&gt;gemma4&lt;/code&gt; 这个事实开篇，减少空话。&lt;/li&gt;
&lt;li&gt;重点不是证明谁更强，而是说明为什么不同任务该由不同成本层来承担。&lt;/li&gt;
&lt;li&gt;把 &lt;code&gt;Minimax&lt;/code&gt; 放在“可替换 provider”这个位置上讲，是为了把它的意义拉回工程边界，而不是模型榜单。&lt;/li&gt;
&lt;li&gt;结尾回到“边界清楚比单点更强更重要”这个总判断，作为整组文章的收口。&lt;/li&gt;
&lt;/ul&gt;</description>
        </item>
        <item>
        <title>弱模型别硬上强活</title>
        <link>https://ttf248.life/p/weaker-models-shouldnt-do-frontier-work/</link>
        <pubDate>Thu, 02 Apr 2026 22:05:00 +0800</pubDate>
        
        <guid>https://ttf248.life/p/weaker-models-shouldnt-do-frontier-work/</guid>
        <description>&lt;p&gt;最近把一些边角活往 &lt;code&gt;MiniMax&lt;/code&gt; 和本地模型上迁，越用越觉得，这事不能老拿“最强模型”那套标准去衡量。&lt;/p&gt;
&lt;p&gt;我的判断很直接，弱模型别硬上强活。&lt;code&gt;MiniMax&lt;/code&gt; 这类模型，能力弱是弱，拿去做复杂编码、长链路推理、模糊需求拆解，确实差点意思。但如果你让它做数据清洗、文档编写、方案资料搜索，这类活它是完全能接住的。同样的逻辑，本地 &lt;code&gt;12B&lt;/code&gt; 左右的模型也一样，翻译、格式改写、批量清洗，反而是它们真正适合待的位置。&lt;/p&gt;
&lt;p&gt;说白了，不是模型没价值，而是别把它放错工位。&lt;/p&gt;
&lt;h2 id=&#34;真正的问题不是模型强不强而是活对不对&#34;&gt;真正的问题，不是模型强不强，而是活对不对
&lt;/h2&gt;&lt;p&gt;很多人聊大模型，默认脑子里想的都是最难那档任务。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;独立写复杂工程&lt;/li&gt;
&lt;li&gt;一口气拆完整个系统&lt;/li&gt;
&lt;li&gt;处理长上下文里的多轮推理&lt;/li&gt;
&lt;li&gt;边搜索边规划边执行&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些当然重要。但现实工作里，真正常年堆在你桌上的，很多反而不是这种活。&lt;/p&gt;
&lt;p&gt;更多的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;把一堆脏字段洗干净&lt;/li&gt;
&lt;li&gt;把零散资料整理成可读文档&lt;/li&gt;
&lt;li&gt;把长文改成摘要、FAQ、提纲&lt;/li&gt;
&lt;li&gt;把中英文混杂内容统一格式&lt;/li&gt;
&lt;li&gt;从多个网页里找资料，再顺手归纳成一份方案草稿&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类任务，最需要的不是“模型像天才一样思考”，而是三件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;指令遵循别太离谱&lt;/li&gt;
&lt;li&gt;输出结构尽量稳定&lt;/li&gt;
&lt;li&gt;成本足够低，低到你愿意反复用&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就是为什么我一直觉得，弱模型不是没用，它只是不能被拿去跟旗舰模型打同一种仗。&lt;/p&gt;
&lt;h2 id=&#34;minimax-真正合适的是这些活&#34;&gt;MiniMax 真正合适的，是这些活
&lt;/h2&gt;&lt;p&gt;先说 &lt;code&gt;MiniMax&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;官方对 &lt;code&gt;MiniMax-M2.5&lt;/code&gt; 的定位其实很高，新闻稿和开放平台文档里都把它往编程、工具调用、搜索、办公生产力这些场景上推，甚至强调速度和价格优势。这些说法我不是完全不信，但我更愿意把它拆开看。&lt;/p&gt;
&lt;p&gt;在我这里，&lt;code&gt;MiniMax&lt;/code&gt; 真正顺手的，不是“最复杂的开发任务”，而是下面这些：&lt;/p&gt;
&lt;h3 id=&#34;数据清洗&#34;&gt;数据清洗
&lt;/h3&gt;&lt;p&gt;很多数据清洗，说穿了就是半结构化文本体力活。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;名称归一&lt;/li&gt;
&lt;li&gt;字段映射&lt;/li&gt;
&lt;li&gt;异常值标注&lt;/li&gt;
&lt;li&gt;分类打标&lt;/li&gt;
&lt;li&gt;表格字段补全&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类工作最怕的不是模型“笨”，而是格式不稳、输出发散。只要模型能比较老实地按 &lt;code&gt;JSON&lt;/code&gt;、表格、固定模版吐结果，其实就够用了。强模型当然也能做，但拿最贵那档模型去洗字段，很多时候不划算。&lt;/p&gt;
&lt;h3 id=&#34;文档编写&#34;&gt;文档编写
&lt;/h3&gt;&lt;p&gt;文档这活很烦，不是难，是烦。&lt;/p&gt;
&lt;p&gt;接口变了，流程变了，字段改了，说明文档就得跟着改。这个过程其实不太需要模型有多强的创造力，反而更需要它别乱发挥，别把原本明确的东西改得似是而非。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;MiniMax&lt;/code&gt; 做这类事，经常比想象中靠谱。尤其是当你已经把上下文准备好了，它更像一个能干活的文档助理，而不是一个真正的工程师。&lt;/p&gt;
&lt;h3 id=&#34;方案资料搜索&#34;&gt;方案资料搜索
&lt;/h3&gt;&lt;p&gt;官方自己也在推搜索和工具调用，这方向没问题。&lt;/p&gt;
&lt;p&gt;很多时候我们不是要模型“凭空想出答案”，而是要它把网页、文档、公告、资料先找回来，再顺手理一遍。这个场景里，&lt;code&gt;MiniMax&lt;/code&gt; 这类便宜模型的价值就很明显了，因为搜索、摘要、整合，本来就是高频杂活。&lt;/p&gt;
&lt;p&gt;所以我的实际看法是：&lt;code&gt;MiniMax&lt;/code&gt; 不是不行，而是它更适合做生产链路里的脏活、累活、重复活。你让它打杂，它常常是合格的；你让它总包整个工程，失望概率就会上来。&lt;/p&gt;
&lt;h2 id=&#34;本地-12b-模型最适合搬回来的也是这些活&#34;&gt;本地 12B 模型，最适合搬回来的也是这些活
&lt;/h2&gt;&lt;p&gt;再往下看，本地部署其实是同一个逻辑。&lt;/p&gt;
&lt;p&gt;很多人一说本地模型，就会忍不住想一个问题：能不能替代云端旗舰？&lt;/p&gt;
&lt;p&gt;我觉得这个问题一开始就问偏了。&lt;/p&gt;
&lt;p&gt;本地 &lt;code&gt;12B&lt;/code&gt; 左右的模型，真正有现实价值的，不是“证明自己也能做最强那档任务”，而是把那些稳定、重复、敏感、低利润但高频的活搬回来。&lt;/p&gt;
&lt;h3 id=&#34;翻译&#34;&gt;翻译
&lt;/h3&gt;&lt;p&gt;这是本地模型最顺手的场景之一。&lt;/p&gt;
&lt;p&gt;像 &lt;code&gt;Qwen2.5&lt;/code&gt; 官方博客里就明确提到，它对长文本生成、结构化数据理解、&lt;code&gt;JSON&lt;/code&gt; 输出都有增强，而且支持超过 &lt;code&gt;29&lt;/code&gt; 种语言。这个组合天生就适合翻译、双语改写、格式统一、术语规范化这类工作。&lt;/p&gt;
&lt;p&gt;技术文档、字段说明、产品介绍、接口注释，这些东西往往结构稳定、术语固定，本地模型不一定翻得最优雅，但通常够用。&lt;/p&gt;
&lt;h3 id=&#34;数据清洗-1&#34;&gt;数据清洗
&lt;/h3&gt;&lt;p&gt;这也是本地模型特别有现实感的地方。&lt;/p&gt;
&lt;p&gt;很多表格、文档、业务资料，你未必想扔到云端。尤其是内部数据、客户资料、会议纪要、半成品方案，这些东西一旦涉及隐私和权限，本地跑就会让人安心很多。&lt;/p&gt;
&lt;p&gt;这时候本地 &lt;code&gt;12B&lt;/code&gt; 左右模型的意义，不是“它有多聪明”，而是“它就在我机器上，而且能稳定干完这类脏活”。&lt;/p&gt;
&lt;h3 id=&#34;固定格式改写&#34;&gt;固定格式改写
&lt;/h3&gt;&lt;p&gt;比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;会议纪要整理成固定模版&lt;/li&gt;
&lt;li&gt;商品标题清洗成统一命名规范&lt;/li&gt;
&lt;li&gt;bug 描述改写成工单格式&lt;/li&gt;
&lt;li&gt;中英混杂文本清成单语版本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类任务的特点都很一致：规则清晰，批量大，重复高，单次价值不高，但总量很烦。&lt;/p&gt;
&lt;p&gt;这正是本地模型最该干的活。&lt;/p&gt;
&lt;h2 id=&#34;3060-12gb-到底能不能带-12b-左右的模型&#34;&gt;3060 12GB 到底能不能带 12B 左右的模型
&lt;/h2&gt;&lt;p&gt;这件事我更愿意写得现实一点：&lt;code&gt;能带，但别想得太美。&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;Google 在 &lt;code&gt;Gemma 3&lt;/code&gt; 官方文档里给过一张很有参考价值的显存表。&lt;code&gt;Gemma 3 12B&lt;/code&gt; 大致需要：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;20 GB&lt;/code&gt; 左右显存加载全精度版本&lt;/li&gt;
&lt;li&gt;&lt;code&gt;12.2 GB&lt;/code&gt; 左右加载中等量化版本&lt;/li&gt;
&lt;li&gt;&lt;code&gt;8.7 GB&lt;/code&gt; 左右加载更低显存占用版本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;官方也专门提醒，这只是模型加载占用，不包含提示词和运行时额外开销。&lt;/p&gt;
&lt;p&gt;这句话很关键。&lt;/p&gt;
&lt;p&gt;它意味着什么？&lt;/p&gt;
&lt;p&gt;意味着像 &lt;code&gt;3060 12GB&lt;/code&gt; 这种卡，跑 &lt;code&gt;12B&lt;/code&gt; 左右模型不是不可能，但前提通常是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;你跑的是量化版&lt;/li&gt;
&lt;li&gt;上下文不要拉太长&lt;/li&gt;
&lt;li&gt;任务别太复杂&lt;/li&gt;
&lt;li&gt;你接受速度一般，甚至偏慢&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你愿意接受这些前提，那本地 &lt;code&gt;12B&lt;/code&gt; 确实是能跑起来的。至少做翻译、摘要、表格清洗、固定格式转换，这类任务并不夸张。&lt;/p&gt;
&lt;p&gt;另外，&lt;code&gt;Qwen2.5-14B-Instruct-GGUF&lt;/code&gt; 的官方仓库本身也提供了多种量化格式，这其实已经把思路说得很清楚了：这一档模型，本来就是面向本地推理生态在做适配。&lt;/p&gt;
&lt;p&gt;所以我的结论一直都不是“3060 12GB 能轻松驾驭 12B 模型”，而是：&lt;/p&gt;
&lt;p&gt;它能把这类模型带起来，但更适合跑低预期、高重复、重隐私的工作。&lt;/p&gt;
&lt;h2 id=&#34;便宜模型和本地模型省下来的不只是-api-钱&#34;&gt;便宜模型和本地模型，省下来的不只是 API 钱
&lt;/h2&gt;&lt;p&gt;很多人聊这件事，第一反应总是省钱。&lt;/p&gt;
&lt;p&gt;当然，省钱很重要。但我觉得更大的价值，其实是你开始敢把以前懒得做的一堆边角活交出去。&lt;/p&gt;
&lt;p&gt;以前你可能不会为了几百条数据清洗，专门写一轮脚本。也不会为了几十页中英文资料统一格式，手工一点点改。更不会为了临时出一份方案搜集材料，把网页挨个读完再整理。&lt;/p&gt;
&lt;p&gt;现在不一样了。&lt;/p&gt;
&lt;p&gt;只要成本足够低，门槛足够低，这些原本“不值得动手”的活，就一下子变得值得了。你不再纠结“要不要做”，而是直接扔给便宜模型或者本地模型先跑一遍。&lt;/p&gt;
&lt;p&gt;这才是我眼里最现实的变化。&lt;/p&gt;
&lt;p&gt;强模型负责攻坚，弱模型负责打杂，本地模型负责兜底和批处理。&lt;/p&gt;
&lt;p&gt;这么分工，整个工作流才顺。&lt;/p&gt;
&lt;h2 id=&#34;结尾&#34;&gt;结尾
&lt;/h2&gt;&lt;p&gt;所以最后还是那句话，别老想着让一个模型包打天下。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;MiniMax&lt;/code&gt; 这类模型，能力弱是弱，但不是废。你拿它去硬刚复杂工程、模糊需求、多轮推理，当然容易失望；你拿它去做数据清洗、文档编写、方案资料搜索，反而常常挺顺手。&lt;/p&gt;
&lt;p&gt;本地 &lt;code&gt;12B&lt;/code&gt; 左右的模型也一样。它们不是为了证明“我已经不需要云端旗舰了”，而是为了把一些稳定、重复、敏感、批量大的活，老老实实搬回自己机器上。&lt;/p&gt;
&lt;p&gt;说白了，别让弱模型去做它不擅长的事。&lt;/p&gt;
&lt;p&gt;把工位放对，它们就有现实价值。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.minimax.io/news/minimax-m25&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniMax M2.5: Built for Real-World Productivity&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.minimaxi.com/docs/guides/text-generation&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;MiniMax 开放平台：文本生成&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://qwenlm.github.io/blog/qwen2.5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen2.5: A Party of Foundation Models!&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen2.5-14B-Instruct-GGUF&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen2.5-14B-Instruct-GGUF&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ai.google.dev/gemma/docs/core&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma 3 model overview&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;写作附记&#34;&gt;写作附记
&lt;/h2&gt;&lt;h3 id=&#34;原始提示词&#34;&gt;原始提示词
&lt;/h3&gt;&lt;blockquote&gt;
&lt;p&gt;minimax 的大模型，能力弱是弱，做一些数据清洗的工作、文档编写、方案资料搜索还是没问题的; 同样的逻辑，本地部署大模型，做一些翻译类的工作，数据清洗的工作也是不错的，模型的参数量在 12b 左右，本地 3060 12GB 的显卡也能带得动&lt;/p&gt;&lt;/blockquote&gt;
&lt;h3 id=&#34;写作思路摘要&#34;&gt;写作思路摘要
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;保留了“弱模型别硬上强活”这个核心判断，没有写成模型榜单对比。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;MiniMax&lt;/code&gt; 部分主要依据官方对编程、搜索、办公的定位，再把判断压回数据清洗、文档、资料搜索这些现实任务。&lt;/li&gt;
&lt;li&gt;本地模型部分选了 &lt;code&gt;Qwen2.5&lt;/code&gt; 和 &lt;code&gt;Gemma 3&lt;/code&gt; 两个官方来源，一个支撑多语言与结构化输出，一个支撑 &lt;code&gt;12B&lt;/code&gt; 与显存占用。&lt;/li&gt;
&lt;li&gt;对 &lt;code&gt;3060 12GB&lt;/code&gt; 的表述刻意写成“能带，但别想得太美”，避免把量化推理写成绝对结论。&lt;/li&gt;
&lt;li&gt;结尾把强模型、弱模型、本地模型重新按分工收口，主线更集中。&lt;/li&gt;
&lt;/ul&gt;</description>
        </item>
        
    </channel>
</rss>
