重度AI编程的一段日子

近期在项目中，重度使用 AI 编程，应该是最近三年，AI 在工作中融合度最高的一个项目。记录的笔记不成体系，想到什么说什么。

背景

linux 环境，后端服务开发，不涉及 UI 开发等前端内容。

模型

国内的 minimax、glm、kimi 三剑客都上手试过了，kimi 的效果最好。claude 面对大需求，能有效进行拆解，codex 最适用于生产环境，它异常谨慎。

Claude 最全能的选手，目前编程赛道，没人能打败它，就是贵
Minimax 性价比最高，速度足够快，速度稳定 – 龙虾浪潮下受益者
Codex 大部分时候都挺好的，但是有些任务，他指令遵循度不够，老是想着帮我优化，提高性能，实际上我不需要，单元测试的时候，我就希望有一些啰嗦答案，能直观的看懂案例
Kimi 指定遵循度很高，国内用起来最顺手的模型
GLM 节前还算正常，节后算力严重不足，弃用了

定位

AI 的脑容量是远超个人的，有些模块的设计，和 AI 进行方案讨论，能有效的拓展思维链路，找到更合理的设计方案。

高级的导师、能干的助手。

你有不懂的可以问他，你有清晰的开发任务，可以交付给它执行，相当于你带了很能干的小弟。

问题

国内的模型，在春节回来以后，出现大面积的算力不足，输出太慢了。虽说便宜有性价比，但是输出太慢，在实际工作中，很影响交互的的效率。智谱还在春节搞出来幺蛾子事件，背刺开发者，乱改套餐的价格。最后事情闹大了，大年初五发布道歉信，内部流程也有点混乱，在我申请退款以后，节后把历史的套餐全部都给我退款了。本来公告说的是仅退款升级的部分，保留老套餐的权益。

周限额，最初的智谱没有这个东西，现在购买都有了，也是平台低估了用户薅羊毛的能力。全额退款，导致我也不能继续薅羊毛了。glm-4.7 能力上和 kimi-2.5 差不多，指令遵循度足够。

无论哪个模型，目前都是需要人工进行审核。

单元测试

项目设计初期，各个模块的设计都是能独立进行单元测试。开发到了后期，发现大模型自己写的代码，然后自己写单元测试案例，大部分场景都是能全部通过的，由于不是测试驱动开发，单元测试工作的作用，在于后期的业务迭代、重构阶段，便于审核 ai 修改的代码是否破坏了原来的功能。

性能测试

如果没有 AI 针对部分核心函数，大概率是懒得进行性能测试的编码开发。有了 AI 那就顺带做一份，看看数据怎么样。

文档

维护文档是个费力的事情，ai 不一样，他能在修改代码的同时，帮你维护文档，同步更新相关的文档到最新的代码分支。

新能分析

尝试用了 codex 进行服务的性能优化，授权以后，能自动调用 perf 进行性能分析，但是不够聪明，它分析到了是频繁的申请内存导致效率太低，但是没有理解是由于循环次数太多导致的频繁申请内存，属于代码的不合理，有个很大的临时变量在循环内部，每次都执行了构造、析构。

流程

AI 项目的维护，人工介入，按照模块、函数来迭代开发，不指望 AI 能持续的维护新功能，每次编写提示词，相当于人工编写一个小的开发方案，涉及的模块有什么、在哪里修改最合适。

网上传的很多流程，在我这里并没有进行尝试，流程上比较传统，用起来也是最顺手的。