近期在项目中,重度使用 AI 编程,应该是最近三年,AI 在工作中融合度最高的一个项目。记录的笔记不成体系,想到什么说什么。
背景
linux 环境,后端服务开发,不涉及 UI 开发等前端内容。
模型
国内的 minimax、glm、kimi 三剑客都上手试过了,kimi 的效果最好。claude 面对大需求,能有效进行拆解,codex 最适用于生产环境,它异常谨慎。
- Claude 最全能的选手,目前编程赛道,没人能打败它,就是贵
- Minimax 性价比最高,速度足够快,速度稳定 – 龙虾浪潮下受益者
- Codex 大部分时候都挺好的,但是有些任务,他指令遵循度不够,老是想着帮我优化,提高性能,实际上我不需要,单元测试的时候,我就希望有一些啰嗦答案,能直观的看懂案例
- Kimi 指定遵循度很高,国内用起来最顺手的模型
- GLM 节前还算正常,节后算力严重不足,弃用了
定位
AI 的脑容量是远超个人的,有些模块的设计,和 AI 进行方案讨论,能有效的拓展思维链路,找到更合理的设计方案。
高级的导师、能干的助手。
你有不懂的可以问他,你有清晰的开发任务,可以交付给它执行,相当于你带了很能干的小弟。
问题
国内的模型,在春节回来以后,出现大面积的算力不足,输出太慢了。虽说便宜有性价比,但是输出太慢,在实际工作中,很影响交互的的效率。智谱还在春节搞出来幺蛾子事件,背刺开发者,乱改套餐的价格。最后事情闹大了,大年初五发布道歉信,内部流程也有点混乱,在我申请退款以后,节后把历史的套餐全部都给我退款了。本来公告说的是仅退款升级的部分,保留老套餐的权益。
周限额,最初的智谱没有这个东西,现在购买都有了,也是平台低估了用户薅羊毛的能力。全额退款,导致我也不能继续薅羊毛了。glm-4.7 能力上和 kimi-2.5 差不多,指令遵循度足够。
无论哪个模型,目前都是需要人工进行审核。
单元测试
项目设计初期,各个模块的设计都是能独立进行单元测试。开发到了后期,发现大模型自己写的代码,然后自己写单元测试案例,大部分场景都是能全部通过的,由于不是测试驱动开发,单元测试工作的作用,在于后期的业务迭代、重构阶段,便于审核 ai 修改的代码是否破坏了原来的功能。
性能测试
如果没有 AI 针对部分核心函数,大概率是懒得进行性能测试的编码开发。有了 AI 那就顺带做一份,看看数据怎么样。
文档
维护文档是个费力的事情,ai 不一样,他能在修改代码的同时,帮你维护文档,同步更新相关的文档到最新的代码分支。
新能分析
尝试用了 codex 进行服务的性能优化,授权以后,能自动调用 perf 进行性能分析,但是不够聪明,它分析到了是频繁的申请内存导致效率太低,但是没有理解是由于循环次数太多导致的频繁申请内存,属于代码的不合理,有个很大的临时变量在循环内部,每次都执行了构造、析构。
流程
AI 项目的维护,人工介入,按照模块、函数来迭代开发,不指望 AI 能持续的维护新功能,每次编写提示词,相当于人工编写一个小的开发方案,涉及的模块有什么、在哪里修改最合适。
网上传的很多流程,在我这里并没有进行尝试,流程上比较传统,用起来也是最顺手的。