token 更少，为什么 GPT-5.5 在 Codex 里反而更贵了

Mon, 27 Apr 2026 23:16:33 +0800

傻眼了。

ChatGPT 官方这边一直不太好直接看 token 和费用，我就找了个三方平台，在 Codex 里拿 GPT-5.4 和 GPT-5.5 跑了一轮同类任务，思考模式都拉到 high。结果很直白，简单问题还算温和，GPT-5.5 比 GPT-5.4 大概贵了 30% 左右；一上复杂任务，费用直接干到 2.6 倍，连请求次数和 token 消耗都一起往上走。

我现在的判断也很直白：这不是一句“5.5 单价更贵”就能说完的事。简单问题里，贵主要贵在单价；复杂任务里，贵的其实是整条调用链。但是反过来看，5.5 也确实更像是在替你吃掉返工成本。模型更愿意多想、多做、多检查几步，最后账单不是按一句回答算，而是按整套动作算，人也少来回折腾几轮。

单价这笔明账

先看最表面的账。

OpenAI 在 2026 年 4 月 23 日发布了 GPT-5.5，定位就是更强的 coding 和专业工作模型。按 2026 年 4 月 27 日官方 API Pricing 页面显示，GPT-5.5 的价格是输入 5 美元 / 1M tokens、输出 30 美元 / 1M tokens；GPT-5.4 则是输入 2.5 美元 / 1M tokens、输出 15 美元 / 1M tokens。也就是说，5.5 相比 5.4，输入和输出单价基本都是翻倍。

这样一来，简单问题为什么只贵 30%，其实也不难理解。因为 5.5 在这类任务里，可能确实更收敛一点，绕路更少，吃掉的 token 更少，把一部分涨价抵消掉了。OpenAI 自己在发布说明里也在强调，5.5 在复杂编码和真实工作任务上，能力更强，而且一些场景里 token 利用率更高。这个说法和我的测试不冲突，它只说明模型本身更会干活，不代表你的总账一定会更便宜。

说白了，饭量变小了一点，但是菜价翻倍了。那总价不上去才怪。

复杂任务的暗账

真正让我意难平的，不是简单问题那点 30%，而是复杂任务直接拉到 2.6 倍。

这部分如果只盯着 token 单价，很容易看偏。因为复杂任务在 Codex 里，本来就不是“一问一答”这么简单。你把思考模式开到 high，模型目标也不是尽快吐一段字出来，而是把事做完。它会拆步骤，会回看上下文，会改写，会补检查，甚至会自己多走几轮。OpenAI 对 GPT-5.5 的官方描述里，有一个点我觉得很关键：它不是更会聊天而已，而是更能自己规划、用工具、检查结果，并且在有歧义的时候继续往下做。

这就意味着，复杂任务的费用结构已经变了。

以前你看模型，更多是在看“每 1M token 多少钱”。现在你得看另一个东西，叫“为了把这个任务做完，它总共会启动多少次动作”。如果模型更主动、更执着，它当然可能把结果做得更像样，但同时也更容易把请求次数、上下文回读、输出长度一起抬上去。你最后看到的，就是单价上涨、token 上涨、请求次数上涨，三笔账叠在一起。

这也是为什么我这次测试里会出现一个很别扭的现象：简单问题上，5.5 看起来只是“小贵一点”；复杂任务上，它就不是“小贵”了，而是直接换了一套成本曲线。

更贵，不一定更不划算

这里还有一笔账，光看平台账单其实看不见，就是返工成本。

如果 5.4 便宜，但是你要多补两轮提示词，多手动纠偏几次，多回头修一遍结构，那些时间本质上也是成本，只是没有直接写在 token 账单里。5.5 更贵，某种程度上就是在卖这个东西：它把一部分“人来补锅”的工作，提前包进模型自己的推理和检查里。

所以复杂任务里，5.5 的贵，不应该只理解成“平台多收钱了”。更准确一点说，它像是把以前分散在人身上的返工、回看、补充说明、再验证，收拢成了一笔更高的模型费用。你如果本来就特别在意一次成稿率，或者任务上下文很长、来回切换代价高，那这笔钱未必不值。

当然，这里面也有个边界。返工成本到底有没有真的降下来，得看任务类型。如果只是问个简单问题，或者事情本来就很短平快，那 5.5 这部分额外能力你未必用得上，价格抬上去了，收益却没跟着上来，这时候就容易显得肉疼。

我现在怎么选

还有一个很现实的问题，为什么很多人会去找三方平台估算。

OpenAI 帮助中心写得挺清楚，chatgpt.com 和 platform.openai.com 是两套独立的平台，账单和历史费用也是分开看的。API 侧有 Usage Dashboard，还能导出 cost 和 usage；但如果你平时主要是在 ChatGPT 或 Codex 这边折腾，就没有那种 API 用户很熟悉的、按模型拆开的 token 成本视角。这个结论是我根据官方帮助文档做的推断，也正因为这样，很多时候只能自己测，或者借助三方平台侧着看。

所以我现在对 GPT-5.5 的态度也比较明确：

不是不能用，而是不能再拿“模型更强”这四个字，去默认它也“更划算”。

简单问题、低风险任务，5.4 这类更便宜的模型，大概率还是更适合做日常底座。复杂任务、高价值任务，再考虑开 5.5，前提是你真的愿意为那部分更强的自主性和更低的返工成本买单。否则很容易出现一种局面：结果可能好了一些，但是成本先失控了，最后连复现和扩量都不太敢做。

说实话，这才是这轮测试最有用的结论。模型升级不是单纯的性能升级，很多时候更像计费逻辑升级。以前是在挑答案质量，现在还得顺手挑一条自己付得起的推理路径。

如果再往平台视角多想一步，这种定价也有点像在重写用户对 AI 编程的价格锚点。更强的 agent，不再按“聊一次天多少钱”卖，而是按“替你省掉多少返工”卖。OpenAI 2026 年 4 月已经完成新的大额融资，也在继续调整公司结构、扩大商业化规模。至于“年内冲击 IPO”这件事，截至 2026 年 4 月 27 日，我还没看到 OpenAI 官方直接这么说，更多是外部媒体和分析师在往这个方向猜。所以这段如果要写，比较稳的写法不是“OpenAI 为了 IPO 故意涨价”，而是“公司显然也在借更强的 agent 能力，慢慢教育用户接受更高的价格带”。

参考资料

写作附记

原始提示词

ChatGPT 官方平台不好直接统计 token 和费用。找了三方平台进行测试，codex 里面调用 ChatGPT 不同型号的模型，思考模式 high，简单问题，测试了一波，5.5 对比 5.4 涨幅在 30% 左右，token 更少，但是 token 单价更贵了；复杂任务，翻了 2.6 倍，api 的请求次数更多了，token 耗费也更多，叠加 token 涨价，导致总的费用 2.6 倍。5.5 更多的是降低了你返工的成本，OpenAI 也在趁机让用户适应更高的价格，毕竟年内要冲击 IPO。

写作思路摘要

把文章主线压在“复杂任务的成本结构变了”，而不是写成泛泛的模型评测。
前半段先用官方定价解释为什么简单问题会出现“token 更少但总价更高”。
中段把复杂任务的 2.6 倍，拆成单价、token 和请求次数三笔账一起抬升。
单独补一段“返工成本”视角，避免把 5.5 写成只会涨价、不创造额外价值。
补一段官方平台与 API 平台账单分离的事实，解释为什么这类成本观察常常要靠自己测。
把 IPO 相关内容降级为市场化判断，不当成已经被 OpenAI 官方确认的事实来写。

成本观察 on 向叔记事簿