token 更少,为什么 GPT-5.5 在 Codex 里反而更贵了

傻眼了。

ChatGPT 官方这边一直不太好直接看 token 和费用,我就找了个三方平台,在 Codex 里拿 GPT-5.4 和 GPT-5.5 跑了一轮同类任务,思考模式都拉到 high。结果很直白,简单问题还算温和,GPT-5.5 比 GPT-5.4 大概贵了 30% 左右;一上复杂任务,费用直接干到 2.6 倍,连请求次数和 token 消耗都一起往上走。

我现在的判断也很直白:这不是一句“5.5 单价更贵”就能说完的事。简单问题里,贵主要贵在单价;复杂任务里,贵的其实是整条调用链。但是反过来看,5.5 也确实更像是在替你吃掉返工成本。模型更愿意多想、多做、多检查几步,最后账单不是按一句回答算,而是按整套动作算,人也少来回折腾几轮。

单价这笔明账

先看最表面的账。

OpenAI 在 2026 年 4 月 23 日发布了 GPT-5.5,定位就是更强的 coding 和专业工作模型。按 2026 年 4 月 27 日官方 API Pricing 页面显示,GPT-5.5 的价格是输入 5 美元 / 1M tokens、输出 30 美元 / 1M tokens;GPT-5.4 则是输入 2.5 美元 / 1M tokens、输出 15 美元 / 1M tokens。也就是说,5.5 相比 5.4,输入和输出单价基本都是翻倍。

这样一来,简单问题为什么只贵 30%,其实也不难理解。因为 5.5 在这类任务里,可能确实更收敛一点,绕路更少,吃掉的 token 更少,把一部分涨价抵消掉了。OpenAI 自己在发布说明里也在强调,5.5 在复杂编码和真实工作任务上,能力更强,而且一些场景里 token 利用率更高。这个说法和我的测试不冲突,它只说明模型本身更会干活,不代表你的总账一定会更便宜。

说白了,饭量变小了一点,但是菜价翻倍了。那总价不上去才怪。

复杂任务的暗账

真正让我意难平的,不是简单问题那点 30%,而是复杂任务直接拉到 2.6 倍。

这部分如果只盯着 token 单价,很容易看偏。因为复杂任务在 Codex 里,本来就不是“一问一答”这么简单。你把思考模式开到 high,模型目标也不是尽快吐一段字出来,而是把事做完。它会拆步骤,会回看上下文,会改写,会补检查,甚至会自己多走几轮。OpenAI 对 GPT-5.5 的官方描述里,有一个点我觉得很关键:它不是更会聊天而已,而是更能自己规划、用工具、检查结果,并且在有歧义的时候继续往下做。

这就意味着,复杂任务的费用结构已经变了。

以前你看模型,更多是在看“每 1M token 多少钱”。现在你得看另一个东西,叫“为了把这个任务做完,它总共会启动多少次动作”。如果模型更主动、更执着,它当然可能把结果做得更像样,但同时也更容易把请求次数、上下文回读、输出长度一起抬上去。你最后看到的,就是单价上涨、token 上涨、请求次数上涨,三笔账叠在一起。

这也是为什么我这次测试里会出现一个很别扭的现象:简单问题上,5.5 看起来只是“小贵一点”;复杂任务上,它就不是“小贵”了,而是直接换了一套成本曲线。

更贵,不一定更不划算

这里还有一笔账,光看平台账单其实看不见,就是返工成本。

如果 5.4 便宜,但是你要多补两轮提示词,多手动纠偏几次,多回头修一遍结构,那些时间本质上也是成本,只是没有直接写在 token 账单里。5.5 更贵,某种程度上就是在卖这个东西:它把一部分“人来补锅”的工作,提前包进模型自己的推理和检查里。

所以复杂任务里,5.5 的贵,不应该只理解成“平台多收钱了”。更准确一点说,它像是把以前分散在人身上的返工、回看、补充说明、再验证,收拢成了一笔更高的模型费用。你如果本来就特别在意一次成稿率,或者任务上下文很长、来回切换代价高,那这笔钱未必不值。

当然,这里面也有个边界。返工成本到底有没有真的降下来,得看任务类型。如果只是问个简单问题,或者事情本来就很短平快,那 5.5 这部分额外能力你未必用得上,价格抬上去了,收益却没跟着上来,这时候就容易显得肉疼。

我现在怎么选

还有一个很现实的问题,为什么很多人会去找三方平台估算。

OpenAI 帮助中心写得挺清楚,chatgpt.complatform.openai.com 是两套独立的平台,账单和历史费用也是分开看的。API 侧有 Usage Dashboard,还能导出 cost 和 usage;但如果你平时主要是在 ChatGPT 或 Codex 这边折腾,就没有那种 API 用户很熟悉的、按模型拆开的 token 成本视角。这个结论是我根据官方帮助文档做的推断,也正因为这样,很多时候只能自己测,或者借助三方平台侧着看。

所以我现在对 GPT-5.5 的态度也比较明确:

不是不能用,而是不能再拿“模型更强”这四个字,去默认它也“更划算”。

简单问题、低风险任务,5.4 这类更便宜的模型,大概率还是更适合做日常底座。复杂任务、高价值任务,再考虑开 5.5,前提是你真的愿意为那部分更强的自主性和更低的返工成本买单。否则很容易出现一种局面:结果可能好了一些,但是成本先失控了,最后连复现和扩量都不太敢做。

说实话,这才是这轮测试最有用的结论。模型升级不是单纯的性能升级,很多时候更像计费逻辑升级。以前是在挑答案质量,现在还得顺手挑一条自己付得起的推理路径。

如果再往平台视角多想一步,这种定价也有点像在重写用户对 AI 编程的价格锚点。更强的 agent,不再按“聊一次天多少钱”卖,而是按“替你省掉多少返工”卖。OpenAI 2026 年 4 月已经完成新的大额融资,也在继续调整公司结构、扩大商业化规模。至于“年内冲击 IPO”这件事,截至 2026 年 4 月 27 日,我还没看到 OpenAI 官方直接这么说,更多是外部媒体和分析师在往这个方向猜。所以这段如果要写,比较稳的写法不是“OpenAI 为了 IPO 故意涨价”,而是“公司显然也在借更强的 agent 能力,慢慢教育用户接受更高的价格带”。

参考资料

写作附记

原始提示词

ChatGPT 官方平台不好直接统计 token 和 费用。找了三方平台进行测试,codex 里面调用 ChatGPT 不同型号的模型,思考模式 high,简单问题,测试了一波,5.5 对比 5.4 涨幅在 30% 左右,token 更少,但是 token 单价更贵了;复杂任务,翻了 2.6 倍,api 的请求次数更多了,token 耗费也更多,叠加 token 涨价,导致总的费用 2.6 倍。5.5 更多的是降低了你返工的成本,OpenAI 也在趁机让用户适应更高的价格,毕竟年内要冲击 IPO。

写作思路摘要

  • 把文章主线压在“复杂任务的成本结构变了”,而不是写成泛泛的模型评测。
  • 前半段先用官方定价解释为什么简单问题会出现“token 更少但总价更高”。
  • 中段把复杂任务的 2.6 倍,拆成单价、token 和请求次数三笔账一起抬升。
  • 单独补一段“返工成本”视角,避免把 5.5 写成只会涨价、不创造额外价值。
  • 补一段官方平台与 API 平台账单分离的事实,解释为什么这类成本观察常常要靠自己测。
  • 把 IPO 相关内容降级为市场化判断,不当成已经被 OpenAI 官方确认的事实来写。
金融IT程序员的瞎折腾、日常生活的碎碎念
使用 Hugo 构建
主题 StackJimmy 设计