先把 medium 说清楚
这事最容易绕晕人的地方,是 medium 不止一套含义。
截至 2026-04-08,OpenAI 公开文档里,GPT-5.4 的 reasoning.effort 支持的是 none、low、medium、high、xhigh,默认还是 none。但同一套文档里,verbosity 也有 low、medium、high,而且 GPT-5.4 的 verbosity 默认值就是 medium。
所以你在网上看到一句“默认是 medium”,先别急着往“思考等级”上套。很多时候,说的根本不是一回事。
如果你是在 Codex 里直接用,看到默认是 medium,我更倾向于把它理解成产品层给你的预设,而不是模型文档里的底层默认值。这个区别不拆开,后面讨论就会一直打架。
官方其实没把差距讲透
再说官方说明。
公开文档现在能确认几件事:
gpt-5.4是官方推荐的通用编码默认模型。- 代码生成指南里,官方给
gpt-5.4的示例,直接配的是reasoning: high。 gpt-5.3-codex这类 Codex 定向模型,公开页面明确支持low、medium、high、xhigh。gpt-5.4-pro是另一条线,不是普通gpt-5.4单纯把档位拧高那么简单,它本身就是“用更多算力想更久”的独立型号。
但官方没有给出一张特别实用的表,比如:
medium比high到底差多少成功率high比xhigh多花多少时间、多少 token- 在编码场景里,什么任务值得直接上
xhigh
也就是说,官方把旋钮给你了,没把经验曲线替你画完。
真正有用的,还是看排行榜怎么拆档位
灵光一闪,我去翻了 Arena 的代码榜,这下就清楚多了。
arena.ai 的代码排行榜把档位拆开写了。页面更新时间是 2026-04-01,截至我写这篇文章时:
gpt-5.4-high (codex-harness)排第6,分数1457gpt-5.4-medium (codex-harness)排第16,分数1427gpt-5.3-codex (codex-harness)排第18,分数1407
这几个数放一起看,意思已经很直接了。
同一个 GPT-5.4,high 和 medium 不是“差一点点体验”,而是已经能拉开一个明显档次。你要是只看“GPT-5.4 很强”这句话,其实信息不够,因为榜单自己都把 high 和 medium 拆成两条了。很多人口中的“很强”,大概率说的是高思考档跑出来的效果,不是在替 medium 站台。
当然,排行榜不是你项目里的真理。它测的是 agentic coding + harness 场景,不是你本地这一个仓库。但方向已经很明显了:编码这种事,推理档位真会改结果,不只是改速度。
我现在怎么选
说白了,我现在的用法很简单。
medium 留给下面这些场景:
- 改几个小文件
- 修明显 bug
- 先让模型吐个草稿
- 要速度,不想等太久
high 适合当日常默认:
- 多文件联动修改
- 需求里有一点模糊地方
- 需要先读代码再下手
- 要做判断,不只是补全代码
xhigh 我会留给硬骨头:
- 高风险重构
- 长链路排障
- 架构改动
high连着两轮都没把问题啃下来
这里面最关键的,不是 xhigh 有多神,而是别把 medium 用成“万金油”。medium 真正的问题不是弱,而是它太容易在复杂任务上给你一种“差一点就行”的错觉。结果就是第一轮省了点时间,后面返工更多。
说回 GPT-5.4,到底强的是哪个级别
所以最后回到那个问题:网上说 GPT-5.4 很强,说的到底是哪个级别?
我的判断是,没写清楚档位的“GPT-5.4 很强”,默认按高思考档理解更靠谱一点。至少在编码场景里,你别直接把它理解成 medium。如果对方说的是 gpt-5.4-pro,那就更不是一回事了,那是单独的更重计算版本。
前文写过 基于命令行的AI编码交互,那会更多还在聊交互方式的变化。现在回头看,交互变了是一回事,模型到底开哪档,其实已经变成另一个更现实的问题了。
我现在站得很明确:日常用 high 足矣,搞不定再试 xhigh。这样在速度、成本和成功率之间,平衡点更像是对的。
参考资料
- Using GPT-5.4 | OpenAI API
- Code generation | OpenAI API
- GPT-5.4 Model | OpenAI API
- GPT-5.4 pro Model | OpenAI API
- GPT-5.3-Codex Model | OpenAI API
- Code AI Leaderboard - Best AI Models for Coding
写作附记
原始提示词
$blog-writer codex 使用期间,有个疑问,默认的思考等级 medium,那剩下的 high xhigh 能力差别有多少,我日常使用应该是用哪个?官方也没看到明确的说明,网上说的 GTP5.4 很强,说的又是哪个级别的思考?灵关一闪,我想到大模型的排名:https://arena.ai/leaderboard/code,在这里,明确的说明了大模型的思考等级,没错了 gpt-5.4-high (codex-harness) 排在第六,默认用 high 足矣,搞不定了,可以试试 xhigh,能均衡下成本和速度
写作思路摘要
- 把“日常用 high,xhigh 兜底”作为主判断,没有写成档位百科。
- 先拆开
reasoning和verbosity,避免把公开文档里的两个medium混为一谈。 - 官方资料主要用来确认支持档位、默认值和代码生成示例,没有硬编一张官方并未提供的能力差距表。
- Arena 榜单用了
2026-04-01页面里的名次和分数,给“high 明显强于 medium”补事实锚点。 - 结构上先讲为什么会困惑,再讲官方口径的边界,最后收口到日常怎么选。