Codex 默认 medium，我后来还是切到 high

Wed, 08 Apr 2026 22:57:47 +0800

用 Codex 这段时间，有个问题一直挺别扭：默认思考档位是 medium，但网上一聊到 GPT-5.4，口气又都很猛。真到自己手里，medium、high、xhigh 到底差多少，官方也没给一张特别直白的表。

我现在的结论挺明确，日常编码我更愿意直接开 high。medium 不是不能用，快活、小修小补、试探方向没问题；但真到多文件修改、需求有歧义、还要边看代码边判断的时候，medium 很容易把算力省错地方。xhigh 我反而不会常开，留给卡壳的大活更合适。

先把 medium 说清楚

这事最容易绕晕人的地方，是 medium 不止一套含义。

截至 2026-04-08，OpenAI 公开文档里，GPT-5.4 的 reasoning.effort 支持的是 none、low、medium、high、xhigh，默认还是 none。但同一套文档里，verbosity 也有 low、medium、high，而且 GPT-5.4 的 verbosity 默认值就是 medium。

所以你在网上看到一句“默认是 medium”，先别急着往“思考等级”上套。很多时候，说的根本不是一回事。

如果你是在 Codex 里直接用，看到默认是 medium，我更倾向于把它理解成产品层给你的预设，而不是模型文档里的底层默认值。这个区别不拆开，后面讨论就会一直打架。

官方其实没把差距讲透

再说官方说明。

公开文档现在能确认几件事：

gpt-5.4 是官方推荐的通用编码默认模型。
代码生成指南里，官方给 gpt-5.4 的示例，直接配的是 reasoning: high。
gpt-5.3-codex 这类 Codex 定向模型，公开页面明确支持 low、medium、high、xhigh。
gpt-5.4-pro 是另一条线，不是普通 gpt-5.4 单纯把档位拧高那么简单，它本身就是“用更多算力想更久”的独立型号。

但官方没有给出一张特别实用的表，比如：

medium 比 high 到底差多少成功率
high 比 xhigh 多花多少时间、多少 token
在编码场景里，什么任务值得直接上 xhigh

也就是说，官方把旋钮给你了，没把经验曲线替你画完。

真正有用的，还是看排行榜怎么拆档位

灵光一闪，我去翻了 Arena 的代码榜，这下就清楚多了。

arena.ai 的代码排行榜把档位拆开写了。页面更新时间是 2026-04-01，截至我写这篇文章时：

gpt-5.4-high (codex-harness) 排第 6，分数 1457
gpt-5.4-medium (codex-harness) 排第 16，分数 1427
gpt-5.3-codex (codex-harness) 排第 18，分数 1407

这几个数放一起看，意思已经很直接了。

同一个 GPT-5.4，high 和 medium 不是“差一点点体验”，而是已经能拉开一个明显档次。你要是只看“GPT-5.4 很强”这句话，其实信息不够，因为榜单自己都把 high 和 medium 拆成两条了。很多人口中的“很强”，大概率说的是高思考档跑出来的效果，不是在替 medium 站台。

当然，排行榜不是你项目里的真理。它测的是 agentic coding + harness 场景，不是你本地这一个仓库。但方向已经很明显了：编码这种事，推理档位真会改结果，不只是改速度。

我现在怎么选

说白了，我现在的用法很简单。

medium 留给下面这些场景：

改几个小文件
修明显 bug
先让模型吐个草稿
要速度，不想等太久

high 适合当日常默认：

多文件联动修改
需求里有一点模糊地方
需要先读代码再下手
要做判断，不只是补全代码

xhigh 我会留给硬骨头：

高风险重构
长链路排障
架构改动
high 连着两轮都没把问题啃下来

这里面最关键的，不是 xhigh 有多神，而是别把 medium 用成“万金油”。medium 真正的问题不是弱，而是它太容易在复杂任务上给你一种“差一点就行”的错觉。结果就是第一轮省了点时间，后面返工更多。

说回 GPT-5.4，到底强的是哪个级别

所以最后回到那个问题：网上说 GPT-5.4 很强，说的到底是哪个级别？

我的判断是，没写清楚档位的“GPT-5.4 很强”，默认按高思考档理解更靠谱一点。至少在编码场景里，你别直接把它理解成 medium。如果对方说的是 gpt-5.4-pro，那就更不是一回事了，那是单独的更重计算版本。

前文写过基于命令行的AI编码交互，那会更多还在聊交互方式的变化。现在回头看，交互变了是一回事，模型到底开哪档，其实已经变成另一个更现实的问题了。

我现在站得很明确：日常用 high 足矣，搞不定再试 xhigh。这样在速度、成本和成功率之间，平衡点更像是对的。

参考资料

写作附记

原始提示词

$blog-writer codex 使用期间，有个疑问，默认的思考等级 medium，那剩下的 high xhigh 能力差别有多少，我日常使用应该是用哪个？官方也没看到明确的说明，网上说的 GTP5.4 很强，说的又是哪个级别的思考？灵关一闪，我想到大模型的排名：https://arena.ai/leaderboard/code，在这里，明确的说明了大模型的思考等级，没错了 gpt-5.4-high (codex-harness) 排在第六，默认用 high 足矣，搞不定了，可以试试 xhigh，能均衡下成本和速度

写作思路摘要

把“日常用 high，xhigh 兜底”作为主判断，没有写成档位百科。
先拆开 reasoning 和 verbosity，避免把公开文档里的两个 medium 混为一谈。
官方资料主要用来确认支持档位、默认值和代码生成示例，没有硬编一张官方并未提供的能力差距表。
Arena 榜单用了 2026-04-01 页面里的名次和分数，给“high 明显强于 medium”补事实锚点。
结构上先讲为什么会困惑，再讲官方口径的边界，最后收口到日常怎么选。

Gpt-5.4 on 向叔记事簿