<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Gpt-5.4 on 向叔记事簿</title>
        <link>https://ttf248.life/tags/gpt-5.4/</link>
        <description>Recent content in Gpt-5.4 on 向叔记事簿</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 09 Apr 2026 00:33:03 +0800</lastBuildDate><atom:link href="https://ttf248.life/tags/gpt-5.4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Codex 默认 medium，我后来还是切到 high</title>
        <link>https://ttf248.life/p/codex-default-medium-vs-high/</link>
        <pubDate>Wed, 08 Apr 2026 22:57:47 +0800</pubDate>
        
        <guid>https://ttf248.life/p/codex-default-medium-vs-high/</guid>
        <description>&lt;p&gt;用 Codex 这段时间，有个问题一直挺别扭：默认思考档位是 &lt;code&gt;medium&lt;/code&gt;，但网上一聊到 &lt;code&gt;GPT-5.4&lt;/code&gt;，口气又都很猛。真到自己手里，&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;、&lt;code&gt;xhigh&lt;/code&gt; 到底差多少，官方也没给一张特别直白的表。&lt;/p&gt;
&lt;p&gt;我现在的结论挺明确，日常编码我更愿意直接开 &lt;code&gt;high&lt;/code&gt;。&lt;code&gt;medium&lt;/code&gt; 不是不能用，快活、小修小补、试探方向没问题；但真到多文件修改、需求有歧义、还要边看代码边判断的时候，&lt;code&gt;medium&lt;/code&gt; 很容易把算力省错地方。&lt;code&gt;xhigh&lt;/code&gt; 我反而不会常开，留给卡壳的大活更合适。&lt;/p&gt;
&lt;h2 id=&#34;先把-medium-说清楚&#34;&gt;先把 medium 说清楚
&lt;/h2&gt;&lt;p&gt;这事最容易绕晕人的地方，是 &lt;code&gt;medium&lt;/code&gt; 不止一套含义。&lt;/p&gt;
&lt;p&gt;截至 &lt;code&gt;2026-04-08&lt;/code&gt;，OpenAI 公开文档里，&lt;code&gt;GPT-5.4&lt;/code&gt; 的 &lt;code&gt;reasoning.effort&lt;/code&gt; 支持的是 &lt;code&gt;none&lt;/code&gt;、&lt;code&gt;low&lt;/code&gt;、&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;、&lt;code&gt;xhigh&lt;/code&gt;，默认还是 &lt;code&gt;none&lt;/code&gt;。但同一套文档里，&lt;code&gt;verbosity&lt;/code&gt; 也有 &lt;code&gt;low&lt;/code&gt;、&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;，而且 &lt;code&gt;GPT-5.4&lt;/code&gt; 的 &lt;code&gt;verbosity&lt;/code&gt; 默认值就是 &lt;code&gt;medium&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;所以你在网上看到一句“默认是 medium”，先别急着往“思考等级”上套。很多时候，说的根本不是一回事。&lt;/p&gt;
&lt;p&gt;如果你是在 Codex 里直接用，看到默认是 &lt;code&gt;medium&lt;/code&gt;，我更倾向于把它理解成产品层给你的预设，而不是模型文档里的底层默认值。这个区别不拆开，后面讨论就会一直打架。&lt;/p&gt;
&lt;h2 id=&#34;官方其实没把差距讲透&#34;&gt;官方其实没把差距讲透
&lt;/h2&gt;&lt;p&gt;再说官方说明。&lt;/p&gt;
&lt;p&gt;公开文档现在能确认几件事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;gpt-5.4&lt;/code&gt; 是官方推荐的通用编码默认模型。&lt;/li&gt;
&lt;li&gt;代码生成指南里，官方给 &lt;code&gt;gpt-5.4&lt;/code&gt; 的示例，直接配的是 &lt;code&gt;reasoning: high&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.3-codex&lt;/code&gt; 这类 Codex 定向模型，公开页面明确支持 &lt;code&gt;low&lt;/code&gt;、&lt;code&gt;medium&lt;/code&gt;、&lt;code&gt;high&lt;/code&gt;、&lt;code&gt;xhigh&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.4-pro&lt;/code&gt; 是另一条线，不是普通 &lt;code&gt;gpt-5.4&lt;/code&gt; 单纯把档位拧高那么简单，它本身就是“用更多算力想更久”的独立型号。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但官方没有给出一张特别实用的表，比如：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;medium&lt;/code&gt; 比 &lt;code&gt;high&lt;/code&gt; 到底差多少成功率&lt;/li&gt;
&lt;li&gt;&lt;code&gt;high&lt;/code&gt; 比 &lt;code&gt;xhigh&lt;/code&gt; 多花多少时间、多少 token&lt;/li&gt;
&lt;li&gt;在编码场景里，什么任务值得直接上 &lt;code&gt;xhigh&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;也就是说，官方把旋钮给你了，没把经验曲线替你画完。&lt;/p&gt;
&lt;h2 id=&#34;真正有用的还是看排行榜怎么拆档位&#34;&gt;真正有用的，还是看排行榜怎么拆档位
&lt;/h2&gt;&lt;p&gt;灵光一闪，我去翻了 Arena 的代码榜，这下就清楚多了。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;arena.ai&lt;/code&gt; 的代码排行榜把档位拆开写了。页面更新时间是 &lt;code&gt;2026-04-01&lt;/code&gt;，截至我写这篇文章时：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;gpt-5.4-high (codex-harness)&lt;/code&gt; 排第 &lt;code&gt;6&lt;/code&gt;，分数 &lt;code&gt;1457&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.4-medium (codex-harness)&lt;/code&gt; 排第 &lt;code&gt;16&lt;/code&gt;，分数 &lt;code&gt;1427&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.3-codex (codex-harness)&lt;/code&gt; 排第 &lt;code&gt;18&lt;/code&gt;，分数 &lt;code&gt;1407&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这几个数放一起看，意思已经很直接了。&lt;/p&gt;
&lt;p&gt;同一个 &lt;code&gt;GPT-5.4&lt;/code&gt;，&lt;code&gt;high&lt;/code&gt; 和 &lt;code&gt;medium&lt;/code&gt; 不是“差一点点体验”，而是已经能拉开一个明显档次。你要是只看“GPT-5.4 很强”这句话，其实信息不够，因为榜单自己都把 &lt;code&gt;high&lt;/code&gt; 和 &lt;code&gt;medium&lt;/code&gt; 拆成两条了。很多人口中的“很强”，大概率说的是高思考档跑出来的效果，不是在替 &lt;code&gt;medium&lt;/code&gt; 站台。&lt;/p&gt;
&lt;p&gt;当然，排行榜不是你项目里的真理。它测的是 agentic coding + harness 场景，不是你本地这一个仓库。但方向已经很明显了：编码这种事，推理档位真会改结果，不只是改速度。&lt;/p&gt;
&lt;h2 id=&#34;我现在怎么选&#34;&gt;我现在怎么选
&lt;/h2&gt;&lt;p&gt;说白了，我现在的用法很简单。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;medium&lt;/code&gt; 留给下面这些场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;改几个小文件&lt;/li&gt;
&lt;li&gt;修明显 bug&lt;/li&gt;
&lt;li&gt;先让模型吐个草稿&lt;/li&gt;
&lt;li&gt;要速度，不想等太久&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;high&lt;/code&gt; 适合当日常默认：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;多文件联动修改&lt;/li&gt;
&lt;li&gt;需求里有一点模糊地方&lt;/li&gt;
&lt;li&gt;需要先读代码再下手&lt;/li&gt;
&lt;li&gt;要做判断，不只是补全代码&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;xhigh&lt;/code&gt; 我会留给硬骨头：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;高风险重构&lt;/li&gt;
&lt;li&gt;长链路排障&lt;/li&gt;
&lt;li&gt;架构改动&lt;/li&gt;
&lt;li&gt;&lt;code&gt;high&lt;/code&gt; 连着两轮都没把问题啃下来&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这里面最关键的，不是 &lt;code&gt;xhigh&lt;/code&gt; 有多神，而是别把 &lt;code&gt;medium&lt;/code&gt; 用成“万金油”。&lt;code&gt;medium&lt;/code&gt; 真正的问题不是弱，而是它太容易在复杂任务上给你一种“差一点就行”的错觉。结果就是第一轮省了点时间，后面返工更多。&lt;/p&gt;
&lt;h2 id=&#34;说回-gpt-54到底强的是哪个级别&#34;&gt;说回 GPT-5.4，到底强的是哪个级别
&lt;/h2&gt;&lt;p&gt;所以最后回到那个问题：网上说 &lt;code&gt;GPT-5.4&lt;/code&gt; 很强，说的到底是哪个级别？&lt;/p&gt;
&lt;p&gt;我的判断是，没写清楚档位的“GPT-5.4 很强”，默认按高思考档理解更靠谱一点。至少在编码场景里，你别直接把它理解成 &lt;code&gt;medium&lt;/code&gt;。如果对方说的是 &lt;code&gt;gpt-5.4-pro&lt;/code&gt;，那就更不是一回事了，那是单独的更重计算版本。&lt;/p&gt;
&lt;p&gt;前文写过 &lt;a class=&#34;link&#34; href=&#34;https://ttf248.life/p/command-line-ai-coding-interaction/&#34; &gt;基于命令行的AI编码交互&lt;/a&gt;，那会更多还在聊交互方式的变化。现在回头看，交互变了是一回事，模型到底开哪档，其实已经变成另一个更现实的问题了。&lt;/p&gt;
&lt;p&gt;我现在站得很明确：日常用 &lt;code&gt;high&lt;/code&gt; 足矣，搞不定再试 &lt;code&gt;xhigh&lt;/code&gt;。这样在速度、成本和成功率之间，平衡点更像是对的。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/guides/latest-model&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Using GPT-5.4 | OpenAI API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/guides/code-generation&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Code generation | OpenAI API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/models/gpt-5.4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GPT-5.4 Model | OpenAI API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/models/gpt-5.4-pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GPT-5.4 pro Model | OpenAI API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/models/gpt-5.3-codex&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GPT-5.3-Codex Model | OpenAI API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arena.ai/leaderboard/code&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Code AI Leaderboard - Best AI Models for Coding&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;写作附记&#34;&gt;写作附记
&lt;/h2&gt;&lt;h3 id=&#34;原始提示词&#34;&gt;原始提示词
&lt;/h3&gt;&lt;pre&gt;&lt;code class=&#34;language-text&#34;&gt;$blog-writer codex 使用期间，有个疑问，默认的思考等级 medium，那剩下的 high xhigh 能力差别有多少，我日常使用应该是用哪个？官方也没看到明确的说明，网上说的 GTP5.4 很强，说的又是哪个级别的思考？灵关一闪，我想到大模型的排名：https://arena.ai/leaderboard/code，在这里，明确的说明了大模型的思考等级，没错了 gpt-5.4-high (codex-harness) 排在第六，默认用 high 足矣，搞不定了，可以试试 xhigh，能均衡下成本和速度
&lt;/code&gt;&lt;/pre&gt;
&lt;h3 id=&#34;写作思路摘要&#34;&gt;写作思路摘要
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;把“日常用 high，xhigh 兜底”作为主判断，没有写成档位百科。&lt;/li&gt;
&lt;li&gt;先拆开 &lt;code&gt;reasoning&lt;/code&gt; 和 &lt;code&gt;verbosity&lt;/code&gt;，避免把公开文档里的两个 &lt;code&gt;medium&lt;/code&gt; 混为一谈。&lt;/li&gt;
&lt;li&gt;官方资料主要用来确认支持档位、默认值和代码生成示例，没有硬编一张官方并未提供的能力差距表。&lt;/li&gt;
&lt;li&gt;Arena 榜单用了 &lt;code&gt;2026-04-01&lt;/code&gt; 页面里的名次和分数，给“high 明显强于 medium”补事实锚点。&lt;/li&gt;
&lt;li&gt;结构上先讲为什么会困惑，再讲官方口径的边界，最后收口到日常怎么选。&lt;/li&gt;
&lt;/ul&gt;</description>
        </item>
        
    </channel>
</rss>
