Codex はデフォルトで medium ですが、後で high に切り替えました。

まず「medium」を明確にしておく

この件で最も混乱しやすいのは、「medium」が単一の意味ではない点です。 2026年4月8日現在、OpenAIの公開ドキュメントによると、GPT-5.4 の reasoning.effort は none、low、medium、high、xhigh をサポートしており、デフォルトは依然として none です。しかし、同じドキュメント内には verbosity もあり、これには low、medium、high が含まれており、しかも GPT-5.4 の verbosity のデフォルト値は medium です。そのため、「デフォルトは medium」という記述をオンラインで見ても、すぐに「思考レベル」に当てはめるのはやめてください。多くの場合、言及されているものは全く別のことを指しています。もしあなたが Codex で直接利用している状況で、デフォルトが medium と表示された場合、私はそれをモデルドキュメント上の低レイヤーなデフォルト値として理解するよりも、プロダクト層から提供されるプリセットとして解釈する方が適切だと考えます。この区別をしないと、後続の議論で常に矛盾が生じてしまいます。

公式は実際には差を明確に説明していない

公式の説明を再確認します。公開ドキュメントから現在確認できることは以下の点です：

gpt-5.4 が、公式推奨の汎用コーディングデフォルトモデルであること。
コード生成ガイドラインにおいて、公式が gpt-5.4 に提供する例では、直接的に reasoning: high が設定されていること。
gpt-5.3-codex のような Codex 特化モデルは、公開ページで明確に low、medium、high、xhigh をサポートしていること。
gpt-5.4-pro は別のラインであり、単に通常の gpt-5.4 の設定を上げるだけではなく、「より多くの計算能力を使ってより長く考える」ための独立したモデルであること。

しかし、公式は非常に実用的な表を提供してくれません。例えば：

medium が high に比べて具体的にどの程度の成功率の差があるのか
high が xhigh に比べてどれだけ時間とトークンを余分に消費するのか
コーディングのシナリオにおいて、どのタスクが直接 xhigh を使う価値があるのか

つまり、公式はノブ（ダイヤル）は渡してくれたものの、経験曲線を描き上げてくれるわけではないのです。

本当に役立つのは、ランキングのどの段階を見るかによる

ひらめきが訪れ、私はArenaのコードランキングを覗いてみたところ、状況がはっきりしました。 arena.ai のコードランキングでは、レベル分けされて記載されています。ページ更新日は 2026-04-01 であり、この記事を書いている時点でのデータは以下の通りです：

gpt-5.4-high (codex-harness) は 6位、スコア 1457
gpt-5.4-medium (codex-harness) は 16位、スコア 1427
gpt-5.3-codex (codex-harness) は 18位、スコア 1407 これら数値を並べて見ると、意味は非常に明白です。同じ GPT-5.4 において、high と medium の差は「ほんの少しの違い」ではなく、明確なレベル差を生んでいます。もしあなたが「GPT-5.4 はとても強力だ」という一文だけを見ていたとしても、情報が不十分です。なぜなら、ランキング自体が high と medium を別々の項目として提示しているからです。世間で言う「非常に強力」というのは、おそらく高い思考レベルで出た結果を指しており、medium の代わりをしているわけではない可能性が高いのです。もちろん、このランキングはあなたのプロジェクトにおける真理ではありません。これは agentic coding + harness のシナリオを測定したものであり、あなた自身のローカルリポジトリとは異なります。しかし、方向性は非常に明確です。コーディングという行為において、推論のレベル（档位）は単に速度を変えるだけでなく、結果そのものを変えてしまうのです。

今、どう選ぶか

端的に言うと、今の私の使い方はとてもシンプルです。

medium は以下のシーンのために取っておきます：

小さなファイルの修正
明らかなバグの修正
まずモデルにドラフトを出してもらいたいとき
スピードが求められ、長く待てないとき

high は日常のデフォルトとして適しています：

複数のファイルにまたがる変更
要件に少し曖昧な部分があるとき
コードを読んでから着手する必要があるとき
単なるコード補完ではなく、判断が必要なとき

xhigh は難関問題のために取っておきます：

リスクの高いリファクタリング
長い処理フローのデバッグ
アーキテクチャの変更
high を2周しても問題を解決できなかった場合

ここで最も重要なのは、xhigh がどれだけすごいかということではなく、medium を「万能薬」として使ってしまわないことです。medium の問題は弱さではなく、複雑なタスクにおいて「もう少しでいいや」という誤った感覚を与えやすい点にあります。その結果、最初の段階で時間を節約したつもりでも、後でより多くの手戻りが発生します。

GPT-5.4 に戻るが、結局どのレベルが強いのか

というわけで、再びあの問題に戻ります。「GPT-5.4 はとても強力だ」とネットで言われているが、具体的にどのレベルのことを指しているのだろうか？私の判断では、グレードを明記していない「GPT-5.4 が強力」というのは、デフォルトで高い思考レベル（high）を想定するのがより信頼できると思います。少なくともコーディングのシナリオにおいては、それを単に medium と理解するのは避けるべきです。もし相手が gpt-5.4-pro のようなことを言っているなら、それは全く別の話であり、より重い計算能力を持つ専用バージョンです。前述したコマンドラインベースのAIコーディングインタラクションでは、主にインタラクション方法の変化について議論していました。今振り返ると、インタラクションが変わったことは一つの側面ですが、モデルが実際にどのレベルで動いているのかという点は、実は別の、より現実的な問題になってきています。私としては非常に明確なスタンスを持っています。日常使いなら high で十分であり、それでうまくいかない場合にのみ xhigh を試すべきです。このようにすることで、速度、コスト、成功率のバランス点が最も適切だと考えます。

参考資料

作成上の注記

元のプロンプト

$blog-writer codex を使用している際に疑問点があります。デフォルトの思考レベルは medium ですが、残りの high や xhigh の能力差はどのくらいですか？日常的に使うべきなのはどれでしょうか？公式の説明も明確に見当たりませんし、ネット上では GPT-5.4 が非常に強力だという話や、また別のレベルの話を聞きます。ふと、大規模言語モデルのランキングを思い出し、https://arena.ai/leaderboard/code を確認しました。ここでは、各LLMの思考レベルが明確に示されていますね。GPT-5.4-high (codex-harness) が6位にいます。デフォルトで high を使うだけで十分な気がします。もしうまくいかないようでしたら、xhigh を試してみるのも良いかもしれません。コストと速度のバランスを取れると思います。

ライティングの骨子（要約）

「日常的な使用では high を使い、xhigh でカバーする」ことを主要な判断軸とし、グレード別百科事典のような記述は避けた。
reasoning と verbosity を分けて説明し、公開ドキュメント内の2つの medium を混同することを防いだ。
公式資料は、サポートされるグレード、デフォルト値、コード生成の例を確認するために使用し、公式が提供していない能力差の表を勝手に作成することは避けた。
Arena ランキングでは、2026-04-01 ページの順位とスコアを使用し、「high が medium より明らかに優れている」という点に事実上のアンカーポイント（根拠）を補強した。
構成としては、まず「なぜ混乱するのか」から説明し、次に公式の見解の境界線を示し、最後に日常的な選び方で締めくくる流れとした。