トークンが少ないのに、なぜGPT-5.5はCodexでかえって高くなったのですか？

単価の明細書

まず表面的な帳簿を見ましょう。

このように考えると、簡単な問題だけでなぜ30%しかコストが増えないのかは、実はそれほど難しくありません。なぜなら、この種のタスクでは、5.5の方が確かに収束しやすく、回り道が少なく、消費するトークンが少ないため、値上げの一部を相殺しているからです。

OpenAI自身もリリースノートで、5.5が複雑なコーディングや実際の業務タスクにおいて能力がより強力であり、特定のシナリオではトークンの利用効率が高いと強調しています。この主張は私のテスト結果と矛盾するものではありません。これは単にモデル自体が「より高い性能を発揮する」ことを示しているだけであり、お客様の総費用が必ずしも安くなるわけではありません。

正直に言うと、食欲は少し落ちたけど、野菜の値段が2倍になったんだから。合計金額が上がらないなんてありえないよ。

複雑なタスクの裏側

私にとって最も「意難平」な（心を揺さぶられた）のは、簡単な問題でわずか30%という点ではなく、複雑なタスクがなんと2.6倍にまで引き上げられたことです。

つまり、複雑なタスクの費用体系が変わってきたということです。

以前は、モデルを見る際、「1M トークンあたりいくらか」に注目するのが主でした。しかし今は、別の視点——「このタスクを完了するために、総じてどれだけの回数のアクションが開始されるか」——を見る必要があります。

モデルがより能動的で執拗になれば、当然ながら結果はより良くなる可能性もありますが、同時にリクエストの回数、コンテキスト参照（再読み込み）、そして出力長さを一緒に引き上げてしまうリスクも高まります。

最終的に目にするのは、単価の上昇、トークンの増加、そしてリクエスト回数の増加という、3つの費用が重なり合った請求書です。

これが、今回（のテスト）で非常に異様な現象が起こった理由です。簡単な問題では、5.5は単に「少しコストが高い」程度に見えるだけで終わります。しかし、複雑なタスクになると、「少し高い」というレベルではなくなり、まるごと別のコストカーブを敷いてしまうのです。

高価でも、必ずしも割に合わないわけではない

ここにはもう一つ費用がかかっています。プラットフォームの請求書だけでは実際に見えないのですが、それが「手直し（やり直し）にかかるコスト」なんです。

もし 5.4 の方が安くても、プロンプトの追加を2ラウンドしたり、手動での修正・補正作業を何回も行ったり、構造的な再調整を行う時間自体が本質的にコストであり、単にトークン請求書に直接計上されていないだけです。5.5 はより高価ですが、ある意味で「人間が行うカバー（リカバリー）作業」の一部を、モデル自身の推論プロセスとチェック機能の中に事前にパッケージ化して売っているということなのです。

したがって、複雑なタスクにおける5.5の費用高は、「プラットフォームが余分に料金を徴収した」とだけ理解すべきではありません。より正確に言えば、それはこれまで人間に分散していた修正作業、再確認、補足説明、そしてさらなる検証といったプロセスを、単一かつ高いモデル費用として集約したもののようなものです。もしあなたが元々「一度で完成させる精度（一次成稿率）」を特に重視している場合や、タスクのコンテキストが長く往復する際のコストが高い場合は、この費用が無駄ではない可能性もあります。

もちろん、ここには限界点もあります。手直し（リワーク）のコストが本当に下がったかどうかは、タスクの種類によります。もし単に簡単な質問をするだけの場合や、本来から短い期間で終わる作業であれば、この 5.5 の追加機能は必ずしも活用できないかもしれません。価格は上がっているのに利益がそれに追いつかない場合、その時点では負担（コスト）に感じやすくなるでしょう。

どう選べばいいですか？

さらに、非常に現実的な疑問として、「なぜ多くの人がサードパーティのプラットフォームに見積もり（または評価）を依頼するのか」という点があります。

OpenAIのヘルプセンターには明確に書かれていますが、chatgpt.com と platform.openai.com は独立した2つのプラットフォームであり、請求書や過去の費用も別々に確認できます。API側には「Usage Dashboard」があり、コスト（cost）と使用量（usage）をエクスポートすることも可能です。しかしながら、普段ChatGPTやCodexなどの領域で主に利用する場合、APIユーザーが慣れているような、モデルごとに分割されたトークンコストという視点はありません。この結論は、私が公式ヘルプドキュメントに基づいて推測したものであり、そのため、多くの場合は自分でテストするか、サードパーティのプラットフォームを利用して確認するしかありません。

そのため、現在、私（は）GPT-5.5に対して明確なスタンスを持っています。

使えないわけではないのですが、「モデルがより強力だ」というだけで、必ずしも「それもまたより合理的（または得策）である」と決めつけてしまうことはできないということです。

簡単な問題、リスクの低いタスクには、5.4のような安価なモデルが、日常的なベースラインとして適している可能性が高いでしょう。複雑なタスクや高価値のタスクについては、5.5の導入も検討できますが、前提として、より高い自律性（自主性）と低く抑えられた手直しコストに対して、あなたが本当に対価を払う意思があることが必要です。そうでない場合、結果は多少良くなっても、まずコストが制御不能になり、最終的には再現やスケールアップすることさえ躊躇してしまうという状況になりがちです。

正直なところ、これが今回のテストで最も役立つ結論です。モデルのアップグレードは単なる性能向上ではなく、多くの場合、課金（ビリング）ロジックのアップグレードのようなものです。以前は回答の質を選んでいたものが、今や自分自身が支払い可能な推論パスを同時に選ばなければならなくなってきました。

プラットフォームの視点からさらに一歩深く考えると、この価格設定は、ユーザーがAIプログラミングに対して持つ「価格のアンカーポイント」を書き換えているようにも見えます。より高度なエージェント機能は、「チャットを一度するのにいくらか」という感覚で売られるのではなく、「どれだけの再作業（工数）を節約できるか」という価値で売られるのです。OpenAIはすでに2026年4月に大型資金調達を完了し、引き続き企業構造の調整と商業化規模の拡大を進めています。「今年中にIPOを控えている」という点については、本日2026年4月27日現在、OpenAI自身が公式にそう断言した記録はありません。これはむしろ外部メディアやアナリストによる推測が主です。したがって、この部分を記述する場合、「OpenAIはIPOのために意図的に価格を上げている」という書き方よりも、「同社はより高度なエージェント能力を活用し、徐々にユーザーに高い価格帯を受け入れさせるよう教育している」といった方が、より確実で安全な表現となるでしょう。

参考資料

執筆者注記

元のプロンプト

ChatGPTの公式プラットフォームでは、トークン数と費用を直接統計するのが難しい。サードパーティのプラットフォームを使ってテストを行ったところ、Codex内でChatGPTの異なるモデルを呼び出し、思考モードを「high」に設定して簡単な問題をいくつか試した。5.4と比較すると、5.5は約30%の増加傾向にあるが、トークン数は減ったものの、トークンの単価が上がっていることがわかった。複雑なタスクでは2.6倍に増加し、APIの呼び出し回数が増え、トークン消費量も増えたため、さらにトークン価格の上昇が加わり、総費用が2.6倍になっている。5.5は主に再作業にかかるコストを下げていると言える。OpenAIも年内にIPOを目指しているため、この機会を利用してユーザーに高い価格帯への適応を促しているようだ。

執筆コンセプトの概要

記事のメインテーマを「複雑なタスクのコスト構造の変化」に絞り、単なる一般的なモデル評価にならないようにすること。
序盤では、公式の価格設定を用いて、簡単な問題であっても「トークンは少ないが総額が高くなる」理由を説明する。
中盤では、複雑なタスクが単価、トークン数、リクエスト回数の三つの要因すべてで同時に上昇し、結果として元の2.6倍になっていることを詳述する。
「修正・再作業（イテレーション）のコスト」という視点を独立した段落で補足し、5.5を単に価格が上がっただけで付加価値を生み出していないかのように見せないようにする。
公式プラットフォームとAPIプラットフォームの請求書が分離しているという事実を追記し、なぜこのようなコスト観察は独自に測定する必要があるのかを説明する。
IPO関連の内容は、OpenAIが公式に確認した事実としてではなく、市場的な判断として格