Tags

5 ページ目

Codex

トークンが少ないのに、なぜGPT-5.5はCodexでかえって高くなったのですか?

呆然とした。

ChatGPTの公式側では、トークンや費用を直接確認するのが難しいため、サードパーティのプラットフォームを利用して、CodexでGPT-5.4とGPT-5.5を用いて同種のタスクを一度実行しました。思考モードはすべてhighに設定しています。結果は非常に明快でした。簡単な問題については比較的穏やかで、GPT-5.5はGPT-5.4よりおよそ30%高価です。しかし、複雑なタスクになると、費用が直接2.6倍に跳ね上がり、リクエスト回数とトークン消費量も共に増加

私自身の判断も非常にストレートに申し上げますが、これは単に「5.5のほうが単価が高い」という一言で片付けられる問題ではありません。簡単なタスクの場合、費用は主に単価が要因となります。しかし、複雑なタスクの場合、実際にかかっているコストは、その呼び出しチェーン(処理の一連の流れ)全体です。

とはいえ、逆から見ると、5.5はあなたの手戻り(作り直し)のコストを肩代わりしてくれている側面があります。モデル側がより深く考え、より多くの工程を経て実行し、より多くチェックしてくれるため、最終的に請求されるのは単一の回答に対する費用ではなく、一連のアクション全体に基づいた費用になります。結果として、人間側も何度もやり取りをして手間取る回数が減ります。

Codex はデフォルトで medium ですが、後で high に切り替えました。

Codex を使っている期間、ずっと気になっている問題があります。デフォルトの思考レベルが medium なのですが、ネットで話題になっている GPT-5.4 のような話を聞くと、皆とてもすごい口ぶりをします。実際に自分で試してみると、mediumhighxhigh は一体どれくらい違うのか、公式からも特に分かりやすい表が出ていません。

私なりの結論はかなり明確になりました。普段のコーディングでは、私は迷わず high を使う方がいいと思っています。medium が使えないわけではありません。ちょっとした作業や、細かい修正、方向性を試す程度なら問題ありませんが、複数のファイルを変更したり、要求に曖昧さがあったりして、コードを見ながら判断を求められるような状況だと、medium では計算能力の配分を間違えやすい気がします。逆に xhigh はあまり頻繁には使いません。行き詰まった大きなタスクのために取っておくのが良いと思います。

Skill は新しいプロンプトではなく、エージェントに職種マニュアルを提供するものです。

この数日、AIプログラミングについて見てきましたが、さっきまでみんながMCPの話をしていて、次の瞬間にはまたSkillの話をしています。この言葉を初めて目にする人は、本能的にこれをまた新しいプロトコルか、あるいは高度なプロンプトだと捉えがちです。

私の判断は非常にシンプルで、SkillMCPの座を奪いに来たものではなく、むしろエージェントに職種マニュアルのようなものを提供している感じです。MCPが解決するのは「エージェントが外部世界と接続できるか」という点であり、Skillが解決するのは「接続した後、どのような手順で確実にタスクを遂行するか」という点です。これらは代替関係ではなく、むしろ前後関係に近いです。

端的に言えば、MCPはエージェントに手足を与え、Skillはエージェントが勝手に動かないようにするためのものです。

低価格API中継地点の終着点:3月の大規模言語モデル体験と不可能性の三角形

3月を通して、私は様々な大規模言語モデル(LLM)APIのトランジットポイント間を行き来して試していました。

安さについては、確かに安いものでした。月にあまりお金をかけずに、ChatGPT、Claude、Geminiといった海外のモデルをすべて触ることができ、表面上は非常にコストパフォーマンスの高い解決策を見つけたように思えました。しかし、実際に使ってみるうちに、この道筋が最初から「品質、安定性、費用対効果」という不可能な三角形から逃れられないと感じるようになりました。これら三つが同時に成立するのは難しいのです。

先週末には、この件はほぼ白日の下に晒されました。2026年3月28日から2026年3月29日までの二日間で、ChatGPT関連のチャネルの風控(リスク管理)が明らかに厳しくなり、Claudeも同様でした。以前はなんとか使えていた低価格なトランジットサービスも突然不安定になったり、完全に機能しなくなったりしました。私にとっては、これは低価格APIトランジットモデルの段階的な終焉を告げるものとなりました。