最強モデルを先にロックし、AI企業がゲートキーパーになり始めた

これは売らないように隠しているのではなく、先に防御側に装備を渡しているのです

多くのニュースは、このような事柄を「モデルが危険すぎるから公開しない」と書く傾向があります。これは完全に間違いとは言えませんが、正確ではありません。Anthropic自身がより明確に記述しています：Claude Mythos Preview は汎用的な最先端モデルですが、ネットワークセキュリティのタスクにおいて突然少し過剰な振る舞いを見せたため、同社はまず Project Glasswing を立ち上げ、一連の重要なインフラストラクチャ参加者やオープンソースのメンテナーに防御目的で先に利用してもらうという形をとりました。

ここで最も重要なのは「制限」ではなく、「順序」です。

Anthropic は公開資料でいくつかの非常に確かな事実を提示しています。『Mythos Preview』は、すべての主要なオペレーティングシステムと主要ブラウザでゼロデイ脆弱性が見つかっています。複数の脆弱性の連鎖を組み合わせて完全なエクスプロイトを構築でき、さらには Anthropic の内部に正式なセキュリティバックグラウンドを持たないエンジニアがタスクを夜通し行い、翌日には動作するエクスプロイトを見つけることもできています。正直なところ、ここを見て私が最初に思ったのは「強すぎる」ということではなく、「今後、多くの古いソフトウェアの平穏な日々は終わったのだろう」ということです。

そのため、直接的に全面的オープン化はせず、まずモデルの能力を防御側に投下しています。最初の協力企業はセキュリティ会社だけではなく、クラウドベンダー、チップメーカー、銀行、そしてLinux Foundationのようなインフラプレイヤーも含まれています。この動きが問題をよく示しています。AI企業はすでに次の段階でのセキュリティ問題を想定しており、もはや特定のチームが自分たちのコードをパッチ当てるというレベルではなく、誰が業界全体が共同で依存しているレイヤーのものを先に構築できるか、という点になっています。

モデルはアクセス制御、監査、および価格表の割り当てを開始します

もっと面白いところは後になります。

Anthropic は単に「内部テストする」というのではなく、予算、協力者リスト、およびその後の価格設定を含む研究プレビューとしてこの件を進めています。公式な説明によると、まず参加者グループには最大1億ドルの使用クレジットが提供され、その後、参加者に対して引き続き利用可能となり、価格は入力/出力トークンあたりそれぞれ25ドルと125ドルで、Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry を通じて接続することも可能です。

これはもはや実験室でのクローズドな研究ではなく、すでに本格的な製品に近く、ただ製品の最初のレイヤーがセルフオンボーディングではなく、入退室管理システムになっているだけです。

ここにかなり明確なシグナルがあると思います。これまでモデルのリリースは、一般的に「公開利用可能」か「未公開」の二択でした。しかし今、より現実的な第三の選択肢が現れました。それは、「能力は出すが、アクセス権を身元、シナリオ、可視性、責任に応じて切り分ける」というものです。Anthropic が 2026 年 2 月 24 日に Responsible Scaling Policy 3.0 を更新し、リスクレポートや外部レビューについてより具体的に記述したこと、そして Mythos が 2026 年 4 月 7 日に今回制限付きリリースを行ったことは、このガバナンスフレームワークが実際に製品のペースに乗ってきたことを示しています。

Anthropic がこれほどまでやるわけではないのに。OpenAI は 2026 年 2 月 5 日に Trusted Access for Cyber をリリースし、その後 2026 年 4 月 14 日にはこれをさらに前倒しし、より厳格な認証を経た防御側に、GPT-5.4-Cyber のような、より緩やかでサイバーセキュリティ用途に特化したモデルアクセスレベルを提供し始めました。その説明も非常に明確です。すなわち、サイバーセキュリティ能力はデュアルユースであり、リスクはモデル自体だけでなく、ユーザーが誰であるか、検証シグナルが何であるか、そしてどのレベルの権限が付与されるかに依存するというものです。

なんて言うか、色々試行錯誤を繰り返した結果、次に本当に価値があるのは「どのモデルがエクスプロイトを書きやすいか」ではなく、誰が最初に認証、ログの痕跡、用途の階層化、プラットフォームへの接続、外部連携といった周辺インフラをデフォルト設定として整えるかだと感じています。このレイヤーがないと、能力が高くてもリリースするのが非常に不自然になります。

これは一般の開発者にとって何を意味するか

セキュリティの分野に携わっていない方にとっては、このニュースは大手企業の間で行われている高度な駆け引きのように見え、自分とはあまり関係なさそうに見えるかもしれません。しかし、私個人としては、実際にはそれなりに関係があると感じています。

まず、皆さんが今後「新モデルは全量開放されていない」というのを見ても、すぐにメーカーが何かをごまかしていると理解しないでください。多くの場合、より真実な状況は、モデル自体はすでに機能するのに、会社側がリスクをどの順番で解放するかをまだ明確にできていないということです。少数の信頼できるユーザーに先に提供できるのか、ログを残せるのか、目に見えない呼び出しを制限できるのか、といった問題が、今やそのモデルがリリースできるかどうかを直接的に決定しています。

第二に、ソフトウェア開発のデフォルトの前提が変わるかもしれません。以前は多くのチームが、深刻な脆弱性には高度な人間の経験、長時間の監査、そしてある程度の運が必要だと考えていました。しかし今、そのハードルはエージェンティックコーディングとより強力な推論能力によって引き下げられつつあります。これは防御側にとっては良いことですが、「とりあえずリリースして、セキュリティは後から対応する」と考えているチームにとっては、あまり良い知らせではありません。

モデル能力の商業化パスは、単なるSaaSサブスクリプションというよりも、クラウド権限体系に近づいてくるでしょう。一般ユーザーが購入するのはチャットやコード生成ですが、企業が購入するのは、より細かい権限、監査機能、デプロイ場所、データ可視性、そして誤作動による拒否の境界線が少ないものかもしれません。モデル自体はもちろん重要ですが、今後真に価格差をつけられるのは、必ずしもモデルのスコアだけではないでしょう。

そのため、この記事では Mythos のベンチマークについては深掘りせず、OpenBSD や FFmpeg、Linuxカーネルなどの脆弱性の詳細についても触れませんでした。それらのものは確かに刺激的ですが、それらはすべて表面的なものです。より記憶に留めておくべきなのは、2026年4月以降、最先端モデルのリリースということが、「作れるかどうか」の問題ではなく、「どう管理してリリースするか」という競争になっているということです。

正直なところ、この変化は少し複雑な心境です。なぜなら、今後最も希少になるものは、単に賢いモデルだけでなく、「信頼できる入り口」だからです。もしあなたがこのことを理解できれば、最近のAI企業が取り組んでいる認証、階層アクセス、業界連携などの動きは、もはや形式的な文章ではなく、次のより強力なモデルのための土台作りをしているのだとわかるはずです。

参考資料

Anthropic, “Project Glasswing,” 2026-04-07: https://www.anthropic.com/glasswing
Anthropic Frontier Red Team, “Assessing Claude Mythos Preview’s cybersecurity capabilities,” 2026-04-07: https://red.anthropic.com/2026/mythos-preview/
Anthropic, “Anthropic’s Responsible Scaling Policy: Version 3.0,” 2026-02-24: https://www.anthropic.com/news/responsible-scaling-policy-v3
OpenAI, “Introducing Trusted Access for Cyber,” 2026-02-05: https://openai.com/index/trusted-access-for-cyber/
OpenAI, “Trusted access for the next era of cyber defense,” 2026-04-14: https://openai.com/index/scaling-trusted-access-for-cyber-defense/

作成上の注記

元のプロンプト

$blog-writer 何を書くか決まっていないなら、AIコミュニティのホットなニュースを検索して、適当に書いてみて

ライティングのアイデア概要

本稿件选择了 Anthropic 于 2026 年 4 月 7 日发布的 Project Glasswing 这个切入点，因为它既是热点，也足够能落到一个明确的判断上。
正文的主线不是复述 Mythos 有多强，而是强调 AI 公司开始将访问控制、审计和信任分层作为产品的一部分来销售。
中段用 Anthropic 的受限发布和 OpenAI 的 Trusted Access for Cyber 进行对比，说明这不是单家公司的动作，而是行业节奏在变化。
本文刻意没有展开具体的漏洞利用细节和一堆 benchmark，相应地将篇幅压在了发布顺序、商业化方式和风险边界上。
结尾回到普通开发者和企业采购的视角，收束到“未来更稀缺的是可信入口，而不仅仅是更强的模型”这个判断。