最强模型先锁起来，AI 公司开始卖门禁

这不是藏着不卖，是先给防守方发装备

很多新闻喜欢把这类事情写成“模型太危险所以不公开”。这么说不算全错，但还不够准确。Anthropic 自己写得更明白：Claude Mythos Preview 是一个通用前沿模型，只是它在网络安全任务上突然猛得有点离谱，所以公司选择先拉起 Project Glasswing，让一批关键基础设施参与者和开源维护者先把它用在防守上。

这里最关键的不是“限制”，而是“顺序”。

Anthropic 在公开材料里给了几个非常硬的事实。Mythos Preview 已经在所有主流操作系统和主流浏览器里找到过零日漏洞；它能把多段漏洞链拼成完整利用；甚至 Anthropic 内部没有正式安全背景的工程师，把任务挂一晚上，第二天都能看到可运行的 exploit。说实话，看到这里我心里第一反应不是“太强了”，而是“以后很多旧软件的平静日子大概结束了”。

所以它没有直接全面开放，而是先把模型能力投到防守端。首批合作方不只是安全公司，也有云厂商、芯片公司、银行和 Linux Foundation 这种基础设施玩家。这个动作很说明问题：AI 公司已经默认下一阶段的安全问题，不再是某个团队自己 patch 自己的代码，而是谁能先把全行业共同依赖的那一层东西补起来。

模型开始配门禁、审计和价格表

更有意思的地方在后面。

Anthropic 不是简单地“内部测试一下”，而是把这件事做成了一个带预算、带合作名单、带后续价格的研究预览。官方说法是：先给这批参与者最多 1 亿美元额度的使用 credits，之后继续向参与者开放，价格是每百万输入/输出 token 分别 25 美元和 125 美元，还能经由 Claude API、Amazon Bedrock、Google Vertex AI、Microsoft Foundry 去接。

这就不是实验室里关门研究了，这已经很像正式产品，只是产品的第一层不是自助开通，而是门禁系统。

我觉得这里有个挺明显的信号。过去大家理解模型发布，通常就两档：公开可用，或者暂不发布。现在开始出现第三档，也是更现实的一档：能力先出来，但访问权限按身份、场景、可见性和责任去切。2026 年 2 月 24 日 Anthropic 更新 Responsible Scaling Policy 3.0，把风险报告和外部审查写得更实；到 2026 年 4 月 7 日 Mythos 这次受限发布，基本算是把这套治理框架真正落到了产品节奏里。

这还不是 Anthropic 一家在这么干。OpenAI 在 2026 年 2 月 5 日推出 Trusted Access for Cyber，到 2026 年 4 月 14 日又把它往前推了一步，开始给经过更强认证的防守方提供 GPT-5.4-Cyber 这一类更宽松、更偏网络安全用途的模型访问层级。它的表述也很直白：网络安全能力是双用途的，风险不只取决于模型本身，也取决于用户是谁、验证信号是什么、给到哪一级权限。

怎么说呢，折腾了一圈之后，我越来越觉得接下来真正值钱的不是“谁家模型更敢写 exploit”，而是谁先把身份验证、日志留痕、用途分层、平台接入、外部合作这些配套基础设施做成默认配置。没有这层东西，能力越强，发布越别扭。

这对普通开发者意味着什么

如果你不是做安全的，这条新闻看起来像是大厂的高端局，跟自己关系不大。不过我觉得关系其实不小。

第一，大家以后看到“新模型没全量开放”，别急着把它理解成厂商故弄玄虚。很多时候更真实的情况是，模型已经能干活了，但公司还没有把风险释放顺序排明白。能不能先给一小撮可信用户、能不能留痕、能不能限制无可见性的调用，这些问题现在已经直接决定一个模型能不能上线。

第二，软件开发的默认假设可能要变了。以前很多团队会觉得，严重漏洞需要很强的人工经验、长时间审计、运气也得好一点。现在这个门槛正在被 agentic coding 和更强的推理能力往下砸。对防守方是好事，对还抱着“先上线再说，安全后面补”的团队就不是什么好消息了。

第三，模型能力的商业化路径会越来越像云权限体系，而不是单纯的 SaaS 订阅。普通用户买的是聊天和写代码，企业买的可能是更细的权限、审计、部署位置、数据可见性和更少误伤的拒答边界。模型本身当然重要，但以后真正把价差拉开的，未必只是模型分数。

所以这篇我没有展开 Mythos 的 benchmark，也没去讲 OpenBSD、FFmpeg、Linux kernel 那些漏洞细节。那些东西当然刺激，但它们都只是表面。更值得记住的是，从 2026 年 4 月开始，前沿模型发布这件事，已经不再只是“能不能做出来”，而是在比“能不能管着放出来”。

说实话，这个变化有点意难平。因为它意味着以后最稀缺的东西，不只是聪明模型，而是可信入口。你要是把这件事想明白了，再看最近一堆 AI 公司在做的身份验证、分层访问、行业合作，很多动作就不再像官样文章了，它们其实是在给下一轮更强模型铺路。

参考资料

Anthropic, “Project Glasswing,” 2026-04-07: https://www.anthropic.com/glasswing
Anthropic Frontier Red Team, “Assessing Claude Mythos Preview’s cybersecurity capabilities,” 2026-04-07: https://red.anthropic.com/2026/mythos-preview/
Anthropic, “Anthropic’s Responsible Scaling Policy: Version 3.0,” 2026-02-24: https://www.anthropic.com/news/responsible-scaling-policy-v3
OpenAI, “Introducing Trusted Access for Cyber,” 2026-02-05: https://openai.com/index/trusted-access-for-cyber/
OpenAI, “Trusted access for the next era of cyber defense,” 2026-04-14: https://openai.com/index/scaling-trusted-access-for-cyber-defense/

写作附记

原始提示词

$blog-writer 没想好写什么，你搜索下AI圈子的热门新闻，随便写写

写作思路摘要

这篇选了 2026 年 4 月 7 日 Anthropic 发布 Project Glasswing 这条线，因为它既是热点，也足够能落到一个明确判断。
正文主线不是复述 Mythos 有多强，而是强调 AI 公司开始把访问控制、审计和信任分层当成产品的一部分来卖。
中段用 Anthropic 的受限发布和 OpenAI 的 Trusted Access for Cyber 对照，说明这不是单家公司动作，而是行业节奏在变。
这篇刻意没展开具体漏洞利用细节和一堆 benchmark，对应地把篇幅压在发布顺序、商业化方式和风险边界上。
结尾回到普通开发者和企业采购视角，收束到“以后更稀缺的是可信入口，而不只是更强模型”这个判断。