Anthropic 发布两款 Mythos 级 AI 模型并配安全护栏

Anthropic 于 6 月 9 日发布了两款 Mythos 级 AI 模型，包括首个广泛可用版本。此前该公司开发了安全护栏，用以阻止网络安全和生物学领域的回复——这些领域曾被该公司认为过于危险，不宜公开发布。

"Fable 5 在软件工程、知识工作和视觉方面表现出色，随着任务时间变长和复杂度增加，其相对于其他模型的领先优势也在扩大，"Anthropic 在一篇博客文章中表示。

这两款模型——面向大众的 Claude Fable 5 和面向经批准组织的 Claude Mythos 5——基于相同的基础技术构建。该公司称，Fable 5 在多项基准测试中表现优于 Claude Opus 4.8 超过 10%。定价为每百万输入 Token 10 美元，每百万输出 Token 50 美元，是 Opus 4.8 价格的两倍，但仅为 Mythos Preview 层级价格的一半。

此次发布距离 Anthropic 限制其 Mythos Preview 模型访问权限仅两个月，当时该公司警告称，高度强大的 AI 可能被滥用。此后，该公司已秘密提交首次公开募股申请，此次更广泛的发布表明，其安全机制——经过内部和外部红队测试——能够抵御恶意攻击。

自我改进轨迹

Anthropic 决定扩大访问权限，紧随其 6 月 4 日的一篇博客文章，文中研究员 Marina Favaro 和联合创始人 Jack Clark 警告称，AI 系统正接近"递归自我改进"阶段——即模型能够在极少人类监督下自我改进。该公司披露的内部数据显示，由 Claude 驱动的智能体在 2026 年 4 月完成了一项开放式 AI 安全研究项目，人类研究人员在一周内恢复了约 23% 的性能差距，而 Claude 智能体恢复了 97%。

新发布模型的前身 Claude Mythos Preview，在优化任务上实现了比基线代码快 52 倍的速度提升，而一名熟练的人类研究人员需要四到八小时才能实现 4 倍的改进。该公司表示，Claude 目前编写了 Anthropic 约 80% 的新生产代码，复杂工程问题的成功率在 2026 年 5 月升至 76%。

Claude 能够可靠处理的任务时长大约每四个月翻倍，从 2024 年初的分钟级任务发展到如今的 12 小时级任务。Anthropic 预计到 2027 年将实现周级自主任务。

安全护栏 vs. 攻击者

Anthropic 表示，Fable 5 经过了广泛的内部和外部红队测试，旨在发现常见的 AI 漏洞，包括越狱尝试。该公司称，测试并未发现任何已知的"通用"越狱技术能够持续绕过该模型的安全护栏。测试中，95% 的 Fable 会话完全依靠 Fable 回复运行，无需回退到 Opus 4.8。

不过，该公司承认，网络安全研究人员历史上曾找到绕过早期 AI 模型安全机制的方法。"Mythos 级能力带来的提升对许多攻击者具有价值——例如，那些可能通过网络攻击获取经济利益的攻击者——因此我们预计他们会试图绕过我们的安全措施，"Anthropic 表示。

Claude Mythos 5 面向已通过 Anthropic 的 Project Glasswing 计划获批的组织，提供相同的基础模型，但在某些领域放宽了安全限制。该公司表示，计划通过更系统的可信访问计划逐步扩大访问权限。

竞争格局与投资者影响

此次发布使 Anthropic 能够在企业 AI 市场上与 OpenAI 和谷歌更直接地竞争，在这个市场上，推理定价和安全保障是关键差异化因素。Fable 5 每百万输出 Token 50 美元的定价使其高于许多公开可用模型，反映了该公司押注企业愿意为具有更强安全护栏的模型支付更高价格的策略。

Anthropic 的保密 IPO 申请（近期有报道）增加了展示清晰营收增长路径的压力。根据《达拉斯快报》此前的一篇报道，由于无限制使用，某未具名企业客户在单月内因 Claude 产生的费用约为 5 亿美元，这既凸显了需求，也显示了强大 AI 系统带来的成本风险。

宾夕法尼亚大学沃顿商学院教授 Ethan Mollick 表示，虽然一些批评者认为 Anthropic 的安全宣传只是公关手段，但公司内部许多人都是"真正的信徒"。《华尔街日报》报道称，他关于 AI 的新书《共存》将于今年秋季出版。

本文仅供参考，不构成投资建议。