Anthropic 发布 Fable 5，神话级 AI 模型正式面向公众，内设安全护栏

Anthropic 的 Claude Fable 5 将神话级智能带给普通用户，但网络安全查询会自动降级至能力较弱的模型。

Anthropic 发布了 Claude Fable 5，这是一款神话级 AI 模型，能将网络安全和生物研究查询自动降级至其较旧的 Opus 4.8 系统，这标志着该公司首次将其最强大的技术广泛开放。

"我们希望能够以安全的方式为用户提供这种级别的智能，"Anthropic 产品管理、研究与实验室主管 Dianne Penn 在接受《华尔街日报》采访时表示。

Fable 5 的定价为每百万输入代币 10 美元，每百万输出代币 50 美元，不到 Claude Mythos Preview 价格的一半。该模型在软件工程、视觉和知识工作基准测试中均超越了此前所有的 Claude 系统。Stripe 使用 Fable 5 在一天之内完成了对一个包含 5000 万行 Ruby 代码的代码库的全量迁移，而该公司估计，这项任务原本需要超过两个月的人工工程投入。

此次发布表明，Anthropic 相信其安全分类器足够稳健，能够将前沿 AI 商业化，同时不会让用户接触到其最危险的能力。但早期测试表明，这些安全护栏可能比宣传的更为宽泛，这可能会限制该模型对网络安全专业人士的实用性，而后者正是 Anthropic 的关键客户群体。

安全护栏的工作原理

Fable 5 使用 AI 驱动的分类器来检测与网络安全、生物学、化学和模型蒸馏相关的请求。一旦触发，系统会将查询路由至 Claude Opus 4.8 而非 Fable 5。Anthropic 表示，这种回退机制发生在不到 5% 的会话中，这意味着大多数用户在常规使用中仍能与完整的神话级模型进行交互。

该公司称，这些安全护栏有意设计得较为保守，将安全性置于便利性之上。Anthropic 开展了一项外部漏洞悬赏计划，在超过 1000 小时的测试中未能产生任何通用的越狱方法，尽管英国 AISI 在短暂的初始测试窗口内已接近实现一个。

SANS 研究所的首席 AI 官兼研究主管 Rob T. Lee 告诉 CSO，他在初始测试中，涉及事件响应、检测和基本取证工作流程的日常网络安全任务被自动从 Fable 5 路由至 Opus 4.8。如果这些观察结果在更广泛的测试中得到印证，则可能表明 Anthropic 的分类器是在宽泛地识别与网络安全相关的请求，而非区分良性活动和恶意活动。

面向网络防御者的 Mythos 5

对于特定用户群体，Anthropic 还发布了 Claude Mythos 5，其底层模型与 Fable 5 相同，但移除了网络安全护栏。通过 Project Glasswing 计划，包括 Verizon 和微软在内的约 200 家组织将获得该无限制版本的访问权限。Anthropic 计划通过一个与美国政府协商制定的更广泛的受信访问计划，逐步扩大访问范围。

该公司表示，Mythos 5 拥有目前所有模型中最为强大的网络安全能力，包括发现软件漏洞、协助漏洞利用开发以及执行复杂的多阶段网络安全任务。而正是这些能力促使 Anthropic 在早期版本中限制了该技术的访问权限。

对安全领导者的意义

对于首席信息安全官和安全团队而言，这一公告引发了一个问题：组织需要多快才能适应日益强大的 AI 系统。当下的挑战已不再仅仅是获取先进模型的访问权限，而是如何将其整合到安全运营中，并产生可衡量的收益。

Cisco 高级副总裁兼首席安全与信任官 Anthony Grieco 表示，组织应专注于有效部署强大模型，同时保持稳固的安全基础。"前沿 AI 的发展速度正在实时改变安全格局，防御者无法等到尘埃落定再行动，"Grieco 在一份声明中表示。

与此同时，Grieco 警告不要将 AI 视为基础安全实践的替代品。"AI 将提高防御者的能力上限，但安全韧性仍然是决定这些收益能否转化为真正保护的基石，"他说。即使 AI 模型加速了软件工程、分析和安全运营，组织仍需执行补丁管理、多因素认证、网络分段和零信任架构等基础工作。

Anthropic 的股票目前未公开交易，因此对市场无直接影响。但此次发布给竞争对手 OpenAI 和谷歌带来了压力，要求它们在保持相当安全标准的同时，追赶神话级能力。OpenAI 周一宣布了其保密的 S-1 文件提交，而包括 Elon Musk 旗下 xAI 的 SpaceX 计划于本周在纳斯达克开始交易。

本文仅为信息提供，不构成投资建议。