Anthropic以比Opus 4.8低60%的价格发布Claude Sonnet 5

Anthropic于周二发布Claude Sonnet 5，这是一款在关键基准测试中媲美甚至接近其旗舰模型Opus 4.8的中端模型，但每Token成本低60%。智能体能力正成为整个基础模型行业的新基准。

"它可以制定计划、使用浏览器和终端等工具，并以数月前还需要更大、更昂贵模型才能实现的水平自主运行，"Anthropic在一篇博文中表示。

Sonnet 5在智能体编码基准SWE-bench Pro上得分为63.2%，高于Sonnet 4.6的58.1%，且逼近Opus 4.8的69.2%。在知识工作基准GDPval-AA v2上，它甚至超越了旗舰模型，得分1,618，而Opus 4.8为1,615。入门级API定价为每百万输入Token 2美元、每百万输出Token 10美元，该价格将持续至8月31日，之后将上调至3美元和15美元——仍远低于Opus 4.8的5美元和25美元。

此次发布正值Anthropic加速推进IPO之际，该IPO将检验私人市场的AI估值能否经得起公开市场 scrutiny。该公司在5月完成H轮融资后报告收入运行率达470亿美元，但PitchBook分析师Harrison Rolfes表示，毛利率——外部观察者均未见过这一数据——将决定这一叙事能否成立。

智能体可靠性缩小试点与投产之间的差距

早期接入合作伙伴报告称，Sonnet 5能够完成此前模型会卡住的多步骤工作流。Zapier高级工程师Daniel Shepard表示，该模型完成了一项两步骤的自动化工作——更新Salesforce账户层级并发送产品发布公告——而"过去用更早版本时常在半途卡住"。Cursor联合创始人Sualeh Asif表示，"使用Claude Sonnet 5，智能体能够按计划执行、遵循我们的规范、完成干净的多步骤变更，而且成本高效。"

这些用户反馈解决了长期以来让许多企业难以将智能体AI从试点项目推进到生产环境的可靠性差距。一个能够完成完整工作流的模型改变了自动化的经济学，尤其是在Sonnet 5的价格点上。Anthropic推出的成本-性能曲线显示，开发者现在可以在Sonnet 5和Opus 4.8之间调整投入力度，为特定用例找到成本和准确性的最佳平衡点。

此次发布与竞争对手的类似动作相呼应。OpenAI上周预览发布的GPT-5.6 Sol允许用户将工作分配给子智能体以完成更长的自主任务。谷歌5月发布的Gemini 3.5 Flash则被定位为从对话式聊天机器人向智能体工具的转变。这一模式确认了智能体能力现已在各个价格层级成为入场门槛，差异化正转向成本效益和无需人工监督的可靠性。

安全性有所提升，但仍落后于最强大的模型

根据Anthropic的内部评估，Sonnet 5的幻觉和谄媚率低于Sonnet 4.6，拒绝恶意请求的能力更强，并且在智能体场景下对提示注入攻击的抵抗力更高。在该公司的自动化行为审计中，Sonnet 5的总体得分更低——意味着更安全——优于其前代产品。

然而，与Opus 4.8和Anthropic严格受限的网络安全模型Claude Mythos Preview相比，它在某些方面显示出略高的错误对齐行为率。在与Mozilla合作开发的Firefox 147漏洞利用评估中，两款Sonnet模型均无法开发出可用的漏洞利用程序——得分均为0%——不过Sonnet 5的部分成功率为13.2%，略高于Sonnet 4.6的8.8%。Opus 4.8得分为68.8%，Mythos 5得分为88.4%。

基于这些渐进式改进，Anthropic在Sonnet 5上默认启用了网络安全保护——实时检测和阻止危险网络安全使用的系统。这些保护与Opus 4.7和4.8上的保护措施类似，但比应用于Fable 5和Mythos 5的保护宽松。

一个技术细节值得关注：Sonnet 5使用了更新的分词器，改变了模型处理文本的方式，类似于Anthropic在Opus 4.7中引入的变化。同一输入根据内容类型可能映射为约1.0到1.35倍的Token数量。Anthropic表示入门级定价已做了校准，使这一过渡"大致成本中性"，但运行高负载工作流的企业客户应在假设账单不变之前，针对自身特定用例进行基准测试。

IPO叙事及Sonnet 5对投资者的意义

Anthropic的财务轨迹堪称非凡。2月，该公司以3800亿美元估值融资300亿美元，年化营收达140亿美元。到5月底，它已完成650亿美元的H轮融资，投后估值达9650亿美元，收入运行率超过470亿美元。该公司于6月初向美国证券交易委员会秘密提交了IPO招股说明书。

在此背景下，Sonnet 5具有双重意义。对开发者而言，它提供了真正的性能提升和具有竞争力的价格。对Anthropic的IPO叙事而言，它证明了该公司能够在一个可推动广泛采用的价格层级上推出引人注目的产品——来自数千家企业客户的高流量、经常性API收入。D.A. Davidson科技研究主管Gil Luria对CNBC表示，尽管Anthropic"似乎在AI前沿模型领域领先"，但"他们目前的大部分用途仍是试用和实验，这可能难以持续。"

Sonnet 5的真正考验在于它能否将实验性使用转化为生产级收入。正在试用昂贵的Opus级模型的企业客户可能发现，Sonnet 5能够以财务团队可以大规模批准的价格提供满足生产工作负载需求的足够质量。如果成功，它可能加速从实验到部署的转变——这是每家人工智能公司证明其估值合理性所必需的。

本文仅供信息参考，不构成投资建议。