Anthropic推出Claude Sonnet 5，價格較Opus 4.8低六成

Anthropic於週二推出Claude Sonnet 5，這款中階模型在關鍵基準測試上媲美甚至逼近其旗艦款Opus 4.8，但每Token成本卻低了六成，這表明代理能力已成為整個基礎模型產業的新基準。

Anthropic在部落格文章中表示：「它可以制定計劃、使用瀏覽器和終端機等工具，並以自主運行的水準，達到幾個月前還需要更大、更昂貴的模型才能實現的程度。」

Sonnet 5在代理編碼測試SWE-bench Pro上得分63.2%，高於Sonnet 4.6的58.1%，並逼近Opus 4.8的69.2%。在知識工作基準測試GDPval-AA v2上，它甚至超越了旗艦款，得分1,618，而Opus 4.8為1,615。API的 introductory 定價為每百萬輸入Token 2美元、每百萬輸出Token 10美元，優惠至8月31日；之後將調漲至3美元和15美元——但仍遠低於Opus 4.8的5美元和25美元。

此次推出之際，Anthropic正加速邁向IPO，市場將檢視私人市場的AI估值能否經得起公開市場的考驗。該公司在5月的H輪融資後，營收年化運行率達到470億美元。但PitchBook分析師Harrison Rolfes指出，毛利率——這是外部觀察者從未見過的數據——將決定這個故事是否站得住腳。

代理可靠性縮小了試行與量產之間的差距

早期合作夥伴回報，Sonnet 5能夠完成多步驟工作流程，而先前模型在這些流程中往往會卡住。Zapier資深工程師Daniel Shepard表示，該模型完成了一項兩步驟的自動化作業——更新Salesforce客戶層級並發送發布公告——而「舊版模型常常中途卡住」。Cursor聯合創辦人Sualeh Asif則說：「有了Claude Sonnet 5，代理能按計劃執行、遵循我們的規範，並以高效成本交付乾淨的多步驟變更。」

這些見證解決了可靠性差距——這正是許多企業遲遲未能將代理AI從試行計畫推進到量產階段的關鍵原因。一個能完成完整工作流程的模型，改變了自動化的經濟效益，尤其是在Sonnet 5的價格點上。Anthropic引入了成本-性能曲線，顯示開發者現在可以在Sonnet 5和Opus 4.8之間調整投入程度，為特定使用場景找到成本與準確度的最佳平衡點。

此次發布與競爭對手的類似動作如出一轍。OpenAI上週推出預覽版的GPT-5.6 Sol，允許用戶將任務拆分給多個子代理以執行更長的自主任務。Google於5月發布的Gemini 3.5 Flash，則被定位為從對話式聊天機器人轉向代理工具。這表明代理能力現在已成為各價格層級的基本門檻，差異化重點轉向成本效率以及無需人為監督的可靠性。

安全性有所提升，但仍落後於最強大的模型

根據Anthropic的內部評估，Sonnet 5的幻覺和諂媚率低於Sonnet 4.6，更能拒絕惡意請求，且在代理情境下對提示注入攻擊的抵抗力也更強。在該公司的自動化行為審計中，Sonnet 5的總體得分較低——意味著更安全——優於其前代產品。

然而，與Opus 4.8以及Anthropic受嚴格限制的網路安全模型Claude Mythos Preview相比，它在某些方面表現出略高的偏差行為率。在與Mozilla合作開發的Firefox 147漏洞利用評估中，兩款Sonnet模型都無法開發出可行的漏洞——均得分0%——儘管Sonnet 5的部分成功率（13.2%）略高於Sonnet 4.6的8.8%。Opus 4.8得分68.8%，Mythos 5得分88.4%。

基於這些漸進式的改進，Anthropic在推出Sonnet 5時預設啟用了網路安全防護——即時偵測並阻止危險網路安全行為的系統。這些防護機制與Opus 4.7和4.8上的機制類似，但限制程度低於Fable 5和Mythos 5。

有一項技術細節值得關注：Sonnet 5使用了更新的Tokenizer，改變了模型處理文字的方式，類似於Anthropic在Opus 4.7中引入的變化。相同的輸入內容，根據類型不同，所對應的Token數量約為原來的1.0到1.35倍。Anthropic表示，introductory定價已進行校準，以使過渡「大致成本中性」，但運行高流量工作負載的企業客戶，在假設自己的帳單不會改變之前，應針對具體使用場景進行基準測試。

IPO敘事與Sonnet 5對投資者的意義

Anthropic的財務軌跡非同尋常。今年2月，該公司以3800億美元估值融資300億美元，年化營收達140億美元。到5月底，它已完成650億美元的H輪融資，投後估值達9650億美元，營收年化運行率超過470億美元。該公司於6月初向美國證券交易委員會秘密提交了IPO招股說明書。

在此背景下，Sonnet 5肩負雙重使命。對於開發者而言，它提供了以具競爭力的價格獲得真正能力提升的機會。對於Anthropic的IPO故事而言，它展示了公司能夠在一個可能推動廣泛採用的價格層級上，推出具有吸引力的產品——來自數千家企業客戶的高流量、經常性API收入。D.A. Davidson科技研究主管Gil Luria對CNBC表示，雖然Anthropic「在尖端AI模型中似乎處於領先」，但「他們目前的大部分使用量來自試用和實驗，這可能難以持續」。

Sonnet 5的真正考驗，在於能否將實驗性使用轉化為生產級營收。正在嘗試使用昂貴Opus級模型的企業客戶可能會發現，Sonnet 5能以財務團隊可大規模批准的價格點，為生產工作負載提供足夠的品質。如果成功，它將加速從實驗到部署的轉變——這是每家AI公司為證明其估值合理性都需要的轉變。

本文僅供資訊參考，不構成投資建議。