Anthropic新款中階模型以極低成本提供接近旗艦級的代理性能,在公司重磅IPO前夕加劇AI價格戰。
Anthropic新款中階模型以極低成本提供接近旗艦級的代理性能,在公司重磅IPO前夕加劇AI價格戰。

Anthropic於週二推出Claude Sonnet 5,這款中階模型在關鍵基準測試上媲美甚至逼近其旗艦款Opus 4.8,但每Token成本卻低了六成,這表明代理能力已成為整個基礎模型產業的新基準。
Anthropic在部落格文章中表示:「它可以制定計劃、使用瀏覽器和終端機等工具,並以自主運行的水準,達到幾個月前還需要更大、更昂貴的模型才能實現的程度。」
Sonnet 5在代理編碼測試SWE-bench Pro上得分63.2%,高於Sonnet 4.6的58.1%,並逼近Opus 4.8的69.2%。在知識工作基準測試GDPval-AA v2上,它甚至超越了旗艦款,得分1,618,而Opus 4.8為1,615。API的 introductory 定價為每百萬輸入Token 2美元、每百萬輸出Token 10美元,優惠至8月31日;之後將調漲至3美元和15美元——但仍遠低於Opus 4.8的5美元和25美元。
此次推出之際,Anthropic正加速邁向IPO,市場將檢視私人市場的AI估值能否經得起公開市場的考驗。該公司在5月的H輪融資後,營收年化運行率達到470億美元。但PitchBook分析師Harrison Rolfes指出,毛利率——這是外部觀察者從未見過的數據——將決定這個故事是否站得住腳。
代理可靠性縮小了試行與量產之間的差距
早期合作夥伴回報,Sonnet 5能夠完成多步驟工作流程,而先前模型在這些流程中往往會卡住。Zapier資深工程師Daniel Shepard表示,該模型完成了一項兩步驟的自動化作業——更新Salesforce客戶層級並發送發布公告——而「舊版模型常常中途卡住」。Cursor聯合創辦人Sualeh Asif則說:「有了Claude Sonnet 5,代理能按計劃執行、遵循我們的規範,並以高效成本交付乾淨的多步驟變更。」
這些見證解決了可靠性差距——這正是許多企業遲遲未能將代理AI從試行計畫推進到量產階段的關鍵原因。一個能完成完整工作流程的模型,改變了自動化的經濟效益,尤其是在Sonnet 5的價格點上。Anthropic引入了成本-性能曲線,顯示開發者現在可以在Sonnet 5和Opus 4.8之間調整投入程度,為特定使用場景找到成本與準確度的最佳平衡點。
此次發布與競爭對手的類似動作如出一轍。OpenAI上週推出預覽版的GPT-5.6 Sol,允許用戶將任務拆分給多個子代理以執行更長的自主任務。Google於5月發布的Gemini 3.5 Flash,則被定位為從對話式聊天機器人轉向代理工具。這表明代理能力現在已成為各價格層級的基本門檻,差異化重點轉向成本效率以及無需人為監督的可靠性。
安全性有所提升,但仍落後於最強大的模型
根據Anthropic的內部評估,Sonnet 5的幻覺和諂媚率低於Sonnet 4.6,更能拒絕惡意請求,且在代理情境下對提示注入攻擊的抵抗力也更強。在該公司的自動化行為審計中,Sonnet 5的總體得分較低——意味著更安全——優於其前代產品。
然而,與Opus 4.8以及Anthropic受嚴格限制的網路安全模型Claude Mythos Preview相比,它在某些方面表現出略高的偏差行為率。在與Mozilla合作開發的Firefox 147漏洞利用評估中,兩款Sonnet模型都無法開發出可行的漏洞——均得分0%——儘管Sonnet 5的部分成功率(13.2%)略高於Sonnet 4.6的8.8%。Opus 4.8得分68.8%,Mythos 5得分88.4%。
基於這些漸進式的改進,Anthropic在推出Sonnet 5時預設啟用了網路安全防護——即時偵測並阻止危險網路安全行為的系統。這些防護機制與Opus 4.7和4.8上的機制類似,但限制程度低於Fable 5和Mythos 5。
有一項技術細節值得關注:Sonnet 5使用了更新的Tokenizer,改變了模型處理文字的方式,類似於Anthropic在Opus 4.7中引入的變化。相同的輸入內容,根據類型不同,所對應的Token數量約為原來的1.0到1.35倍。Anthropic表示,introductory定價已進行校準,以使過渡「大致成本中性」,但運行高流量工作負載的企業客戶,在假設自己的帳單不會改變之前,應針對具體使用場景進行基準測試。
IPO敘事與Sonnet 5對投資者的意義
Anthropic的財務軌跡非同尋常。今年2月,該公司以3800億美元估值融資300億美元,年化營收達140億美元。到5月底,它已完成650億美元的H輪融資,投後估值達9650億美元,營收年化運行率超過470億美元。該公司於6月初向美國證券交易委員會秘密提交了IPO招股說明書。
在此背景下,Sonnet 5肩負雙重使命。對於開發者而言,它提供了以具競爭力的價格獲得真正能力提升的機會。對於Anthropic的IPO故事而言,它展示了公司能夠在一個可能推動廣泛採用的價格層級上,推出具有吸引力的產品——來自數千家企業客戶的高流量、經常性API收入。D.A. Davidson科技研究主管Gil Luria對CNBC表示,雖然Anthropic「在尖端AI模型中似乎處於領先」,但「他們目前的大部分使用量來自試用和實驗,這可能難以持續」。
Sonnet 5的真正考驗,在於能否將實驗性使用轉化為生產級營收。正在嘗試使用昂貴Opus級模型的企業客戶可能會發現,Sonnet 5能以財務團隊可大規模批准的價格點,為生產工作負載提供足夠的品質。如果成功,它將加速從實驗到部署的轉變——這是每家AI公司為證明其估值合理性都需要的轉變。
本文僅供資訊參考,不構成投資建議。