Anthropic、Opus 4.8比60%低コストの「Claude Sonnet 5」を発表

Anthropicは24日、ミッドティアモデル「Claude Sonnet 5」をリリースした。主要ベンチマークにおいてフラッグシップモデル「Opus 4.8」に匹敵もしくは接近する性能を発揮しながら、トークン単価は60%低い水準に抑えられている。エージェント機能が基盤モデル業界全体で新たな標準となりつつある中での投入となる。

Anthropicはブログ投稿で、「計画立案、ブラウザや端末などのツール活用、自律的な実行を、わずか数カ月前まではより大型で高価なモデルを必要としていたレベルで実現する」と説明している。

Sonnet 5は、エージェント型コーディングのベンチマーク「SWE-bench Pro」で63.2%を記録。前世代のSonnet 4.6の58.1%から向上し、Opus 4.8の69.2%に迫る。知識作業ベンチマーク「GDPval-AA v2」ではフラッグシップを上回り、Sonnet 5が1,618点に対しOpus 4.8は1,615点だった。導入価格は8月31日まで、入力100万トークンあたり2ドル、出力100万トークンあたり10ドル。その後はそれぞれ3ドル、15ドルに引き上げられるが、Opus 4.8の5ドル、25ドルを依然として大幅に下回る。

今回のローンチは、Anthropicが大型IPOに向けて突き進むタイミングで実施された。同社の公開市場での評価が、非公開市場でのAIバリュエーションに耐えうるかを試す試金石となる。PitchBookのアナリスト、ハリソン・ロルフェス氏によると、同社は5月のシリーズHラウンド後に470億ドルの売上高実行率を報告したが、外部の誰も確認していない粗利益率がこのストーリーの妥当性を左右するという。

エージェントの信頼性、パイロットから本番運用へのギャップを埋める

アーリーアクセスパートナーは、Sonnet 5が従来モデルでは停止していた複数工程のワークフローを完了させたと報告している。Zapierのシニアエンジニア、ダニエル・シェパード氏は、Salesforceのアカウント層の更新とローンチ告知の送信という2段階の自動化ジョブについて、従来版では「途中で止まることが多かった」と述べた。Cursorの共同創業者、スアレー・アシフ氏は、「Claude Sonnet 5では、エージェントが計画を遵守し、当社のコンベンションに従い、効率的なコストでクリーンな複数工程の変更を実行する」と評価している。

これらの事例は、多くの企業がエージェンティックAIをパイロットプログラムから本番運用に移行させる妨げとなっていた信頼性のギャップに取り組むものだ。全ワークフローを完了するモデルは、特にSonnet 5の価格帯において、自動化の経済性を一変させる。Anthropicはコストとパフォーマンスの曲線を導入し、開発者がSonnet 5とOpus 4.8の間で努力レベルを調整し、特定のユースケースに最適なコストと精度のバランスを見つけられるようにした。

今回のリリースは競合各社の同様の動きと呼応する。先週プレビュー版が公開されたOpenAIの「GPT-5.6 Sol」は、ユーザーがより長い自律タスクをサブエージェントに分割できる。5月にリリースされたGoogleの「Gemini 3.5 Flash」は、会話型チャットボットからエージェント型ツールへの転換を謳っている。これらの動きは、エージェント機能が今やあらゆる価格帯で標準装備となり、差別化要因が人間の監視を必要としないコスト効率と信頼性に移行していることを裏付けている。

安全性は向上も、最上位モデルには及ばず

Anthropicの内部評価によると、Sonnet 5はSonnet 4.6と比較して幻覚と迎合の発生率が低く、悪意のあるリクエストの拒否性能が向上し、エージェントコンテキストでのプロンプトインジェクション攻撃に対する耐性が強化された。同社の自動行動監査では、Sonnet 5は前世代より全体的に低いスコア（安全性が高いことを意味する）を記録した。

しかし、Opus 4.8や、厳格に制限されたサイバーセキュリティモデル「Claude Mythos Preview」と比較すると、ミスアライメント行動の発生率がやや高かった。Mozillaと協力して作成されたFirefox 147エクスプロイト開発評価では、どちらのSonnetモデルも動作可能なエクスプロイトを開発できず、両者とも0%のスコアだった。ただし、Sonnet 5は部分的な成功率が13.2%と、Sonnet 4.6の8.8%をやや上回った。Opus 4.8は68.8%、Mythos 5は88.4%を記録している。

これらの段階的な改善を踏まえ、AnthropicはSonnet 5にデフォルトでサイバーセキュリティ対策を有効化した。これは危険なサイバーセキュリティ利用を検知・ブロックするリアルタイムシステムである。この対策はOpus 4.7および4.8と同様だが、Fable 5やMythos 5に適用されているものよりは制限が緩い。

技術的な注目点として、Sonnet 5は更新されたトークナイザーを採用しており、AnthropicがOpus 4.7で導入した変更と同様に、モデルがテキストを処理する方法が変わっている。同じ入力でも、コンテンツタイプに応じて約1.0～1.35倍のトークン数にマッピングされる可能性がある。Anthropicは導入価格を「おおむねコスト中立」となるよう調整したと説明しているが、大量のワークロードを運用するエンタープライズ顧客は、請求額が変わらないと想定する前に、自社の具体的なユースケースをベンチマークする必要がある。

IPOのストーリーとSonnet 5が投資家に意味するもの

Anthropicの財務軌道は極めて異例である。2月には、140億ドルの年間売上高を背景に、3,800億ドルの評価額で300億ドルを調達。5月下旬までには、470億ドル超の売上高実行率を背景に、シリーズHラウンドで650億ドルを調達し、評価額は9,650億ドル（ポストマネー）に達した。同社は6月初旬にSECにIPO目論見書を極秘提出している。

Sonnet 5は、この文脈において二重の役割を果たす。開発者にとっては、競争力のある価格で真の性能向上を提供する。AnthropicのIPOストーリーにとっては、数千のエンタープライズ顧客からの大量の反復型API収入を生み出し得る価格帯で、魅力的な製品を提供できることを示すものだ。D.A. Davidsonのテクノロジー調査責任者、ギル・ルリア氏はCNBCに対し、Anthropicが「フロンティアAIモデルでリードしているように見える」一方で、「現在の利用の多くはトライアルや実験的なものであり、持続可能ではないかもしれない」と述べた。

Sonnet 5の真の試金石は、実験的な利用を本番グレードの収益に転換できるかどうかだ。高価なOpusクラスのモデルを実験しているエンタープライズ顧客は、財務チームが大規模に承認できる価格帯で、Sonnet 5が本番ワークロードに十分な品質を提供することに気づくかもしれない。それが実現すれば、すべてのAI企業がバリュエーションを正当化するために必要とする、実験からデプロイへの移行を加速させる可能性がある。

本記事は情報提供のみを目的としており、投資助言を構成するものではない。