Anthropic, Claude Sonnet 5'i Opus 4.8'den %60 daha düşük maliyetle piyasaya sürüyor

Anthropic, Salı günü Claude Sonnet 5'i piyasaya sürdü. Bu orta seviye model, temel kıyaslamalarda amiral gemisi Opus 4.8 ile eşleşirken veya ona yaklaşırken token başına %60 daha düşük maliyet sunuyor. Ajanik yetenek, temel model endüstrisinde yeni taban çizgisi haline geliyor.

"Planlar yapabiliyor, tarayıcılar ve terminaller gibi araçları kullanabiliyor ve sadece birkaç ay önce daha büyük ve daha pahalı modeller gerektiren bir seviyede otonom olarak çalışabiliyor," dedi Anthropic bir blog yazısında.

Sonnet 5, ajanik kodlama için SWE-bench Pro'da %63,2 puan alırken, bu oran Sonnet 4.6'nın %58,1'inden yüksek ve Opus 4.8'in %69,2'sine oldukça yakın. Bilgi çalışması kıyaslaması GDPval-AA v2'de ise amiral gemisini geride bırakarak 1.618 puana karşılık Opus 4.8'in 1.615 puanını aştı. Tanıtım amaçlı API fiyatlandırması, 31 Ağustos'a kadar milyon giriş token başına 2 dolar ve milyon çıkış token başına 10 dolar olarak belirlendi; bu tarihten sonra fiyatlar 3 ve 15 dolara yükselecek — yine de Opus 4.8'in 5 ve 25 dolarının oldukça altında.

Bu lansman, Anthropic'in özel piyasa AI değerlemelerinin kamu incelemesine dayanıp dayanamayacağını test edecek bir halka arza doğru ilerlediği bir dönemde geliyor. Şirket, Mayıs ayındaki Seri H turunun ardından 47 milyar dolarlık bir gelir akış hızı bildirdi, ancak PitchBook analisti Harrison Rolfes'e göre, hiçbir dış gözlemcinin görmediği brüt marjlar, anlatının geçerliliğini belirleyecek.

Ajanik güvenilirlik, pilot ile üretim arasındaki boşluğu kapatıyor

Erken erişim ortakları, Sonnet 5'in önceki modellerin takılıp kaldığı çok adımlı iş akışlarını tamamladığını bildirdi. Zapier'de kıdemli mühendis olan Daniel Shepard, modelin, önceki sürümlerle "yarısında takılıp kalan" iki aşamalı bir otomasyon işini — Salesforce hesap seviyelerini güncelleme ve bir lansman duyurusu gönderme — tamamladığını söyledi. Cursor'un kurucu ortağı Sualeh Asif ise "Claude Sonnet 5 ile ajanlar planda kalıyor, kurallarımıza uyuyor ve tümüyle verimli bir maliyetle temiz, çok adımlı değişiklikler yayınlıyor" dedi.

Bu referanslar, birçok işletmeyi ajanik AI'yı pilot programlardan üretime taşımaktan alıkoyan güvenilirlik açığını ele alıyor. Tam iş akışını tamamlayan bir model, özellikle Sonnet 5'in fiyat noktasında, otomasyonun ekonomisini değiştiriyor. Anthropic, geliştiricilerin belirli kullanım durumları için en uygun maliyet ve doğruluk dengesini bulmak amacıyla Sonnet 5 ve Opus 4.8 arasında çaba seviyelerini ayarlayabildiği maliyet-performans eğrileri sundu.

Bu lansman, rakiplerin benzer hamlelerini yansıtıyor. Geçen hafta önizleme sürümüyle piyasaya sürülen OpenAI'in GPT-5.6 Sol'u, kullanıcıların daha uzun otonom görevler için işi alt ajanlar arasında bölmesine olanak tanıyor. Mayıs ayında yayınlanan Google Gemini 3.5 Flash, konuşmalı sohbet robotundan ajanik araca geçiş olarak konumlandırıldı. Bu model, ajanik yeteneğin artık her fiyat seviyesinde olmazsa olmaz olduğunu ve farklılaştırıcının maliyet verimliliği ile insan denetimi olmadan güvenilirliğe kaydığını doğruluyor.

Güvenlik iyileşiyor ancak en yetenekli modellerin gerisinde kalıyor

Anthropic'in dahili değerlendirmelerine göre Sonnet 5, Sonnet 4.6'ya kıyasla daha düşük halüsinasyon ve dalkavukluk oranları gösteriyor, kötü niyetli talepleri reddetmede daha başarılı ve ajanik bağlamlarda prompt enjeksiyon saldırılarına karşı daha dirençli. Şirketin otomatik davranış denetiminde Sonnet 5, selefinden genel olarak daha düşük — yani daha güvenli — puan aldı.

Ancak, Opus 4.8 ve Anthropic'in sıkı kısıtlamalı siber güvenlik modeli Claude Mythos Preview ile karşılaştırıldığında biraz daha yüksek oranlarda uyumsuz davranış sergiledi. Mozilla ile oluşturulan bir Firefox 147 istismar geliştirme değerlendirmesinde, hiçbir Sonnet modeli çalışan bir istismar geliştiremedi — her ikisi de %0 puan aldı — ancak Sonnet 5, Sonnet 4.6'nın %8,8'ine kıyasla %13,2 ile biraz daha yüksek bir kısmi başarı oranı gösterdi. Opus 4.8 %68,8 ve Mythos 5 ise %88,4 puan aldı.

Bu kademeli kazanımlar nedeniyle Anthropic, Sonnet 5'i varsayılan olarak etkinleştirilmiş siber güvenlik önlemleriyle — tehlikeli siber güvenlik kullanımını tespit eden ve engelleyen gerçek zamanlı sistemler — piyasaya sürdü. Bu önlemler Opus 4.7 ve 4.8'dekileri yansıtıyor ancak Fable 5 ve Mythos 5'e uygulananlardan daha az kısıtlayıcı.

Bir teknik detay dikkati hak ediyor: Sonnet 5, Anthropic'in Opus 4.7 ile tanıttığı değişikliğe benzer şekilde, modelin metni işleme biçimini değiştiren güncellenmiş bir tokenizer kullanıyor. Aynı girdi, içerik türüne bağlı olarak kabaca 1,0 ila 1,35 kat daha fazla tokena karşılık gelebiliyor. Anthropic, tanıtım fiyatlandırmasının geçişi "kabaca maliyet-nötr" hale getirecek şekilde ayarlandığını söylüyor, ancak yüksek hacimli iş yükleri çalıştıran kurumsal müşteriler, faturalarının değişmeyeceğini varsaymadan önce kendi kullanım durumlarını kıyaslamalı olarak test etmek isteyecek.

Halka arz anlatısı ve Sonnet 5'in yatırımcılar için anlamı

Anthropic'in finansal yörüngesi olağanüstü oldu. Şubat ayında, 14 milyar dolarlık yıllık gelirle 380 milyar dolar değerleme üzerinden 30 milyar dolar topladı. Mayıs sonunda ise 47 milyar doların üzerinde gelir akış hızıyla 965 milyar dolar değerleme sonrası 65 milyar dolarlık bir Seri H turunu kapattı. Şirket, Haziran başında SEC'e gizli olarak halka arz izahnamesini sundu.

Sonnet 5 bu bağlamda ikili bir amaca hizmet ediyor. Geliştiriciler için rekabetçi fiyatlarla gerçek yetenek iyileştirmeleri sunuyor. Anthropic'in halka arz anlatısı için ise şirketin, binlerce kurumsal müşteriden yüksek hacimli, yinelenen API geliri sağlayabilecek geniş çaplı benimsenmeyi teşvik edebilecek bir fiyat seviyesinde ilgi çekici bir ürün sunabileceğini gösteriyor. D.A. Davidson'da teknoloji araştırmaları başkanı Gil Luria, CNBC'ye Anthropic'in "sınır AI modellerinde önde göründüğünü" ancak "mevcut kullanımlarının çoğunun deneme ve test amaçlı olduğunu ve bunun sürdürülebilir olmayabileceğini" söyledi.

Sonnet 5 için asıl test, deneysel kullanımı üretim seviyesinde gelire dönüştürüp dönüştüremeyeceği. Pahalı Opus sınıfı modellerle deney yapan kurumsal müşteriler, Sonnet 5'in finans ekiplerinin ölçekte onaylayabileceği bir fiyat noktasında üretim iş yükleri için yeterli kaliteyi sunduğunu görebilir. İşe yararsa, her AI şirketinin değerlemesini haklı çıkarmak için ihtiyaç duyduğu deneyden dağıtıma geçişi hızlandırabilir.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.