Anthropic, Opus 4.8'i önceki modelden sadece 41 gün sonra piyasaya sürdü

Anthropic, 28 Mayıs'ta Claude Opus 4.8'i piyasaya sürerek yükseltme döngüsünü 41 güne indirdi. Yapay zeka laboratuvarı, OpenAI ve Google ile rekabette hızını korumaya çalışırken aynı zamanda güçlü Mythos modelini kamuya açıklamaya hazırlanıyor.

"Opus 4.8'in bir analizin girdi ve çıktılarındaki sorunları proaktif olarak işaretleme eğilimi, diğer modellerin rutin olarak gözden kaçırdığı ve kullanıcılara bıraktığı bir şey," dedi Bridgewater Associates, Anthropic tarafından alıntılanan bir referansta.

Model, ürettiği kodlardaki kusurları gözden kaçırma olasılığı açısından Opus 4.7'ye kıyasla 4 kat daha az hata yapıyor ve Anthropic'in uyum değerlendirmelerine göre daha düşük uyumsuz davranış oranları gösteriyor. Fiyatlandırma, milyon giriş token başına 5 dolar ve milyon çıkış token başına 25 dolar olarak değişmeden kalıyor. 2,5 kat hızla çalışan yeni bir Hızlı Mod, milyon token başına sırasıyla 10 ve 50 dolara mal oluyor — önceki hızlı mod fiyatlandırmasından 3 kat daha ucuz. Anthropic ayrıca, Opus 4.8'in yüzlerce paralel alt temsilci arasında karmaşık görevleri yönetmesini sağlayan bir araştırma önizlemesi olan Dinamik İş Akışları'nı ve kullanıcıların düşünme çabasını Düşük'ten Maks'a ayarlamasına olanak tanıyan Çaba Kontrolü'nü tanıttı.

Hızlandırılmış sürüm döngüsü — Opus 4.7 yalnızca 41 gün önce piyasaya sürüldü, oysa Anthropic'in Sonnet ve Haiku modelleri için 3 ila 7 aylık bir döngü bulunuyor — OpenAI'in Codex'i ve Google'ın Gemini Flash'ından gelen rekabet baskısını yansıtıyor. Anthropic, Mythos sınıfı modelleri, Project Glasswing kapsamındaki siber güvenlik önlemleri tamamlandıktan sonra "önümüzdeki haftalarda" tüm müşterilere sunmayı beklediğini söyledi. Profesyonel düzeyde siber saldırılar geliştirebilen Mythos, yöneticiler ve dünya liderleri arasında potansiyel etkisi konusunda endişelere yol açtı.

Opus 4.8 lansmanı, bazı kullanıcıların hayal kırıklığına uğradığı Opus 4.7'ye yönelik soğuk bir karşılamanın ardından geliyor. İlk test kullanıcıları, Opus 4.8'in "çalışmasıyla ilgili belirsizlikleri işaretleme olasılığının daha yüksek olduğunu ve desteklenmeyen iddialarda bulunma olasılığının daha düşük olduğunu" bildirdi. Model artık, mevcut test paketini referans alarak, başlangıçtan birleştirmeye kadar yüz binlerce satır kod içeren kod tabanı ölçeğinde geçişler gerçekleştirebiliyor.

Anthropic, kritik yazılımları yapay zeka kaynaklı istismarlardan korumayı amaçlayan Project Glasswing üzerinde diğer şirketlerle işbirliği yaptığını doğruladı. "Avantaj, bu araçlardan en iyi şekilde yararlanabilen tarafa ait olacak," diye uyardı şirket, en gelişmiş modellerinin çift kullanımlı doğasını kabul ederek. Şirket, güvenlik önlemleri geliştirmede "hızlı ilerleme" kaydettiğini ve Mythos sınıfı modelleri önümüzdeki haftalarda tüm müşterilere sunmayı beklediğini Opus 4.8 lansman yazısında belirtti.

Opus 4.8'deki güvenilirlik iyileştirmeleri, kurumsal yapay zeka benimsemesinin önündeki temel bir engeli — büyük dil modellerinin makul ancak yanlış çıktılar üretme eğilimini — ele alıyor. Anthropic, belirsizlikleri işaretleyerek ve desteklenmeyen iddiaları azaltarak, birçok finansal hizmet ve sağlık hizmetleri firmasını yapay zekayı müşteriye dönük rollerde kullanmaktan alıkoyan güven açığını hedefliyor. Bridgewater'ın erken bir test kullanıcısı olarak onayı, kurumsal yatırımcıların bu iyileştirmelerde pratik değer gördüğünü gösteriyor.

Google ve Amazon dahil yatırımcılardan 10 milyar dolardan fazla fon toplayan Anthropic, doğrudan OpenAI'in GPT modelleri ve Google'ın Gemini ailesiyle rekabet ediyor. Yapay zeka altyapı silahlanma yarışı, sektör genelinde büyük sermaye harcamalarına yol açtı; Microsoft, Amazon ve Google, 2026'ya kadar yapay zeka veri merkezlerine toplamda 200 milyar doların üzerinde yatırım taahhüt etti. Anthropic'in fiyatlandırmayı korurken sürümleri hızlandırma yeteneği, rakipleri de aynı şeyi yapmaya zorlayarak sektör genelinde marjları daraltabilir. Şirketin Opus 4.8'i, claude.ai, Claude API ve büyük bulut platformlarında hemen kullanıma sunuldu ve benzer yeteneklere sahip daha düşük maliyetli modellerin de takip etmesi bekleniyor.

Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.