Xiaomi'nin MiMo-V2.5-Pro-UltraSpeed modeli, standart GPU'larda saniyede 1.000 token'ın üzerine çıkarak GPT-5.5'ten 15 kat daha hızlı hale geldi — ve bunu yalnızca yazılımla başardı.
Xiaomi'nin MiMo-V2.5-Pro-UltraSpeed modeli, tek bir 8-GPU standart düğümünde saniyede 1.000 token'ın üzerine çıkarak GPT-5.5'ten 15 kat daha hızlı performans sergiliyor. Herhangi bir özel silikon kullanmayan bu başarı, çıkarım maliyeti ve erişilebilirliğe dair mevcut varsayımları yeniden şekillendiren bir dönüm noktası niteliği taşıyor.
Şirket açıklamasında, "Aşırı model-sistem ortak tasarımı bunu mümkün kılan şeydir" ifadelerine yer verildi. Artificial Analysis verilerine göre GPT-5.5 saniyede 68 token, Claude Opus 4.6 ise saniyede 71 token hızında çalışırken, MiMo-V2.5-Pro kodlama kriterlerinde Opus'u yakalamış durumda.
Bu hız, iki koordineli teknik sayesinde elde ediliyor. FP4 nicelemesi, modelin 1 trilyon parametresinin büyük kısmını oluşturan uzman katmanlarını 4-bit hassasiyete indirgeyerek bellek ayak izini azaltırken kalite kaybını neredeyse sıfıra yakın tutuyor. DFlash spekülatif kod çözme, tek bir ileri geçişte maskelenmiş pozisyonların tam bir bloğunu dolduruyor ve model, kodlama görevlerinde doğrulama turu başına önerilen 8 tokenden 6,3'ünü kabul ediyor. Çıkarım motoru TileRT ise tüm işlem hattını GPU içinde tutarak operatör başına başlatma yükünü ortadan kaldırıyor.
Cerebras, Meta'nın Llama 3.1 405B modelinde — yarısından daha küçük bir model — bir yemek tabağı büyüklüğündeki gofret ölçekli çip kullanarak saniyede 969 token hızına ulaşmıştı. Groq'un özel LPU mimarisi ise saniyede 300 ila 750 token arasında performans gösteriyor. Bunların hiçbiri standart bulut sağlayıcılarından temin edilebilen donanımlarda çalışmıyor. Xiaomi'nin yaklaşımı ise bunu başarıyor ve yaklaşık 10 kat üretim hızı için standart MiMo ücretinin 3 katı fiyatla sunuluyor. API denemesi 9-23 Haziran tarihleri arasında gerçekleştirilecek.
Bu başarı, salt rakamın ötesinde bir anlam taşıyor. Saniyede 1.000 token hızında, sıkı gecikme sınırlamaları olan uygulamalar — dolandırıcılık tespiti, gerçek zamanlı ticaret sinyalleri, paralel akıl yürütme zincirleri, canlı ajan döngüleri — saniyede 68 token ile karşılanamazken artık uygulanabilir hale geliyor. MiMo-V2.5-Pro, çoğu kodlama kriterinde Claude Opus'u çok daha düşük bir maliyetle yakalamış durumda: milyon token başına yaklaşık 0,43 dolar giriş ve 0,87 dolar çıkış ücretiyle, Opus'un sırasıyla 5 dolar ve 25 dolar olan ücretlerine kıyasla.
Teknik yaklaşım, gerektirmedikleriyle dikkat çekiyor. Cerebras, GPU çıkarımını yavaşlatan bant genişliği darboğazını ortadan kaldırmak için 44 GB yerleşik belleğe sahip bir gofret ölçekli çip tasarladı. Groq özel bir Dil İşleme Birimi (LPU) geliştirdi. Xiaomi ise AWS'de de bulunan standart GPU'ları kullanarak sorunu model düzeyinde optimizasyon ve amaca özel bir çıkarım motoruyla çözdü.
FP4 nicelemesi cerrahi bir hassasiyetle çalışıyor: yalnızca uzman katmanları sıkıştırılırken, diğer her şey tam hassasiyette kalıyor. DFlash, standart spekülatif kod çözmede kullanılan sıralı taslak oluşturma adımını atlayarak bir seferde tam bir token bloğu öneriyor. TileRT ise hesaplama işlem hattını sürekli olarak GPU'da tutarak normalde üretimi yavaşlatan yürütme boşluklarını ortadan kaldırıyor.
Xiaomi (01810.HK), AI yeteneklerini büyük ölçüde sektörün spot ışıkları dışında inşa ediyor. Nisan ayında piyasaya sürülen MiMo-V2.5-Pro, öncü modelleri çok daha düşük maliyetle kriterlerde yakalamıştı. UltraSpeed, aynı modeli — küçültülmüş bir versiyonunu değil — hızlandırıyor ve FP4-DFlash kontrol noktası, topluluk testleri için Hugging Face'te açık kaynak olarak yayınlandı.
Bağımsız kıyaslamalar hız iddialarını doğrularsa, Xiaomi, Cerebras ve Groq'un yüz milyonlarca dolarlık özel silikon yatırımıyla başardığını, standart donanımda yazılımla gerçekleştirmiş olacak. Bu da trilyon parametreli modelleri üretimde hangi şirketlerin hangi maliyetle kullanabileceğine dair hesaplamaları değiştiriyor.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.