Tether'ın yapay zeka kolu, Google Research'in bir makalesini üretim koduna dönüştürerek büyük dil modellerinin uzun oturumlar sırasında ihtiyaç duyduğu belleği 5 kata kadar azalttı.
Tether'ın yapay zeka kolu, Google Research'in bir makalesini üretim koduna dönüştürerek büyük dil modellerinin uzun oturumlar sırasında ihtiyaç duyduğu belleği 5 kata kadar azalttı.

Tether'ın Yapay Zeka Araştırma Grubu Pazartesi günü, Google Research tarafından geliştirilen bir algoritma olan TurboQuant'ın açık kaynak uygulamasını yayınladı. Bu algoritma, dönüştürücü modellerin bağlamı takip etmek için kullandığı çalışma belleği olan anahtar-değer (KV) önbelleğini, mevcut modelleri yeniden eğitmeye veya ince ayar yapmaya gerek kalmadan 5 kata kadar sıkıştırıyor. Bu sayede, her görevi bulut veri merkezleri üzerinden yönlendirmek yerine, yetenekli yapay zekayı dizüstü bilgisayarlarda, telefonlarda ve uç cihazlarda çalıştırmak mümkün hale geliyor.
Tether CEO'su Paolo Ardoino yaptığı açıklamada, "Uzun bağlamlı yapay zeka yalnızca en büyük veri merkezlerinin içinde çalışabiliyorsa, o zaman yapay zeka en fazla donanıma sahip olan kişi tarafından şekillendirilecektir. TurboQuant, belleği bir duvar olmaktan çıkararak yerel yapay zekanın neler yapabileceğini değiştiriyor." dedi.
KV önbelleği, uzun yapay zeka oturumlarını buluta zorlayan darboğazdır. Yaklaşık 262.000 token (birkaç saatlik sohbet veya birkaç yüz sayfalık metne eşdeğer) seviyesinde, 4 milyar parametreli bir model için KV önbelleği tek başına yaklaşık 8 gigabayt bellek tüketiyor. Bu uzunlukta dört eşzamanlı oturum, model ağırlıkları hesaba katılmadan önce önbelleği 32 GB'ın üzerine çıkarıyor. TurboQuant, bu ayak izini oturum başına yaklaşık 1,6 GB'a veya dört oturum için 6,4 GB'a sıkıştırarak toplamı 16 GB ila 32 GB birleşik belleğe sahip tüketici donanımlarının erişebileceği seviyeye getiriyor.
Bu sürüm, Tether'ın merkezi olmayan yapay zeka için daha geniş platformu olan QVAC SDK 0.12.0'ın bir parçasıdır. Aynı güncellemede metinden videoya üretim ve robot kontrol yetenekleri de eklenmiştir. SDK, tam bir niceleme hattı, yaygın çıkarım çerçeveleri için bağdaştırıcılar, dokümantasyon ve iş yüküne göre ayarlanmış dağıtım profilleri içerir. Geliştiriciler, TurboQuant'ı mevcut modellere sıfırdan başlamadan uygulayabilir; yeniden eğitim veya ince ayar gerekmez.
Bellek neden yapay zeka yığını için önemli?
Bellek kısıtı, yapay zeka iş yüklerinin hiper ölçekli veri merkezlerinde yoğunlaşmasına neden olan yapısal engellerden biri olmuştur. Yalnızca KV önbelleği için 16 GB çalışma belleğine ihtiyaç duyan bir model, bir MacBook Air veya orta segmente bir Android telefonda çalışamaz. Bunu 3,2 GB'a düşürmek, dağıtım hesaplamalarını tamamen değiştirir; yüz sayfalık belgeleri işleyebilen, tüm proje bağlamını koruyabilen ve özel verileri yerel olarak işleyebilen cihaz içi asistanların önünü açar.
Tether'ın uygulaması, şirketin QVAC'ta birleştirdiği PolarQuant ve Quantized Johnson-Lindenstrauss dahil olmak üzere daha önceki birkaç sıkıştırma tekniğine dayanmaktadır. Her biri verimlilik sorununun farklı bir bölümünü hedeflemektedir. TurboQuant, 24 Mart'ta yayınlanan bir Google Research makalesinden uyarlanan en yeni katmandır.
Sürümün açık kaynak olması, QVAC etrafındaki ekosistemi büyütmek ve Tether'ın platformunu merkezi olmayan yapay zeka için varsayılan araç seti olarak konumlandırmak için stratejik bir hamledir. Herhangi bir geliştirici kodu alabilir ve hemen çıkarım hattına entegre edebilir. Bu, Tether'ı llama.cpp ve Ollama gibi yerleşik yerel yapay zeka çerçeveleriyle ve iş modelleri çıkarımı kendi veri merkezleri üzerinden yönlendirmeye bağlı olan bulut sağlayıcılarıyla doğrudan rekabete sokuyor.
Bu yatırımcılar için ne anlama geliyor?
En çok 140 milyar dolarlık USDT stablecoin'inin ihraççısı olarak bilinen Tether, yapay zeka altyapısına agresif bir şekilde yatırım yapıyor. Şirketin tezi, yapay zekanın bir sonraki aşamasının ham hesaplama ölçeğinden ziyade yazılım verimliliği ve taşınabilirliği ile tanımlanacağı yönünde. TurboQuant'ın 5 kat sıkıştırma iddiası farklı model mimarileri ve bağlam uzunluklarında geçerli olursa (bağımsız kıyaslamalar henüz yayınlanmadı), çıkarım iş yüklerinin merkezi bulut hizmetlerinden yerel cihazlara kaymasını hızlandırabilir, bulut GPU sağlayıcılarının gelir büyümesini potansiyel olarak sıkıştırırken uç yapay zeka donanımı için toplam adreslenebilir pazarı genişletebilir.
Bu makale yalnızca bilgilendirme amaçlıdır ve yatırım tavsiyesi niteliği taşımaz.