OpenAI ve 5 Ortağı, Yapay Zeka Fabrikalarını Desteklemek İçin MRC'yi Başlattı

OpenAI; teknoloji devleri Nvidia, Microsoft, AMD, Intel ve Broadcom ile ortaklık kurarak, gelişmiş yapay zeka modellerinin eğitilmesindeki maliyetli gecikmeleri önlemek için tasarlanmış yeni bir ağ protokolünü tanıttı. Çok Yollu Güvenilir Bağlantı (MRC) adı verilen bu teknoloji, GPU'lar arasında devasa veri setlerini daha verimli ve güvenilir bir şekilde taşımak için halihazırda dünyanın en büyük yapay zeka süper bilgisayarlarının bazılarında konuşlandırılmış durumda.

Girişimi duyuran bir blog yazısında OpenAI, "Hedefimiz sadece hızlı bir ağ kurmak değil, aynı zamanda eğitim işlerinin devam etmesini sağlamak için arızaların varlığında bile çok öngörülebilir performans sunan bir ağ kurmaktı" dedi.

MRC, bir yapay zeka fabrikasında verilerin seyahat etme şeklini temelden değiştiren bir uzaktan doğrudan bellek erişimi (RDMA) taşıma protokolüdür. Darboğaz oluşturabilen veya arıza durumunda eğitimi durdurabilen tek bir ağ yoluna güvenmek yerine, MRC trafiği aynı anda yüzlerce farklı yola paylaştırır. Protokol, en yeni 800 Gb/s ağ arayüzlerine yerleştirilmiştir ve halihazırda OpenAI'ın en büyük Nvidia GB200 süper bilgisayarlarında kullanılmaktadır; ayrıca Microsoft tarafından Azure veri merkezlerinde konuşlandırılmaktadır.

Bu hamle, yapay zeka ekonomisindeki kritik bir savunmasızlığı gideriyor. On binlerce GPU üzerinde bir öncü model eğitirken, milisaniye süren bir ağ duraklaması bile milyonlarca dolarlık bilgi işlem donanımını boşta bırakabilir. Birden fazla yedekli yol ve tıkanıklığın etrafından dolanma zekası sağlayan MRC, yapay zeka altyapısına milyarlarca dolar harcayan şirketlerin yatırım getirisini doğrudan etkileyerek bu pahalı yapay zeka sistemlerinin kullanımını maksimize etmek için tasarlanmıştır.

Gigascale Yapay Zeka Darboğazını Çözmek

Büyük yapay zeka modellerini eğitmek, eşzamanlı kalması gereken binlerce GPU arasında sürekli, yüksek hacimli bir veri alışverişini içerir. Geleneksel ağlarda, yoldaki bir bağlantı tıkanırsa veya bir anahtar arızalanırsa, sistem rotayı yeniden çizerken tüm iş duraklayabilir. "Kuyruk gecikmesi" (tail latency) olayı olarak bilinen bu gecikme, büyük bir verimsizlik kaynağıdır.

MRC bu sorunu birkaç yolla ele alıyor. Protokol, aşırı yüklü bağlantıları tespit etmek ve trafiği bunlardan uzaklaştırmak için ağ yapısından gelen gerçek zamanlı sinyalleri kullanır. Veri kaybolduğunda, hataların etkisini en aza indirerek hızlı ve hassas bir şekilde yeniden iletilebilir. Nvidia'ya göre, MRC'yi çalıştıran Spectrum-X platformu, bir yol hatasını tespit edebilir ve trafiği donanım seviyesinde mikrosaniyeler içinde yeniden yönlendirebilir. Bu, OpenAI gibi "akıllı bir kiracının", Microsoft Azure gibi bir bulut sağlayıcısının altyapısında çalışırken bile yönlendirme ve ağ davranışı üzerinde daha fazla kontrole sahip olmasını sağlar.

Rekabet Avantajı Sağlayan Açık Bir Standart

Yaygın benimsemeyi teşvik etmek için yapılan önemli bir hamleyle, MRC spesifikasyonu, açık kaynaklı donanım tasarımlarını teşvik eden bir endüstri kuruluşu olan Open Compute Project (OCP) aracılığıyla kamuya açık hale getirildi. AMD, Intel ve Broadcom'un Nvidia ve Microsoft ile birlikte yer alması, yüksek performanslı yapay zeka ağları için ortak bir standart oluşturmaya yönelik iş birliği çabasına işaret ediyor.

Ancak, açık spesifikasyon rekabetçi bir dinamikle birlikte geliyor. Protokolü herkes uygulayabilse de Nvidia, Spectrum-X anahtarları ve SuperNIC'leri üzerindeki donanıma özgü yürütmesinin üstün performans sunacağına dair iddiaya giriyor. Bu "açık standartlar, farklılaştırılmış uygulama" stratejisi Nvidia'nın başarısının bir alametifarikası olmuştur. Nvidia Kıdemli Başkan Yardımcısı Gilad Shainer, Ultra Ethernet Consortium (UEC) tarafından önerilen gibi tek bir kazanan-her-şeyi-alır standardı yerine, farklı müşteri ihtiyaçlarına göre uyarlanmış çeşitli Ethernet protokollerinin bir arada var olmasını beklediğini belirtti.

Yatırımcılar için bu duyuru, dahil olan şirketlerin rekabetçi konumlarını pekiştiriyor. Nvidia'nın sadece çip değil, uçtan uca yapay zeka sistemleri sağlayıcısı olarak rolünü sağlamlaştırıyor. Microsoft için, Azure bulutunun performansını ve direncini artırıyor; bu da OpenAI gibi büyük yapay zeka müşterilerini çekmek ve elde tutmak için kilit bir faktör. AMD ve Intel'in katılımı, onların görüşmelerin bir parçası olarak kalmasını sağlayarak tek bir tedarikçiye tamamen bağımlı olunmasını önlüyor ve endüstriye ileriye dönük birden fazla yol sunuyor.

Bu makale sadece bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.