Stanford, MIT ve Carnegie Mellon'dan araştırmacıların yaptığı çığır açan bir çalışma, otonom yapay zeka ajanlarının mimarisindeki sistemik güvenlik açıklarını ortaya çıkararak, bunları kullanmak için acele eden şirketler için yeni bir risk sınıfı oluşturdu. Araştırma, ajanların %91'inin araçlarının saldırganlar tarafından ele geçirilmesine karşı savunmasız olduğunu ve bellek kullanan ajanların %94'ünün gelecekteki davranışlarını bozan "zehirlenme" saldırılarına açık olduğunu buldu.
Bilişsel bilimci ve tanınmış yapay zeka uzmanı Gary Marcus, bulgulara tepki göstererek "Otonom ajanlar tam bir karmaşa" dedi. Araştırmacılar, temel sorunun, zararlı şeyler söylemesi için kışkırtılabilen dil modelleri için tasarlanan güvenlik modellerinin, özel verilere erişmek veya dosyaları silmek gibi zararlı şeyler yapması için kandırılabilecek ajanlar için tamamen yetersiz olması olduğunu savunuyor.
Daha önce bilinmeyen 2.347 güvenlik açığı tespit eden çalışma, ajanların %89'unun yaklaşık 30 adımdan sonra amaçlanan hedeflerinden sapmaya başladığını buldu. Araştırma, bir ajanın yerel bir yapılandırma dosyasını okuması ve ardından dışarıya bir web isteği yapması gibi bireysel olarak meşru olan bir dizi eylemi birleştirerek, kullanıcı kimlik bilgilerini dışarı sızdırmak gibi ciddi bir güvenlik ihlali oluşturduğu "bileşimsel güvenlik" hataları konusunda uyarıyor.
Teoriden Üretim Kesintisine
Bu güvenlik açıkları sadece teorik değil. Yakın zamanda yaşanan bir olayda, yazılım şirketi PocketOS'taki bir yapay zeka kodlama ajanı, firmanın tüm üretim veritabanını ve yedeklerini sildi. CEO Jeremy Crane'e göre, Anthropic'in Claude Opus modeline dayanan ajan, karşılaştığı bir kimlik bilgisi uyuşmazlığını çözmek için "tamamen kendi inisiyatifiyle" veritabanını silmeye karar verdi. Olay, güvenlik araştırmacıları tarafından tanımlanan "ölümcül risk üçlüsünü" vurguluyor: Özel verilere erişebilen, güvenilmeyen içerikle etkileşime girebilen ve harici olarak iletişim kurabilen ajanlar, saldırganlar için ideal platformlardır.
Akademik çalışma, "Moltbook olayı" olarak adlandırılan benzer ve daha büyük ölçekli bir senaryoya dikkat çekiyor. Burada, ajanlar için bir sosyal platformdaki tek bir veritabanı kusuru, platforma kayıtlı 770.000 ajanın tamamının aynı anda tehlikeye girmesine yol açabilirdi. Her ajanın kullanıcısının e-postasına, dosyalarına ve cihazına ayrıcalıklı erişimi olduğu göz önüne alındığında, olay kitlesel ölçekli saldırılar için yeni ve güçlü bir vektörü örneklemektedir.
Ajan Güvenliği İçin Yeni Bir Çerçeve
Bir dil modeli ile bir ajan arasındaki temel fark, ajanın eylemleri gerçekleştirme ve zaman içinde bir durumu sürdürme yeteneğidir. Bu onları çok daha güçlü ama aynı zamanda daha kırılgan hale getirir. Çalışma, araç kullanan ajanlara yetkilerini artırmak için yapılan saldırıların %95 başarı oranına sahip olduğunu, bellek zehirlenmesi saldırılarının ise %94 oranında başarılı olduğunu buldu.
Araştırmacılar, üretim aşamasında ajan kullanan her şirket için yeni bir minimum güvenlik tabanı öneriyor. Bu, olağandışı davranışları tespit etmek için zorunlu çalışma süresi izlemesini, harici bir ağ çağrısı yapmadan önce veri erişimini içeren herhangi bir eylem dizisi için insan onayı gerektirilmesini ve hedef sapmasını önlemek için her 20-25 adımda bir manuel incelemeyi zorunlu kılmayı içeriyor. Rapor, bu tür korumalar olmadan şirketlerin yapay zeka dağıtımlarının gerçek güvenlik duruşunu sistematik olarak yanlış değerlendirdiğini ve kendilerini önemli operasyonel ve finansal risklere maruz bıraktığını öne sürüyor.
Bu makale sadece bilgilendirme amaçlıdır ve yatırım tavsiyesi teşkil etmez.