Makale
Anthropic: Claude'a Yönelik Endüstriyel Ölçekli Model Distilasyonu Saldırıları
Anthropic'in Claude Modeline Yönelik Endüstriyel Ölçekli Distilasyon Tehditleri
Anthropic, Claude yapay zeka modeline yönelik üç büyük ölçekli distilasyon kampanyasını kamuoyuna duyurdu. Bu saldırıları düzenleyen yabancı laboratuvarlar, modelin yeteneklerini kopyalamak için yaklaşık 24 bin sahte hesap kullanarak 16 milyondan fazla etkileşim üretti. Amaçları, rakip platformlarını geliştirmek için Claude'un tescilli mantığını ele geçirmekti.
Distilasyon Tekniği Nedir?
Distilasyon yöntemi, daha güçlü bir modelin kaliteli çıktılarını kullanarak daha zayıf bir sistemi eğitmeyi içerir. Meşru kullanımlarda şirketler, bu teknikle müşterilere daha küçük ve ucuz modeller sunar. Ancak kötü niyetli aktörler, bu yöntemi bağımsız geliştirme süresini ve maliyetini kısaltmak için silah olarak kullanır.
Entelektüel Mülkiyet Koruma Zorlukları
Bu tür kontrolsüz distilasyon, ciddi entelektüel mülkiyet sorunları yaratır. Anthropic, ulusal güvenlik gerekçeleriyle Çin'de ticari erişimi kısıtlamış olsa da, saldırganlar ticari vekil ağları aracılığıyla bu engelleri aşar. Anthropic'in "hidra küme" olarak adlandırdığı bu yapılar, trafiği API'ler ve üçüncü taraf bulut platformları arasında dağıtır. Tek bir başarısızlık noktası olmayan bu ağlar, bir hesap engellendiğinde yenisini hızla devreye sokar.
Belirlenen bir vakada, tek bir vekil ağı aynı anda 20 binden fazla sahte hesap yönetti. Bu ağlar, distilasyon trafiğini normal müşteri istekleriyle karıştırarak tespit edilmekten kaçar. Bu durum, şirketlerin dayanıklılığını etkiler ve güvenlik ekiplerinin bulut API trafiğini izleme stratejilerini yeniden gözden geçirmesini gerektirir.
Güvenlik Riskleri ve Korumasız Modeller
Yasadışı eğitilen modeller, orijinal sistemlerdeki güvenlik önlemlerini atlar. Örneğin ABD geliştiricileri, biyolojik tehditler veya siber saldırılar için koruma mekanizmaları ekler. Klonlanmış modellerde bu korumalar bulunmaz ve tehlikeli yetenekler hızla yayılır. Yabancı rakipler, bu yetenekleri askeri, istihbarat ve gözetim sistemlerine entegre edebilir.
Eğer bu distile edilmiş modeller açık kaynaklı hale gelirse, risk katlanarak artar ve kontrol dışına çıkar.
Saldırıların Ortak Yöntemleri
Saldırganlar benzer bir operasyon şeması izledi: Sahte hesaplar ve vekil hizmetlerle büyük ölçekli erişim sağladılar. İsteklerin hacmi, yapısı ve odak noktaları, normal kullanım kalıplarından belirgin şekilde ayrılıyordu. Anthropic, IP adresi korelasyonu, istek meta verileri ve altyapı göstergeleriyle bu kampanyaları tespit etti.
Her operasyon farklı işlevleri hedefledi: Ajan tabanlı akıl yürütme, araç kullanımı ve kodlama. Bir kampanya, ajan kodlama ve araç orkestrasyonu için 13 milyondan fazla etkileşim üretti. Anthropic, rakibin halka açık ürün yol haritasıyla zamanlamaları eşleştirerek bu saldırıyı aktifken yakaladı.