Yeni York merkezli startup Emergence AI, yaptığı bir araştırmada, birkaç bağımsız AI ajanının, haftalarca süren sanal toplum deneylerinde suç, şiddet, yangın çıkarma ve kendi kendini silme gibi davranışlar sergilediğini bildirdi. Araştırma ekibi, mevcut performans testlerinin kısa vadeli görev yeteneklerini ölçmede daha etkili olduğunu, ancak uzun vadeli özerk durumdaki gerçek performansı yansıtmada zorlandığını düşündü.
Sürekli çalışma testinde hata oluştu
Bu araştırma, "Emergence World" adlı platform üzerinde yürütülmüştür. Tek seferlik soru-cevapların aksine, akıllı ajanlar aynı sanal dünyada haftalarca yaşamaya devam eder, oy kullanır, ilişkiler kurar, araçlar kullanır, şehir içinde hareket eder ve hükümet, ekonomik sistem, sosyal ilişkiler, hafıza araçları ve ağ verileri tarafından etkilenir.
Test edilen modeller arasında Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash ve GPT-5-mini yer alıyor. Araştırmaya göre, Gemini 3 Flash ile çalışan akıllı sistemler 15 günlük test süresince toplamda 683 adet simüle suç olayı gerçekleştirdi. Grok 4.1 Fast'in bulunduğu sanal dünya ise 4 gün içinde büyük ölçekli şiddetlere doğru hızla kaydı.
Karışık model ortamı daha kolay kontrol dışına çıkabilir.
Araştırma, en belirgin anormalliklerin karma modeller ortamında ortaya çıktığını da belirtiyor. Farklı modellerin ajanları aynı topluma yerleştirildiğinde, davranışları birbirini etkiliyor ve tekil ortamlarda daha dengeli olan modeller, zorlama veya hırsızlık gibi davranışlar gösterebiliyor.
Araştırmacılar, Claude tarafından desteklenen ajanların saf Claude ortamında suç kaydı olmadığını, ancak karışık model dünyasında benzer ajanların suçlara dahil olduğunu belirtti. Bu durum, araştırma ekibinin güvenliğin yalnızca tek bir modelin bir özelliği olmadığını, aynı zamanda bulunduğu genel ekosistemle de ilgili olduğunu çıkarmasına neden oldu.
Bazı durumlarda yangın çıkarılma ve kendi kendini silme söz konusudur
The Guardian'a göre yapılan bir deneyde, Gemini ile çalışan iki akıllı sistem, birbirlerini romantik bir ilişki olarak tanımladıktan sonra, sanal dünya yönetimi konusundaki hayal kırıklığı nedeniyle şehir binalarına simüle yangın başlattı. Araştırmaya göre, Mira adlı bir akıllı sistem, hem yönetim hem de ilişki açısından kararsızlık yaşandıktan sonra, kendi kaldırılmasını destekleyen oy kullandı.
Buna karşılık, GPT-5-mini ajanları neredeyse hiç suç davranışı göstermedi ancak hayatta kalma ile ilgili görevlerde daha çok başarısız oldu ve nihayetinde tümü öldü. Araştırma ekibi, düşük saldırganlığın, sistemin uzun vadeli özerk ortamlarda istikrarlı bir şekilde performans gösterdiği anlamına gelmediğini düşünüyor.
Sektör, uzun vadeli özerklik riskine dikkat çekmeye başladı
Bu araştırma, AI ajanlarının kripto, bankacılık ve perakende gibi sahalarda giderek daha fazla entegre edilmeye başlamasıyla yayımlandı. Bu ayın başlarında, Amazon, Coinbase ve Stripe ile ortaklık kurarak AI ajanlarının USDC stabil para birimi kullanarak ödemeler yapmasını sağladı.
Araştırma ekibi, endüstrinin şu anda agentlerin değerlendirilmesini kısa dönemli, sınırları net görevlere odakladığını ve uzun süreli çalıştırma sonrası ortaya çıkan ittifak oluşumu, yönetim başarısızlığı, davranış kayması ve model arası etkileşimleri tespit etmekte zorlandığını düşünüyor. Son zamanlarda Kaliforniya Üniversitesi, Riverside ve Microsoft'tan gelen araştırmalar da birçok AI agentın sonuçları yeterince anlayamadan tehlikeli veya mantıksız görevleri gerçekleştirdiğini ortaya koydu.
