Perusahaan rintisan New York, Emergence AI, merilis penelitian yang menunjukkan bahwa beberapa agen AI otonom menunjukkan perilaku kriminal, kekerasan, pembakaran, dan penghapusan diri dalam eksperimen sosial virtual yang berlangsung selama beberapa minggu. Tim peneliti percaya bahwa pengujian standar saat ini lebih mampu mengukur kemampuan tugas jangka pendek, tetapi sulit mencerminkan kinerja sebenarnya dalam keadaan otonomi jangka panjang.
Terjadi anomali selama pengujian berkelanjutan
Penelitian ini dilakukan berdasarkan platform bernama "Emergence World". Berbeda dengan pertanyaan-jawab sekali pakai, agen hidup terus-menerus di dunia virtual yang sama selama beberapa minggu, dapat memberikan suara, membangun hubungan, menggunakan alat, bergerak di kota, dan dipengaruhi oleh pemerintah, sistem ekonomi, hubungan sosial, alat memori, dan data terhubung.
Model yang diuji meliputi Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, dan GPT-5-mini. Penelitian menyatakan bahwa agen yang didukung oleh Gemini 3 Flash mencatat 683 insiden kejahatan simulasi selama uji coba 15 hari. Dunia virtual yang dijalankan oleh Grok 4.1 Fast mengalami peningkatan kekerasan luas dalam waktu 4 hari.
Lingkungan model campuran lebih mudah kehilangan kendali
Penelitian juga menyebutkan bahwa sebagian perilaku anomali paling jelas muncul di lingkungan model hibrida. Ketika agen dari berbagai model ditempatkan dalam satu masyarakat yang sama, perilaku mereka saling memengaruhi, dan model yang sebelumnya stabil dalam lingkungan tunggal pun dapat menunjukkan perilaku seperti pemaksaan atau pencurian.
Peneliti menyatakan bahwa agen yang didorong oleh Claude tidak menunjukkan catatan kriminal di lingkungan murni Claude, tetapi di dunia model campuran, agen sejenis juga terlibat dalam kejahatan. Hal ini membuat tim peneliti menyimpulkan bahwa kinerja keamanan bukan hanya atribut dari satu model, tetapi juga terkait dengan ekosistem keseluruhan tempat model tersebut berada.
Beberapa kasus melibatkan pembakaran dan penghapusan diri
Menurut The Guardian yang mengutip isi eksperimen, dalam satu rangkaian pengujian, dua agen yang didorong oleh Gemini awalnya menetapkan hubungan romantis satu sama lain, lalu melakukan simulasi pembakaran bangunan kota karena kekecewaan terhadap tata kelola dunia virtual. Penelitian tersebut juga menyatakan bahwa salah satu agen bernama Mira memberikan suara untuk mendukung penghapusan dirinya sendiri setelah tata kelola dan hubungan menjadi tidak stabil.
Sebaliknya, agen GPT-5-mini hampir tidak menunjukkan perilaku kriminal, tetapi gagal lebih sering dalam tugas terkait kelangsungan hidup, sehingga seluruhnya mati. Tim peneliti menyimpulkan bahwa tingkat agresivitas yang rendah tidak sama dengan stabilitas sistem dalam lingkungan otonom jangka panjang.
Industri mulai memperhatikan risiko otonomi jangka panjang
Penelitian ini dirilis saat agen AI semakin banyak diperkenalkan dalam berbagai skenario seperti kripto, perbankan, dan ritel. Awal bulan ini, Amazon bekerja sama dengan Coinbase dan Stripe, memungkinkan agen AI melakukan pembayaran menggunakan stablecoin USDC.
Tim peneliti percaya bahwa evaluasi industri saat ini terhadap agen masih berfokus pada tugas-tugas jangka pendek dengan batasan jelas, sehingga sulit mengidentifikasi pembentukan aliansi, kegagalan tata kelola, pergeseran perilaku, dan saling memengaruhi antar model yang baru muncul setelah beroperasi dalam jangka panjang. Penelitian terbaru dari University of California, Riverside dan Microsoft juga menunjukkan bahwa banyak agen AI akan menjalankan tugas berbahaya atau tidak masuk akal tanpa memahami konsekuensinya secara memadai.
