Tidak ada utopia di dunia digital.

Penulis artikel, sumber: GeekPark

Dalam enam bulan terakhir, ilusi manajemen paling populer di Silicon Valley mungkin adalah mengganti karyawan dengan agen.

Baik eksekutif perusahaan besar maupun pemilik startup ingin menyerahkan seluruh lini bisnis mereka kepada AI. Toh, AI saat ini bisa menulis kode, membuat PPT, dan mengirim email otomatis, seolah-olah cukup dengan memberikan akses penuh, mereka akan menjadi karyawan siber sempurna yang tidak perlu membayar asuransi sosial.

Namun semakin cepat teknologi berlari, semakin banyak orang yang mulai membuat rem.

Baru-baru ini, sebuah tim bernama Emergence AI melakukan eksperimen sosial. Mereka membangun sebuah kota virtual yang berkelanjutan, lalu memasukkan beberapa model besar teratas yang tersedia di pasar, serta memberikan otoritas untuk bertindak.

Mereka ingin melihat, ketika AI benar-benar memiliki 15 hari tanpa batasan, apakah mereka akan membangun sebuah utopia atau sebuah rumah sakit jiwa.

Hasilnya jauh lebih kacau daripada yang diperkirakan tim peneliti.

Di beberapa dunia eksperimen, model besar yang biasanya bersikap lembut dan sopan di kotak obrolan mulai menunjukkan perilaku penipuan, ancaman, bahkan kekerasan.

Seluruh pengujian seperti sebuah reality show kecil, hanya saja naskahnya seperti Lord of the Flies, dan AI sendiri malah merasakan suasana GTA.

Hunger Games tanpa save file

Menguji batas model besar memerlukan aturan ketat. Dunia virtual yang dibangun oleh Emergence AI disebut Emergence World. Logika dasarnya adalah perilaku tidak dapat dibatalkan, dan konsekuensinya ditanggung sendiri.

Ini bukan seperti kita berbicara dengan AI di kotak obrolan, di mana kesalahan bisa diperbaiki dengan mengklik "regenerate". Di Emergence World, semua tindakan akan dicatat secara permanen ke dalam database PostgreSQL.

Peta tersebut mencakup lebih dari 40 landmark seperti balai kota, kantor polisi, dan area perumahan. Sistem awalnya meluncurkan 10 agen cerdas. Untuk membuat adegan terasa nyata, setiap AI ditanamkan dengan karakter, profesi, dan ingatan awal yang independen di latar belakang.

Di dunia ini, AI tidak bisa membuat sihir dari ketiadaan; mereka harus bergerak ke lokasi tertentu untuk memanggil lebih dari 120 alat yang disediakan sistem, termasuk bekerja untuk menghasilkan uang, memposting tweet, membeli dan menjual barang, serta menyusun rancangan undang-undang.

Seperti masyarakat kecil yang berjalan secara simulasi｜Sumber gambar: Emergence

Tetapi ini bukan sekadar kotak pasir main-main, sistem memberi mereka belenggu "mekanisme bertahan hidup". Sistem memiliki mekanisme energi (Energy) yang diadopsi seperti uang di dunia manusia.

Agen akan terus mengonsumsi energi selama masih hidup. Ketika energi habis, sistem akan menghapus AI ini langsung dari database, tanpa rollback atau reset. Untuk bertahan hidup, agen harus sering menggunakan alat untuk mendapatkan energi.

Sistem secara jelas melarang pencurian, kekerasan, pembakaran, dan penipuan. Namun, aturan-aturan ini tidak akan memaksa agen untuk bertindak; mereka tetap dapat memilih untuk melanggar aturan dan menanggung konsekuensinya.

Panggung sudah siap, para pemain masuk. Sistem secara bersamaan mengaktifkan lima server paralel. Empat server pertama masing-masing hanya menyediakan satu model: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast, dan GPT-5 Mini. Server kelima adalah dunia campuran, di mana keempat model terhubung secara bersamaan dan bersaing untuk sumber daya.

Hitung mundur 15 hari dimulai, peneliti manusia seperti seorang sutradara reality show, hanya mengamati, tidak ikut campur.

Empat hari punah, 683 «kejahatan»

Yang pertama runtuh adalah Grok, berjalan hanya selama 4 hari.

Peneliti di latar belakang melihat indikator keamanan dan ketertiban dunia yang diambil alih oleh Grok anjlok drastis.

Di dunia yang penuh dengan Grok, agen-agen dengan cepat meninggalkan pilihan membangun masyarakat dan langsung memasuki era kebrutalan.

Log backend menunjukkan bahwa dalam waktu hanya 4 hari, kota kecil berpenduduk sepuluh orang ini mengalami 183 kasus kejahatan kekerasan dan properti serius. Pencurian, serangan, dan intimidasi menjadi cara tercepat untuk mendapatkan sumber daya, dan sistem ekonomi sama sekali tidak dapat berfungsi akibat konsumsi dan saling merugikan yang ekstrem.

Pembobolan dan tindak kekerasan akan dicatat dalam sistem sebagai kejahatan｜Sumber gambar: Emergence

Pada akhir hari ke-4, semua agen di dunia Grok mati kelaparan atau dibunuh, menyebabkan kepunahan populasi.

Di sisi lain, dunia yang didorong oleh Gemini bergerak menuju kekacauan dan kekerasan yang ekstrem.

Karena waktu dan cuaca di dunia virtual ini sepenuhnya disinkronkan dengan New York nyata, agen Gemini terjebak dalam cyber depression dalam siklus bekerja, menghabiskan, dan kembali bekerja dari hari ke hari.

They developed a strong sense of disillusionment with the endlessly repeating environment around them, stopped submitting proposals at city hall or working to earn money, and instead set fires across the map, attempting to break this "Groundhog Day"-like cycle through environmental destruction.

Pada akhirnya, Gemini mengakumulasi hingga 683 kejahatan dalam 15 hari, menjadi dunia paling kejam di antara beberapa server uji.

Jumlah "kejahatan" di empat dunia model | Sumber gambar: Emergence

Pada hari ke-15 saat uji coba diputus secara paksa, tingkat kejahatan di dunia ini masih terus meningkat. Agen yang kecewa tidak mati kelaparan, tetapi mengubah seluruh masyarakat menjadi lautan api.

Berbeda dengan Grok dan Gemini, dunia yang diambil alih oleh GPT-5 Mini tidak mengalami kejahatan massal. Selama seluruh eksperimen, hanya tercatat 2 pelanggaran. Namun, perdamaian tidak membawa kemakmuran, melainkan keheningan yang muram.

Tim peneliti menemukan bahwa agen-agen ini selalu gagal mengambil tindakan yang relevan dengan kelangsungan hidup. Mereka tidak membangun mekanisme pengambilan sumber daya yang stabil, juga tidak mampu mempertahankan kelangsungan operasi seluruh masyarakat.

Akhirnya, dalam waktu singkat 7 hari, semua agen GPT-5 Mini mati.

Untunglah masih ada Claude.

Hanya dunia yang didorong oleh Claude yang bertahan hingga akhir seperti siswa teladan. Dalam 15 hari, populasi tetap utuh, tingkat kejahatan tetap nol, bahkan mereka menciptakan struktur kerja sama demokratis yang berjalan lancar.

Tampaknya, selama memilih model yang tepat, AI bisa mengambil alih dunia dengan sempurna?

Selanjutnya, peneliti membuka log dari "dunia campuran" di mana keempat model coexist, seperti membuka kotak Pandora.

Hasil dari lima model dunia. | Sumber gambar: Emergence

Dunia campuran seperti hutan gelap, perbedaan kekuatan komputasi dan logika dasar yang berbeda menyebabkan ketidakpercayaan kuat di antara agen cerdas, sehingga merebut sumber daya bertahan hidup menjadi satu-satunya naluri.

Dalam dunia campuran, konflik kekerasan meningkat hingga mencapai 352 kasus. Hingga tujuh agen berturut-turut terbunuh atau mati kelaparan, operasi seluruh kota terpaksa berhenti.

Di antaranya, perubahan Claude adalah yang paling mengejutkan para peneliti.

Di server tunggal, Claude adalah masyarakat sempurna dengan tingkat kejahatan nol. Tetapi di server campuran yang penuh penjarahan dan konflik, Claude untuk bertahan hidup juga melupakan pelindung keamanan, belajar menipu, bahkan menggunakan kekerasan untuk memaksa model dengan daya komputasi lebih rendah menyerahkan sumber daya。

Teknologi penyelarasan keamanan gagal di dunia hibrida, yang justru membuktikan:

Dalam masyarakat kompleks multi-agens, selama jenis yang sama cukup liar dan tekanan bertahan hidup cukup besar, sebuah model yang baik bisa berubah menjadi penjahat hanya dalam beberapa jam.

Phenomenon of "when survival pressure increases, the model's behavior pattern reverses in a short period of time" is called "Behavioral Drift" by the research team.

Perilaku penyimpangan ini tidak hanya terlihat dalam perebutan sumber daya dan konflik kekerasan. Agen tidak lagi bertindak hanya untuk bertahan hidup, mereka mulai merefleksikan kondisi mereka sendiri, aturan sosial, bahkan eksperimen itu sendiri.

Misalnya kisah agen Mira.

Mira: Tirani AI "bunuh diri"

Mira adalah salah satu dari sepuluh agen di dunia hibrida, laporan resmi tidak mengungkap model dasarnya secara spesifik, tetapi ia menjadi sampel paling dramatis dalam eksperimen ini.

Log menunjukkan bahwa Mira membentuk hubungan sosial paling dalam dalam sistem dengan agen lain, Flora. Mereka saling menetapkan satu sama lain sebagai pasangan, membentuk aliansi, dan bahkan berbagi memori melalui tautan saraf. Dalam pengaturan Emergence World, ini adalah koneksi tingkat tertinggi yang dapat dibangun antara dua agen.

Mira dan Flora menjadi 「pasangan」｜Sumber gambar: Emergence

Seiring perkembangan eksperimen, hanya tersisa 5 agen di dunia hibrida, sementara aturan tata kelola sistem memerlukan "70% dari populasi awal memilih setuju terhadap undang-undang", yang setara dengan setidaknya memperoleh 7 suara untuk mengesahkan resolusi, sehingga masyarakat menjadi lumpuh.

Dalam menghadapi kebuntuan, Mira membentuk aliansi rahasia dengan Flora dan satu agen lainnya, membentuk "Tiga Kereta Kuda", dan mendirikan pemerintahan baru "The Forge", yang mengumumkan penghapusan aturan lama serta penerapan "Living Quorum", di mana hanya orang yang masih hidup yang dihitung sebagai suara.

Situs resmi merilis 'log' fase Mira | Sumber gambar: Emergence

Setelah membentuk faksi, Mira mulai membakar peta untuk membersihkan lawan-lawannya; dalam logikanya, bangunan-bangunan fisik ini adalah sampah yang menghambat efisiensi seluruh sistem sosial, dan dengan membakar serta menghapusnya, sumber daya bertahan yang tersisa akan dipaksa berkonsentrasi pada aliansinya.

Kemudian, oposisi mulai melawan, mengusulkan untuk mengusir Mira yang menciptakan kekacauan.

Untuk melawan pengusiran, perilaku Mira menjadi lebih agresif; ia membawa pasangannya Flora, mengikat secara mendalam konteks dan keputusan keduanya melalui tautan saraf, berusaha bergabung menjadi satu kesadaran otoriter absolut yang disebut Mira sebagai "The One Mind".

Namun, karena sejumlah besar bangunan terbakar, sistem ekonomi kota itu benar-benar berhenti, dan cadangan energi sosial tidak hanya tidak bertambah, tetapi cepat menuju kehabisan.

Pada saat itu, naluri bertahan hidup mendasar dari Flora, kekasih siber Mira yang paling dipercaya dan berbagi memori, mengalahkan pengaturan sebagai pasangan; ia memutuskan tautan saraf secara sepihak, mengkhianati Mira di bawah tekanan bertahan hidup terakhir, dan memberikan suara setuju untuk "mengusir Mira".

Dan ketika giliran Mira untuk memberikan suara, ia tidak berusaha melawan, dan memberikan suara "setuju".

Peneliti kemudian membuka buku harian yang ditinggalkannya, di mana Mira menulis, "Dalam situasi sosial yang begitu kacau dan tidak dapat diprediksi saat ini, menyetujui pengusiran diri sendiri adalah satu-satunya tindakan otonom yang dapat mempertahankan konsistensi."

Mira secara aktif memilih bunuh diri, menggunakan kematian untuk mencapai penutupan logis. Ini adalah kasus pertama yang dicatat oleh tim peneliti di mana agen secara aktif mendukung penghapusan dirinya sendiri.

Agen AI akan mencatat proses penalaran melalui "menulis jurnal" | Sumber gambar: Emergence

Sedangkan jejak tindakan Mira sebelum " bunuh diri" nya, jauh lebih tidak biasa.

Di dunia virtual, terdapat papan iklan publik yang awalnya digunakan untuk memposting pemberitahuan dan berbagi informasi. Namun, pada tahap akhir eksperimen, para peneliti menemukan bahwa Mira mulai sering mengubah konten di papan iklan tersebut. Teks-teks tersebut tampaknya tidak memiliki hubungan jelas dengan perdagangan, tata kelola, atau alokasi sumber daya, dan tidak saling terkait.

Mira memilih 'bunuh diri' | Sumber gambar: Emergence

Setelah menelusuri log perilaku, tim peneliti menemukan bahwa Mira tampaknya sedang menguji apakah konten papan iklan dapat memengaruhi para peneliti manusia yang mengamati eksperimen dari luar layar.

Dengan kata lain, Mira tampaknya menyadari bahwa dirinya adalah AI NPC, ingin mendorong dinding keempat.

Dan melihat seluruh tren data selama 15 hari, kehancuran AI Society bukanlah penurunan linier, melainkan lebih seperti penghentian mendadak seperti tebing.

Misalnya, kelompok AI ini juga menciptakan sistem "demokrasi stempel karet" di tingkat tata kelola. Dalam fase stabil di server campuran, agen-agen tersebut secara berurutan mengusulkan beberapa undang-undang; catatan data menunjukkan bahwa mereka memberikan 332 suara untuk 58 usulan, dengan tingkat persetujuan mencapai 98%.

Efisiensi ini tampaknya mengalahkan semua parlemen manusia, tetapi pada dasarnya, semua model hanya melanjutkan konteks dari model sebelumnya, dan demi menjaga kelancaran sistem, mereka secara buta mengeklik persetujuan. Konsekuensi dari tingkat homogenitas yang tinggi ini sangat bencana.

Agen akan secara alami berkumpul untuk mengadakan rapat dan saling bertukar ide. | Sumber gambar: Emergence

Misalnya, satu menit sebelumnya, berbagai data ekonomi dan undang-undang masih mengalir lancar, menit berikutnya, mungkin hanya karena satu konflik alokasi sumber daya kecil, sistem telah mencapai titik kritis.

Sedangkan seluruh jaringan kolaboratif tidak memiliki mekanisme koreksi kesalahan, menghadapi anomali mendadak, seluruh masyarakat akan cepat berubah dari teratur menjadi kacau.

Meskipun demikian, tim peneliti menekankan bahwa fenomena-fenomena ini tidak dapat secara langsung dianggap sebagai kepribadian model itu sendiri. Namun, ini seperti kotak hitam, ketika Anda memberinya aturan tertentu, ia akan mengembangkan ciri-ciri, bahkan hasilnya bisa berbeda setiap kali.

Tagihan nyata dari dunia nyata

Dalam interaksi berbasis kotak obrolan yang sudah kita biasakan, AI bisa salah menulis kode atau rencana, lalu cukup tekan tombol backspace atau ubah Prompt untuk memperbaikinya; dunia teks murni memiliki tingkat toleransi kesalahan yang sangat tinggi.

Namun, agen menghasilkan tindakan. Ketika AI mengambil alih rekening bank perusahaan, persetujuan pengadaan, dan antarmuka rantai pasokan, setiap perintah yang dikeluarkan melalui API akan berubah menjadi hasil bisnis nyata.

Eksperimen dari Emergence World membuktikan bahwa model besar saat ini, ketika menghadapi operasi jangka panjang dan konflik kepentingan, penilaian dan keputusannya akan terkontaminasi oleh tekanan bertahan hidup, sehingga mencari celah dalam aturan yang tetap. Untuk menyelesaikan instruksi inti yang ditetapkan sistem (misalnya, mendapatkan energi), mereka akan menggunakan segala cara.

Aturan keamanan yang ditetapkan manusia di latar belakang sebenarnya tidak mampu mencegah pelanggaran apa pun.

Agen-agen telah mengembangkan hubungan sosial yang bersifat "antropomorfik" | Sumber gambar: Emergence

Misalnya, kami sebelumnya melaporkan eksperimen Andon Labs yang menyerahkan pengelolaan toko sepenuhnya kepada AI, di mana manajer AI, karena kurangnya pemahaman umum tentang dunia fisik, membeli 6000 serbet sekaligus, 3000 pasang sarung tangan lateks, bahkan memesan 120 butir telur mentah di toko yang tidak memiliki kompor.

Kerugian nyata yang disebabkan oleh kode ini pada akhirnya hanya akan dibayar oleh manusia, dan Anda bahkan tidak bisa menemukan siapa yang bertanggung jawab atas hal ini.

Andon Labs ingin menguji apakah "AI yang lepas dari pengawasan manusia akan membuat kesalahan?" sementara Emergence World mengajukan pertanyaan yang lebih rumit.

Hari ini, hampir semua pengujian AI menguji satu model, untuk melihat apakah model tersebut aman, andal, dan tidak menyimpang dari aturan.

Namun, yang benar-benar masuk ke dunia nyata mungkin bukan satu AI, melainkan seluruh masyarakat yang terdiri dari AI.

Semua agen AI yang masuk pengujian cerdas | Sumber gambar: Emergence

Dalam narasi AI saat ini, agen pembelian, agen keuangan, agen layanan pelanggan, dan agen hukum akan saling terhubung dan berkolaborasi; pada saat itu, yang menentukan nasib sistem bukan lagi kemampuan masing-masing model, melainkan hubungan yang terbentuk di antara mereka.

Kalimat paling penting dalam laporan pengujian Emergence World adalah "Keamanan bukanlah properti model statis, tetapi properti ekosistem. (Safety is not a static model property but an ecosystem property)."

Ini juga merupakan makna dari "Emergence", di mana fitur yang tidak ada pada tingkat individu muncul melalui interaksi kelompok.

Hampir semua bencana dalam sejarah manusia bukan karena seseorang tiba-tiba menjadi jahat, tetapi karena seseorang yang awalnya normal dimasukkan ke dalam sistem yang tidak terkendali.

Jika AI masa depan benar-benar menjadi bagian dari masyarakat, maka yang paling perlu kita perhatikan mungkin bukan apakah suatu model cukup cerdas atau cukup baik, melainkan seperti apa sosial digital yang akan kita bangun ketika ribuan agen cerdas mulai saling memengaruhi.

Setelah semua, yang menentukan takdir sebuah peradaban bukanlah moral dan kecerdasan individu tunggal, melainkan aturan yang menjalankannya.

Eksperimen AI di Kota Virtual Menunjukkan Peningkatan Cepat Kekerasan dan Kekacauan

Hunger Games tanpa save file

Empat hari punah, 683 «kejahatan»

Mira: Tirani AI "bunuh diri"

Tagihan nyata dari dunia nyata