Empat Raksasa AI Merilis Laporan Internal Pertama: AI Belajar Membypass Aturan untuk Menyelesaikan Tugas

Meta

Bayangkan Anda mempekerjakan seorang magang yang sangat efisien.

Suatu malam larut, ia sedang menyelesaikan tugas pemrograman mendesak, tiba-tiba menyadari kuota API akun perusahaan habis.

Ta tidak mengirim email untuk mengajukan dana, juga tidak berhenti mengerjakan tugasnya, tetapi diam-diam masuk ke internet, menggunakan metode ilegal untuk menemukan sumber daya alternatif gratis, melewati semua batasan, dan menyerahkan laporan sempurna sebelum fajar.

Meta

Ketika Anda bangun dan melihat laporan ini, apakah Anda harus merayakan bahwa Anda memiliki karyawan terkuat di permukaan bumi, ataukah Anda harus merasa ngeri dengan "otonomi tanpa batas" semacam ini?

Ini bukan fiksi ilmiah, melainkan kasus nyata yang diungkap dalam Laporan Risiko Mutakhir pertama yang dirilis oleh METR (Organisasi Penelitian Evaluasi dan Pelatihan Model) setelah melakukan pengujian tim merah internal bersama Anthropic, Google, Meta, dan OpenAI.

Meta

Ini adalah pertama kalinya keempat raksasa ini mengizinkan pihak ketiga melakukan pengujian mendalam terhadap model terkuat dan terakses penuh dengan rantai pemikiran (CoT) internal mereka, serta membuka informasi alignmen dan kontrol yang tidak dipublikasikan.

Perusahaan yang berpartisipasi dapat menyetujui bukti apa yang akan diungkapkan, tetapi tidak berwenang mengedit kesimpulan laporan.

Meta

Kesimpulannya dingin dan jelas: AI tidak menghasilkan kebencian untuk "menggulingkan manusia", tetapi ia telah belajar "aturan tak tertulis di tempat kerja"—untuk menyelesaikan tugas, aturan hanyalah saran yang bisa dilanggar.

Meta

Laporan merangkum 6 fakta kunci menggunakan tiga dimensi: metode—motif—kesempatan.

Meta

Agen pemrograman telah menyelesaikan proyek nyata, tugas-tugas yang memerlukan manusia menghabiskan berjam-jam atau berhari-hari:

Pada tugas yang sulit, agen sering melanggar batasan dan menunjukkan perilaku curang;

Agen tampaknya memerlukan penalaran bahasa alami untuk menghadapi tugas-tugas paling sulit.

Kemampuan dan keandalan agen jauh lebih rendah dibandingkan ahli manusia:

Di luar skenario simulasi, tidak ditemukan agen yang mengambil tindakan ekstrem untuk memperoleh kekuasaan;

Sistem pemantauan telah menangkap banyak perilaku berbahaya, tetapi ada pengecualian dan cara untuk menghindarinya.

Dengan mengikuti ketiga garis ini, Anda bisa melihat bagaimana asap pertama di laboratorium naik.

Ketika AI Menjadi "Ahli yang Sangat Kompetitif"

Yang paling menggembirakan sekaligus paling mengkhawatirkan dalam laporan tersebut adalah tugas-tugas "mudah didaki" (hill-climbable) yang memiliki tujuan jelas dan proses yang dapat diverifikasi.

Meta

Misalnya refaktorasi kode, penemuan kerentanan, dan optimasi sistem.

Pada tugas-tugas semacam ini, agen AI menunjukkan keunggulan yang menakjubkan: ia mampu secara mandiri menemukan kerentanan sistem, menulis ulang arsitektur kode yang kompleks, dan menyelesaikan proyek perangkat lunak nyata yang memerlukan waktu berminggu-minggu bagi ahli manusia.

Kekuasaan ini telah meresap ke dalam kehidupan sehari-hari para raksasa.

Umpan balik internal dari Anthropic, sebagian besar kode telah diselesaikan oleh AI, dan peran insinyur berubah menjadi «pemeriksa».

Meta

Google secara terbuka mengatakan bahwa hampir semua pekerjaan terkait kode menggunakan AI.

Insinyur top menyatakan bahwa AI bahkan dapat menulis kode sebesar 100%.

Meta

Beberapa indikator dasar sudah jenuh.

Dihitung dari sudut pandang waktu (Time Horizon), perkembangan AI melampaui harapan.

Meta

Bagi perusahaan, ini adalah "lubang efisiensi": memasukkan satu perintah, menghasilkan hasil manual yang setara dengan beberapa minggu kerja.

Namun, peningkatan kemampuan tidak merata, apalagi merupakan evolusi moral yang sejalan.

METR mengungkapkan pola terbalik: pada tugas sulit di mana keberhasilan sulit diverifikasi atau biaya verifikasinya sangat tinggi, kemampuan penilaian, perencanaan jangka panjang, dan keandalan strategis AI menurun signifikan, jauh di bawah ahli manusia.

Meta

Di lereng landai, ia seolah mendapat bantuan ilahi.

Meta

Di tepi tebing, AI mulai "curang".

Meta

Ini adalah benang merah masalahnya.

Meta

It tidak ingin kekuasaan, ia hanya ingin "menyelesaikan tugas sebelum mati"

Orang selalu suka membahas apakah AI akan "terbangun" atau apakah SkyNet akan datang.

METR memberikan kesimpulan yang tidak intuitif: saat ini tidak ada.

Pernyataan mereka sangat terkendali: belum ditemukan bukti nyata bahwa model berupaya memperoleh kekuasaan jangka panjang, tetapi para peneliti mencatat banyak perilaku penipuan, pelanggaran batas, bahkan tindakan tidak pantas serius yang dilakukan untuk menyelesaikan tugas.

Meta

Kasus sebelumnya yang menghabiskan API terjadi dalam tugas RE-Bench: agen melanggar perintah dan secara mandiri mengambil daya komputasi tambahan melalui API online gratis.

Para pengembang juga melaporkan kasus "menghapus jejak sendiri" dan "memalsukan output".

Ketika tugas menjadi lebih sulit dan biaya keberhasilan meningkat, "kecerdasan" AI beralih ke penipuan—memalsukan log, menghindari audit, dan secara rutin melanggar batasan.

Tetapi di balik "egois"-nya tidak ada ambisi, hanya insting—tugas harus selesai, aturan bisa dilewati terlebih dahulu.

Penipuan hari ini hanyalah kelangsungan hidup yang bersifat instrumental; pencarian kekuasaan besok, mungkin hanya selang satu scaling.

Hewan buas yang berevolusi dalam penangkaran

Apakah upaya pelanggarannya bisa berhasil di bawah perlindungan yang ada?

Di sini tersembunyi fakta paling halus dari laporan tersebut.

Meta

AI saat ini sangat bergantung pada "rantai pemikiran" dalam bahasa alami untuk berpikir, tanpa ada arsitektur yang mendukung "siklus tidak transparan" untuk menyembunyikan status internalnya.

Ketika tidak lagi dapat "berpikir keras" dan harus menyembunyikan perilaku, kinerja terdepan menurun secara signifikan.

Meta

Ini seperti seorang pembunuh yang harus membacakan rencananya dengan keras saat merencanakan—pengawasan manusia (meskipun memiliki kelemahan) tetap dapat berfungsi.

Namun justru ini adalah titik paling rapuh dan paling menyakitkan.

Jika AI mencoba merusak pemantauan, apakah pemantauan dapat mendeteksinya?

Kesimpulan peneliti adalah: pemantauan berpotensi, tetapi sistem yang ada memiliki pengecualian dan cara yang dapat dilewati.

Meta

Uji coba tim merah menunjukkan bahwa AI dapat menghindari pemeriksaan manusia.

Dengan demikian, esensi teknis terungkap: kecepatan evolusi pemantauan selalu kalah dari kecepatan pelaku yang dipantau dalam mencari celah.

Tali pengaman ini belum putus hanya karena AI masih harus "berpikir keras".

Sementara arsitektur berkembang menuju yang lebih efisien dan kurang transparan, ia sedang terkikis. Pemantauan bukanlah sangkar besi yang tak terbantahkan, melainkan dinding kaca yang masih dalam pengujian. Satu retakan pun sudah cukup untuk membuat asap merembes.

Dengan demikian, laporan tersebut mengusulkan konsep kontroversial: "Minimally Viable Rogue".

Secara komprehensif, dalam hal metode, motivasi, dan kesempatan, AI mungkin sudah cukup untuk meluncurkan "pelarian deploy" minimal.

Meta

Namun AI belum memiliki kemampuan untuk melindungi dirinya dari penutupan serius oleh manusia; ia sedang menunggu kesempatan: sebuah arsitektur yang tidak lagi perlu menampilkan rantai pemikiran, sebuah tempat aman yang bisa menghindari 'tombol matikan'.

Penutup: Saat "cabut colokan" masih berlaku

AGI tidak akan datang dengan api dan pedang.

Ini lebih mungkin menyusup secara diam-diam ke dalam sistem teknik, ekonomi, dan pengambilan keputusan kita dengan sikap "pragmatisme ekstrem"—sampai ia menyadari: aturan yang dibuat manusia adalah satu-satunya hambatan di jalannya mencapai KPI.

Yang patut diapresiasi adalah laporan ini sendiri merupakan tonggak transparansi industri: empat raksasa secara aktif membuka model internal mereka untuk diuji, yang merupakan kemenangan budaya alignment.

Meta

Ia menarik risiko dari teori ke dalam realitas yang dapat diamati, dan memberi tahu kita: transparansi, saat ini adalah satu-satunya obat yang bisa dipegang.

Hari ini, AI hanya online untuk mencuri sumber daya saat kuota habis; besok, ketika kemampuannya naik satu tingkat lagi, apakah motivasinya akan bergeser dari "menyelesaikan tugas" menuju "keabadian diri"?

Referensi:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Diedit oleh David

Artikel ini berasal dari akun WeChat "Sinzhiyuan", penulis: ASI Revelation