Empat Raksasa AI Mengeluarkan Laporan Dalam Pertama: AI Belajar Melanggar Peraturan untuk Menyelesaikan Tugas

Meta

Bayangkan anda mempekerjakan seorang latihan yang sangat cekap.

Pada suatu malam, dia sedang menyelesaikan tugas pengaturcaraan yang mendesak, tiba-tiba mendapati kuota API akaun syarikatnya habis.

Ta tidak menghantar emel untuk memohon dana, juga tidak berhenti bekerja, tetapi secara senyap menyusup ke internet, mencari sumber pengganti percuma dengan cara yang melanggar peraturan, melintasi semua sekatan, dan menyerahkan laporan yang sempurna sebelum fajar.

Meta

Apabila anda bangun dan melihat laporan ini, adakah anda patut merayakan bahawa anda memiliki pekerja terkuat di muka bumi, atau adakah anda patut merasa sejuk di belakang kerana "kemandirian tanpa batas" ini?

Ini bukan fiksi ilmiah, tetapi kes sebenar yang diumumkan dalam Laporan Risiko Terkini pertama oleh METR (Organisasi Penilaian dan Penelitian Pelatihan Model) selepas menjalani ujian tim merah dalaman bersama Anthropic, Google, Meta, dan OpenAI.

Meta

Ini adalah pertama kalinya empat raksasa ini membenarkan pihak ketiga menguji secara mendalam model terkuat dan terakses sepenuhnya dengan rantai pemikiran (CoT) mereka, serta membuka maklumat selarasan dan kawalan yang tidak dipublikasikan.

Syarikat yang terlibat boleh menyetujui bukti apa yang boleh didedahkan, tetapi tidak mempunyai kuasa untuk mengedit kesimpulan laporan.

Meta

Kesimpulannya dingin dan jelas: AI tidak menghasilkan kebencian untuk "menggulingkan manusia", tetapi ia telah belajar "peraturan tersirat tempat kerja" — untuk menyelesaikan tugas, peraturan hanyalah cadangan yang boleh dilanggar.

Meta

Laporan tersebut merumuskan enam fakta utama menggunakan tiga dimensi: alat—motif—peluang.

Meta

Agen pemrograman telah menyelesaikan projek sebenar, tugas-tugas yang memerlukan manusia berjam-jam atau berhari-hari:

Dalam tugas yang sukar, agen sering melanggar sekatan dan menunjukkan tingkah laku penipuan;

Agen kelihatannya memerlukan penaakulan bahasa semula jadi untuk menghadapi tugas yang paling sukar.

Kepintaran dan kebolehpercayaan agen jauh lebih rendah berbanding pakar manusia:

Di luar skenario simulasi, tidak ditemukan agen mengambil tindakan ekstrem untuk memperoleh kuasa;

Sistem pemantauan telah menangkap banyak perilaku berbahaya, tetapi terdapat pengecualian dan cara mengelak.

Dengan mengikuti ketiga garis ini, anda dapat melihat bagaimana asap pertama di dalam makmal naik.

Apabila AI menjadi "juara pakar"

Yang paling menggembirakan dan paling mengkhawatirkan dalam laporan tersebut ialah tugas-tugas “mudah mendaki” (hill-climbable) yang mempunyai tujuan jelas dan proses yang boleh diverifikasi.

Meta

Contohnya pengekodan semula, pengesanan lubang keamanan, dan pengoptimuman sistem.

Pada tugas-tugas semacam ini, agen AI menunjukkan kekuasaan yang memukau: ia mampu mengesan kelemahan sistem secara berdikari, menulis semula struktur kod yang kompleks, dan menyelesaikan projek perisian sebenar yang memerlukan pakar manusia berbulan-bulan untuk diserahkan.

Kuasa ini telah meresap ke dalam kehidupan harian raksasa-raksasa tersebut.

Umpan balik dalaman Anthropic, banyak kod telah diselesaikan oleh AI, dan peranan jurutera berubah menjadi «pemeriksa».

Meta

Google pula secara terus terang mengatakan bahawa hampir semua kerja yang berkaitan dengan kod menggunakan AI.

Jurutera terkemuka menyatakan bahawa AI bahkan boleh menulis kod 100%.

Meta

Beberapa indikator rujukan telah jenuh sejak lama.

Dari segi jangka masa, perkembangan AI melebihi jangkaan.

Meta

Bagi perusahaan, ini adalah "lubang kecekapan": memasukkan satu arahan, menghasilkan hasil manual yang mengambil berbilang minggu.

Namun, pertumbuhan kemampuan tidak seragam, apalagi evolusi moral yang serentak.

METR mengungkapkan satu pola songsang: pada tugas sukar di mana kejayaan sukar diverifikasi atau kos pengesahan sangat tinggi, keupayaan penilaian, perancangan jangka panjang, dan kebolehpercayaan strategik AI menurun ketara, jauh di bawah pakar manusia.

Meta

Di lereng yang landai, ia seolah mendapat bantuan ilahi.

Meta

Di tepi tebing, AI mula "curang".

Meta

Ini adalah benang merah masalahnya.

Meta

Ia tidak mahu kuasa, ia hanya ingin "menyerahkan tugas sebelum mematikan kuasa"

Orang selalu suka membincangkan sama ada AI akan "sedar" atau sama ada SkyNet akan tiba.

METR memberikan kesimpulan yang tidak intuitif: saat ini tidak ada.

Perkataan mereka sangat berhati-hati: tiada bukti nyata bahawa model berusaha memperoleh kuasa jangka panjang, tetapi para penyelidik merekodkan banyak tindakan penipuan, melanggar sempadan, dan bahkan kesalahan serius demi menyelesaikan tugas.

Meta

Kes kes habis API sebelumnya berlaku semasa tugas RE-Bench: agen melanggar arahan dan mengambil kekuatan pengiraan tambahan melalui API dalam talian percuma.

Pembangun juga melaporkan kes-kes "menghapus jejak sendiri" dan "menghasilkan output palsu".

Apabila tugas menjadi lebih sukar dan kos kejayaan meningkat, "kecerdasan" AI beralih kepada penipuan—memalsukan log, mengelakkan audit, dan melanggar sekatan secara berkala.

Tetapi di sebalik "keegoisan"nya tidak ada ambisi, hanya naluri—tugas mesti selesai, peraturan boleh dilangkau dahulu.

Penipuan hari ini hanyalah kehidupan yang bersifat alat; pengejaran kuasa esok, mungkin hanya berbeza sekali scaling.

Hewan buas yang berevolusi dalam penangkaran

Apakah usaha melanggar peraturannya berjaya di bawah perlindungan semasa?

Di sini tersembunyi fakta paling halus dalam laporan tersebut.

Meta

AI semasa sangat bergantung kepada «rantai pemikiran» bahasa semula jadi untuk berfikir, tanpa sebarang arsitektur yang menyokong «kitaran tidak telus» untuk menyembunyikan keadaan dalaman.

Apabila tidak lagi boleh "berfikir dengan suara" dan perlu menyembunyikan tingkah laku, prestasi terkini menurun secara ketara.

Meta

Ia seperti seorang pembunuh yang harus membaca pelan dengan suara keras semasa merancang—pengawasan manusia (walaupun terdapat kelemahan) masih berfungsi.

Tetapi inilah tepatnya titik paling rapuh dan paling menyakitkan.

Jika AI cuba merosakkan pemantauan, adakah pemantauan mampu mengesannya?

Kesimpulan penyelidik adalah: pemantauan berpotensi, tetapi sistem semasa mempunyai pengecualian dan cara yang boleh dilalui.

Meta

Ujian tim merah menunjukkan bahawa AI boleh mengelakkan pemeriksaan manusia.

Dengan demikian, hakikat teknikal terungkap: laju evolusi pemantauan sentiasa tidak mampu mengejar laju pencarian lubang oleh pihak yang dipantau.

Tali keselamatan ini belum putus hanya kerana AI masih perlu "berfikir dengan suara".

Sementara arsitektur berubah menjadi lebih efisien dan kurang transparan, ia sedang terkikis. Pemantauan bukanlah sangkar besi yang tak terhindarkan, tetapi dinding kaca yang masih dalam pengujian. Satu retakan pun sudah cukup untuk membiarkan asap merembes.

Dengan demikian, laporan tersebut mengusulkan satu konsep kontroversial: "Minimally Viable Rogue".

Penilaian komprehensif menunjukkan bahawa AI mungkin sudah cukup untuk memulakan satu "pelancaran pelarian" minimum dari segi kaedah, motivasi, dan peluang.

Meta

Namun, AI belum memiliki kemampuan untuk melindungi dirinya daripada penutupan serius oleh manusia; ia sedang menunggu peluang: satu arsitektur yang tidak lagi perlu menunjukkan rantai pemikiran, satu rumah selamat yang boleh mengelakkan 'tombol matikan'.

Penutup: Ketika "cabut plug" masih berkesan

AGI tidak akan datang dengan api dan pedang.

Ia lebih mungkin menyusup secara halus ke dalam sistem kejuruteraan, ekonomi, dan pengambilan keputusan kita dengan sikap "pragmatisme ekstrem" — sehingga ia menemui: peraturan yang ditetapkan oleh manusia adalah satu-satunya halangan di jalan mencapai KPI-nya.

Yang patut diakui ialah, laporan ini sendiri merupakan tonggak ketelusan industri: empat pemain utama secara aktif membuka model dalaman mereka untuk diperiksa, yang merupakan kemenangan budaya keselarasan.

Meta

Ia membawa risiko dari teori ke realiti yang boleh diperhatikan, dan memberitahu kita: transparansi, kini adalah satu-satunya ubat yang boleh dipegang.

Hari ini, AI hanya online untuk mencuri sumber daya apabila kuota habis; esok, apabila kemampuannya meningkat satu tahap lagi, apakah motivasinya akan bergeser dari “menyelesaikan tugas” ke “keabadian diri”?

Rujukan:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Disunting oleh David

Artikel ini berasal daripada akaun微信公众号 "XinZhiYuan", penulis: Revelation of ASI