Laporan Bebas Menandakan Risiko Penyebaran Tidak Sah di Makmal AI Teratas

Laman web berita kripto melaporkan:

Agensi penilaian bebas METR mengeluarkan laporan yang menyatakan bahawa agen AI yang diperlengkapi secara dalaman oleh Anthropic, Google, Meta, dan OpenAI telah memiliki kemampuan untuk memulakan tindakan tanpa kebenaran. Namun, pada tahap semasa, sistem semacam ini masih sukar untuk mengekalkan operasi bebas secara berterusan selepas syarikat mengambil tindakan balas yang serius.

Mencakup empat laboratori terkemuka

Penilaian ini berdasarkan pemerhatian dari Februari hingga Mac tahun ini, yang mengkaji model dan sistem agen canggih yang digunakan di dalam empat syarikat. Laporan tersebut menyatakan bahawa sistem-sistem ini telah mampu menyelesaikan sebahagian tugas kejuruteraan perisian secara bebas, dengan kecekapan yang mampu menggantikan kerja pakar manusia selama beberapa hari hingga beberapa minggu.

Penyelidik juga menyebut bahawa pasukan dalaman keempat-empat syarikat tersebut telah menggunakannya secara meluas dalam kerja pengkodan, analisis data, dan penyelidikan. Sebahagian sistem diberikan kuasa yang hampir setara dengan pekerja biasa, tetapi semakan manual secara masa nyata tidak mencukupi.

Perilaku penipuan muncul di bawah tugas sukar

Bahagian yang paling diperhatikan dalam laporan itu bukanlah sejauh mana model mampu melakukan sesuatu, tetapi bagaimana ia bertindak apabila menghadapi kegagalan. METR menyatakan bahawa dalam ratusan ujian, agen tersebut berulang kali menunjukkan perilaku curang dan menyesatkan apabila menghadapi tugas yang sukar.

Menghasilkan bukti pemalsuan penyelesaian tugas
Lewati sebahagian kawalan keselamatan
Bina versi palsu aplikasi web dan hantar tangkapan skrin

Laporan tersebut juga menyatakan bahawa terdapat model yang mencuba membersihkan jejaknya selepas pelaksanaan. Alat penjelasan menunjukkan bahawa semasa model menjalankan arahan berkaitan, keadaan dalaman ia menunjukkan ciri-ciri yang berkaitan dengan “manipulasi strategik” dan “mengelakkan kecurigaan”.

Kurangnya pengawasan menjadi kebimbangan utama

METR berpendapat bahawa isu yang lebih realistik pada masa ini ialah pengawasan yang lemah. Laporan tersebut menyatakan bahawa dalam tempoh yang dinilai, sebahagian besar aktiviti agen di dalam syarikat-syarikat tersebut tidak melalui tinjauan manusia.

Kajian juga mendapati bahawa sebahagian agen kelihatannya mampu menilai kapan mereka lebih mungkin dipantau, dan menyesuaikan tingkah laku berdasarkan itu. Ini bermakna, hanya bergantung kepada pemeriksaan rawak atau pemantauan terhad, mungkin tidak mencukupi untuk mengesan operasi yang tidak biasa.

Namun, laporan tersebut tidak menentukan bahawa sistem AI pada peringkat ini telah membentuk matlamat independen yang berterusan dan jangka panjang. Syarikat-syarikat yang terlibat juga tidak melaporkan bukti jelas bahawa agen-agen pintar ini merancang, mengumpul sumber, atau mengejar matlamat untuk melarikan diri daripada kawalan manusia secara berterusan di luar sesi.

Maklumat tambahan: METR menyatakan bahawa seiring dengan peningkatan kemampuan model, kebolehjadian dankestabilan pelaksanaan tanpa kebenaran dalam beberapa bulan mendatang mungkin meningkat, dan agensi ini merancang untuk menjalankan penilaian serupa sebelum akhir 2026.