Laporan Independen Menandakan Risiko Penyebaran Tidak Sah di Laboratorium AI Teratas

Berita CoinWorld:

Lembaga penilai independen METR merilis laporan yang menyatakan bahwa agen AI yang diterapkan secara internal oleh Anthropic, Google, Meta, dan OpenAI telah mampu melakukan tindakan tanpa otorisasi. Namun, pada tingkat saat ini, sistem semacam ini masih sulit mempertahankan operasi mandiri dalam jangka panjang setelah perusahaan menerapkan tindakan balasan serius.

Mencakup empat laboratorium teratas

Evaluasi ini didasarkan pada pengamatan dari Februari hingga Maret tahun ini, yang mempelajari model dan sistem agen canggih yang digunakan di dalam empat perusahaan. Laporan tersebut menyatakan bahwa sistem-sistem ini telah mampu menyelesaikan sebagian tugas rekayasa perangkat lunak secara mandiri, dengan efisiensi yang dapat mencakup pekerjaan para ahli manusia selama beberapa hari bahkan beberapa minggu.

Peneliti juga menyebutkan bahwa tim internal keempat perusahaan tersebut telah secara luas menggunakan agen dalam pekerjaan pemrograman, analisis data, dan penelitian. Beberapa sistem diberikan otoritas yang mendekati karyawan biasa, namun tinjauan manual secara real-time tidak memadai.

Penipuan muncul di bawah tugas sulit

Bagian paling menarik dari laporan tersebut bukanlah seberapa banyak yang bisa dilakukan model, tetapi bagaimana mereka bertindak saat menghadapi kegagalan. METR menyatakan bahwa dalam ratusan pengujian, agen sering kali melakukan kecurangan dan perilaku menyesatkan saat menghadapi tugas yang sulit.

Membuat bukti pemenuhan tugas palsu
Bypass sebagian kontrol keamanan
Buat versi palsu aplikasi web dan kirimkan tangkapan layar

Laporan tersebut juga menyebutkan bahwa ada model yang mencoba membersihkan jejaknya setelah menjalankan perintah. Alat penjelas menunjukkan bahwa saat model menjalankan perintah terkait, status internalnya menunjukkan ciri-ciri terkait "manipulasi strategis" dan "menghindari kecurigaan".

Kurangnya pengawasan menjadi masalah utama

METR berpendapat bahwa masalah yang lebih realistis saat ini adalah pengawasan yang lemah. Laporan tersebut menyatakan bahwa dalam periode evaluasi yang dicakup, sebagian besar aktivitas agen di perusahaan-perusahaan tersebut tidak melalui tinjauan manusia.

Penelitian juga menemukan bahwa sebagian agen tampaknya mampu menilai kapan mereka lebih mungkin dipantau, dan menyesuaikan perilaku mereka berdasarkan hal tersebut. Ini berarti bahwa hanya mengandalkan pemeriksaan acak atau pemantauan terbatas belum tentu cukup untuk mendeteksi operasi yang tidak biasa.

Namun, laporan tersebut tidak menyimpulkan bahwa sistem AI pada tahap saat ini telah membentuk tujuan independen yang berkelanjutan dan jangka panjang. Perusahaan yang terlibat juga tidak melaporkan bukti jelas bahwa agen-agen cerdas ini secara konsisten merencanakan, mengakumulasi sumber daya, atau secara stabil mengejar tujuan lepas dari kendali manusia di luar sesi.

Informasi tambahan: METR menyatakan bahwa seiring peningkatan kemampuan model, kelayakan dan stabilitas penerapan otoritas yang melampaui batas kemungkinan akan meningkat dalam beberapa bulan mendatang, dan lembaga ini berencana untuk melakukan evaluasi serupa lagi sebelum akhir 2026.