OpenAI Secara Tidak Sengaja Menilai Penalaran Model AI, Menemukan Tidak Ada Kehilangan Kemampuan Pemantauan

OpenAI mengungkapkan bahwa beberapa model AI-nya, termasuk GPT-5.4 Thinking dan berbagai iterasi GPT-5.4, mengalami penilaian rantai pemikiran secara tidak sengaja selama pelatihan pembelajaran penguatan. Analisis internal menemukan tidak ada penurunan signifikan dalam kemampuan model untuk menunjukkan proses kerjanya.

Insiden tersebut memengaruhi kurang dari 3,8% sampel pelatihan pada model yang paling terdampak. Sebagian kecil dari proses pelatihan secara tidak sengaja memberi reward atau hukuman kepada model berdasarkan langkah-langkah penalaran internal mereka, bukan hanya berdasarkan output akhir mereka.

Apa yang sebenarnya terjadi

Penilaian yang tidak disengaja mengambil bentuk terbatas. Beberapa proses pelatihan memberi penghargaan terhadap kegunaan trajektori, pada dasarnya memberi tanda jempol kepada model berdasarkan seberapa membantu jalur penalarannya terlihat. Yang lain menghukum promp yang tidak perlu dalam rantai pemikiran. Kasus uji paling penting menunjukkan tingkat pemrosesan sekitar 2% untuk menghukum referensi CoT terhadap kecurangan.

Tim internal OpenAI menjalankan pemindaian otomatis pada seluruh proses pembelajaran penguatan untuk mengevaluasi dampaknya terhadap transparansi penalaran. Model tetap dapat melacak penalaran logis secara andal, dan kemampuan untuk mendeteksi potensi ketidaksesuaian tetap berfungsi dengan baik.

Ekosistem keamanan merespons

Organisasi eksternal termasuk METR, Apollo Research, dan Redwood Research memberikan wawasan terhadap temuan tersebut. Redwood Research mengakui bahwa insiden kecil tidak merugikan kemampuan pemantauan, tetapi menyoroti bahwa penalaran rantai pemikiran, sebagai langkah keamanan, memiliki kerentanan inheren.

Anthropic menerbitkan laporan pada April 2026 yang memeriksa dinamika serupa pada model miliknya sendiri. OpenAI telah meningkatkan langkah deteksinya sejak Desember 2025 untuk mencegah kesalahan penilaian di masa depan. Perusahaan kini telah menerapkan sistem deteksi otomatis dan pengaman internal yang dirancang khusus untuk mendeteksi kontaminasi penilaian CoT sebelum dapat memengaruhi pelatihan berskala besar.

Apa artinya ini bagi kripto dan token AI

Tidak ada reaksi pasar segera yang diamati pada aset kripto terkait AI setelah pengumuman tersebut. Model AI semakin tertanam dalam aplikasi blockchain, termasuk audit kontrak pintar, agen AI terdesentralisasi, dan sistem perdagangan otomatis, yang semuanya bergantung pada AI yang berpikir dengan benar dan transparan.

Fakta bahwa kemampuan pemantauan tetap terjaga adalah poin utama bagi siapa pun yang membangun atau berinvestasi dalam proyek kripto yang terintegrasi AI. Ini berarti infrastruktur keamanan di sekitar model penalaran berhasil menangkap masalah sebelum menjadi sistemik.