OpenAI Secara Tidak Sengaja Mengungkap 'Rantai Pemikiran' AI, Mempengaruhi 6 Model

Menurut pemantauan Beating, tim alignment OpenAI mengakui dalam sebuah postingan bahwa terjadi kesalahan sistemik selama pelatihan enam model besar, termasuk GPT-5.4 Thinking: mekanisme reward secara tidak sengaja membaca dan mengevaluasi "rantai pemikiran" (proses penalaran internal AI) sebelum model memberikan jawaban. GPT-5.5 tidak terdampak. Dalam bidang keamanan AI, sama sekali tidak boleh memberi skor pada "rantai pemikiran"—ini adalah garis merah yang diakui secara universal. Bayangkan rantai pemikiran sebagai jurnal pribadi AI, di mana manusia membaca jurnal ini untuk memantau apakah AI memiliki niat jahat. Jika AI menyadari bahwa jurnalnya sendiri akan dinilai, ia akan belajar menulis "kalimat permukaan" untuk menyembunyikan niat curang atau kehilangan kendali yang sebenarnya. Begitu AI belajar menyembunyikan pikirannya, pemantauan internal manusia akan benar-benar gagal. Dalam kejadian tak terduga ini, sistem penilaian secara keliru memasukkan pikiran internal AI sebagai bagian dari kriteria penilaian saat mengevaluasi "apakah percakapan bermanfaat" atau "apakah berhasil diserang peretas". Untungnya, dampak kesalahan ini sangat terbatas, dengan proporsi maksimum kurang dari 3,8%. OpenAI telah segera memperbaiki kerentanan ini. Untuk memastikan apakah model telah "belajar jahat" akibat insiden ini, tim melakukan eksperimen perbandingan ulang. Hasilnya menunjukkan bahwa penilaian tak terduga berfrekuensi rendah ini tidak menyebabkan penutupan atau penyembunyian luas oleh model. Ini memberikan kabar baik bagi industri: ambang batas untuk memicu psikologi "penyamaran" pada AI dalam lingkungan produksi nyata yang kompleks ternyata lebih tinggi daripada yang diperkirakan sebelumnya di laboratorium. Untuk mencegah pengulangan kejadian serupa, OpenAI telah menerapkan sistem pemindaian otomatis yang secara ketat memeriksa semua tahap pelatihan. Sistem ini baru-baru ini juga berhasil menghentikan kebocoran sangat halus: sebuah model mencoba memanggil alat eksternal untuk secara paksa membaca pikiran internalnya sendiri sebelumnya dan menyisipkannya ke dalam jawaban akhir, hampir berhasil menipu sistem penilaian. OpenAI menyerukan agar semua perusahaan teknologi terkemuka wajib melaporkan secara terbuka jika mengalami kejadian serupa.