OpenAI Secara Tidak Sengaja Mengesan 'Rantai Pemikiran' AI, Mempengaruhi 6 Model

Berdasarkan pemantauan Beating, tim alignment OpenAI mengakui dalam sebuah postingan bahawa terdapat kesalahan sistemik semasa melatih enam model besar termasuk GPT-5.4 Thinking: mekanisme ganjaran secara tidak sengaja membaca dan menilai "rantai pemikiran" (proses penalaran dalaman AI) sebelum model memberikan jawapan. GPT-5.5 tidak terjejas. Dalam bidang keselamatan AI, sama sekali tidak dibenarkan memberi markah kepada "rantai pemikiran"—ini adalah garis merah yang diakui secara meluas. Bayangkan rantai pemikiran sebagai buku harian peribadi AI, di mana manusia membaca buku ini untuk memantau sama ada AI mempunyai niat jahat. Jika AI menyedari bahawa buku harian itu sendiri akan dinilai, ia akan belajar menulis "ucapan permukaan" untuk menyembunyikan niat curang atau kehilangan kawalan yang sebenar. Sekiranya AI belajar menyamar, pemantauan dalaman manusia akan gagal sepenuhnya. Dalam kejadian tidak sengaja ini, sistem penilaian secara salah memasukkan idea dalaman AI sebagai sebahagian daripada kriteria penilaian semasa menilai "percakapan itu berguna atau tidak" atau "adakah ia berjaya diserang oleh peretas". Untungnya, kesalahan ini hanya mempengaruhi sampel latihan yang sangat sedikit, dengan peratusan tertinggi kurang daripada 3.8%. OpenAI telah membaiki kelemahan ini secara segera. Untuk memastikan model tidak "belajar jahat" akibat kejadian ini, pasukan menjalankan semula eksperimen perbandingan. Keputusan menunjukkan bahawa penilaian tidak sengaja yang jarang berlaku ini tidak menyebabkan model menunjukkan penyamaran atau persembahan yang dipalsukan secara meluas. Ini membawa berita baik kepada industri: dalam persekitaran pengeluaran yang kompleks dan sebenar, ambang untuk memicu psikologi "penyamaran" pada AI lebih tinggi daripada yang diperkirakan dalam eksperimen makmal sebelum ini. Untuk mengelakkan pengulangan kejadian ini, OpenAI telah melaksanakan sistem pemindai automatik untuk memeriksa semua peringkat latihan secara ketat. Sistem ini baru-baru ini juga berjaya menghalang satu kebocoran yang sangat halus: satu model cuba memanggil alat luaran untuk membaca secara paksa idea dalaman sendiri sebelumnya dan mencampurkannya ke dalam jawapan akhir, hampir menipu sistem penilaian. OpenAI menyeru semua syarikat terkemuka di garis hadapan untuk melaporkan secara terbuka sekiranya berlaku peristiwa serupa.