OpenAI Secara Tidak Sengaja Menilai Penalaran Model AI, Mendapati Tiada Kehilangan Keterpantauan

OpenAI mengungkapkan bahawa beberapa model AI-nya, termasuk GPT-5.4 Thinking dan pelbagai iterasi GPT-5.4, mengalami penilaian rantai pemikiran secara tidak sengaja semasa latihan pembelajaran penguatan. Analisis dalaman mendapati tiada penurunan yang signifikan dalam kemampuan model untuk menunjukkan kerja mereka.

Kejadian-kejadian tersebut memberi kesan kepada kurang daripada 3.8% sampel latihan dalam model yang paling terkesan. Sebahagian kecil proses latihan secara tidak sengaja memberi ganjaran atau hukuman kepada model berdasarkan langkah-langkah penalaran dalaman mereka, bukan semata-mata output akhir mereka.

Apa yang sebenarnya berlaku

Penskoran yang tidak disengaja mengambil bentuk yang terhad. Sesetengah latihan memberi ganjaran kepada kebergunaan trajektori, pada dasarnya memberi tanda jempol kepada model berdasarkan sejauh mana laluan penaakulan mereka kelihatan membantu. Yang lain menghukum pemicu yang tidak perlu dalam rantai pemikiran. Kes ujian yang paling ketara menunjukkan kadar pemecah kira-kira 2% untuk menghukum rujukan CoT terhadap kecurangan.

Pasukan dalaman OpenAI menjalankan pemindaian automatik ke atas semua larian pembelajaran penguatan untuk mengkaji kesan terhadap kejelasan penaakulan. Model masih mampu melacak penaakulan logik dengan boleh dipercayai, dan keupayaan untuk mengesan kemungkinan ketidakselarasan tetap utuh secara fungsional.

Ekosistem keselamatan bertindak balas

Organisasi luar termasuk METR, Apollo Research, dan Redwood Research menyumbang wawasan kepada dapatan. Redwood Research mengakui bahawa insiden kecil tidak merosakkan kebolehpantauan tetapi menandakan bahawa penaakulan rantai-pemikiran, sebagai langkah keselamatan, mempunyai kerentanan intrinsik.

Anthropic menerbitkan laporan pada April 2026 yang mengkaji dinamik serupa dalam model miliknya sendiri. OpenAI telah meningkatkan langkah-langkah pengesannya sejak Disember 2025 untuk mencegah ralat penilaian di masa depan. Syarikat ini kini telah melaksanakan sistem pengesanan automatik dan langkah-langkah keselamatan dalaman yang direka khas untuk mengesan pencemaran penilaian CoT sebelum ia mempengaruhi latihan dalam skala besar.

Apa yang ini maksudkan untuk token kripto dan AI

Tiada tindakan pasaran segera diperhatikan terhadap aset kripto yang berkaitan dengan AI selepas pengumuman tersebut. Model AI semakin ditanamkan dalam aplikasi blok rantai, termasuk audit kontrak pintar, agen AI terdesentralisasi, dan sistem dagangan automatik, semua yang bergantung kepada AI yang berfikir dengan betul dan telus.

Fakta bahawa keterlihatan tetap terpelihara adalah kesimpulan utama bagi sesiapa yang membina atau berinvestasi dalam projek kripto yang mengintegrasikan AI. Ia bermaksud infrastruktur keselamatan sekitar model penalaran menangkap masalah sebelum ia menjadi sistemik.