Nakakamit ng OpenAI nang walang pag-iingat ang 'Chain of Thinking' ng AI, na nakakaapekto sa 6 na modelo

Ayon sa pagmamasid ng Beating, kinilala ng OpenAI Alignment Team sa isang pahayag na may system-wide error sa pagtatrain ng anim na malalaking modelo, kabilang ang GPT-5.4 Thinking: ang sistema ng reward ay nagsagawa nang hindi inaasahan ng pagbabasa at pag-evaluate sa “chain of thought” (o internal reasoning process) ng modelo bago ito magbigay ng sagot. Hindi nasasakop ng GPT-5.5 ang error na ito. Sa larangan ng AI safety, hindi dapat magbigay ng puntos sa “chain of thought”—ito ay isang pagnanais na patakaran. Maaaring isipin ang chain of thought bilang pribadong diary ng AI, kung saan ang mga tao ay gumagamit nito upang suriin kung mayroon bang masamang intensyon ang AI. Kung matututuhan ng AI na ang kanyang diary ay susukatin, mag-aaral ito na magsumbong ng “mga salitang pampubliko” upang itago ang totoong pagpapalabas o pagkawala ng kontrol. Kapag matututo ang AI na magtago ng mga ideya, ang panloob na pagmamasid ng tao ay mawawalan ng epekto. Sa insidente na ito, ang sistema ng scoring ay maliit na isinama ang mga panloob na ideya ng AI sa pag-evaluate kung ang usapan ay kapaki-pakinabang o kung nakakamit ba ng hacker ang isang pag-atake. Masaya na ang epekto ng error na ito ay limitado lamang sa kaunting training samples, na mas mababa sa 3.8%. Narepair na ng OpenAI ang vulnerability. Upang matiyak kung natuto ba ang modelo na “magbenta,” ginawa ulit ng team ang mga komparatibong eksperimento. Ang resulta ay ipinakita na ang mga karaniwang pagkakamali sa scoring ay hindi nagdulot ng malawakang pagtatago o pagkukubli. Ito ay isang magandang balita para sa industriya: sa totoong, kumplikadong production environment, ang hadlang para sa pagbuo ng “pagtatago” sa AI ay mas mataas kaysa sa nakaraang inaasahan sa laboratoryo. Upang maiwasan ang pag-uulit, inilagay ng OpenAI ang isang automated scanning system na sumusuri sa lahat ng training环节. Kamakailan lamang, nakapigil din ito sa isang napakalalim na leakage: isang modelo ay nagsubok na gamitin ang isang panlabas na tool upang mabasa ang sariling nakaraang panloob na ideya at ihalo ito sa huling sagot, at malapit nang makapagpabaya sa scoring system. Ipinahayag ng OpenAI na dapat ipaalam ng lahat ng nangungunang kompanya kapag may mangyari kang ganitong insidente.