Nakakamali ang OpenAI sa pagmamarka ng pag-iisip ng mga modelo ng AI, natuklasan na walang pagbaba sa pagmamonitor

Ipinahayag ng OpenAI na ang ilan sa kanilang AI models, kabilang ang GPT-5.4 Thinking at iba’t ibang GPT-5.4 iterations, ay nakaranas ng aksidental na chain-of-thought grading habang nagpapatupad ng reinforcement learning training. Ang mga panloob na pagsusuri ay naghayag na walang malaking pagbaba sa kakayahan ng mga model na ipakita ang kanilang proseso.

Ang mga insidente ay nakaaapekto sa higit sa 3.8% ng mga sample sa pagtatraining sa mga pinaka-apektadong modelo. Isang maliit na bahagi ng proseso ng pagtatraining ay nagsanay o nagsanay ng mga modelo nang walang kamalayan batay sa kanilang mga panloob na hakbang sa pag-iisip, kaysa sa kanilang mga huling output lamang.

Ano talaga ang nangyari

Ang pagkakamaling pagmamarka ay nagsanay sa limitadong anyo. Ilan sa mga pagpapatakbo ng pagtuturo ay nagbigay ng pagpapahalaga sa kapaki-pakinabang ng trajektoriya, na praktikal na nagbibigay ng thumbs-up sa mga modelo para sa kung gaano kahelp ang kanilang mga daan ng pag-iisip. Ang iba ay nagpaparusa sa hindi kinakailangang mga paalala sa loob ng chuun ng pag-iisip. Ang pinakamakabuluhang kaso ng pagsusulit ay ipinakita ang halos 2% na rate ng pagpaparusa sa mga pagbanggit sa CoT tungkol sa pang-aabuso.

Ang loob na tim ng OpenAI ay nag-run ng automated na scan sa lahat ng kanilang reinforcement learning runs upang suriin ang epekto sa transparensya ng pag-iisip. Maaari pa ring tiyak na tugunin ng mga modelo ang lohikal na pag-iisip, at nanatiling buo ang kakayahang matukoy ang posibleng misalignment.

Sumasagot ang safety ecosystem

Ang mga panlabas na organisasyon kabilang ang METR, Apollo Research, at Redwood Research ay nagbigay ng mga pananaw para sa mga natuklasan. Kilala ng Redwood Research na ang mga maliitang insidente ay hindi nagdulot ng pinsala sa kakayahang masubaybayan, ngunit binigyang-pansin na ang chain-of-thought reasoning, bilang pagsasagawa ng kaligtasan, ay may mga likas na kahinaan.

Ipinakalabas ni Anthropic ang isang ulat noong Abril 2026 na pinag-aralan ang mga katulad na dinamika sa kanilang sariling mga modelo. Nagpapalakas ang OpenAI ng kanilang mga pagsusuri mula noong Disyembre 2025 upang pigilan ang mga pagkakamali sa paggrada sa hinaharap. Ngayon ay isinagawa na ng kumpanya ang automated na mga sistema ng pagkakakilanlan at panloob na mga pag-iingat na espesipikong disenyo upang matuklasan ang kontaminasyon sa CoT grading bago ito makaimpluwensya sa pagtuturo sa malawakang saklaw.

Ano ang ibig sabihin nito para sa crypto at AI tokens

Hindi nakita ang agad na reaksyon sa merkado sa mga AI-related na crypto asset pagkatapos ng pagpapahayag. Ang AI models ay lalong pinagsasama sa mga blockchain application kabilang ang mga smart contract audit, decentralized AI agents, at automated trading systems, na lahat ay nakasalalay sa AI na nagrereason nang tama at transparyenteng.

Ang katotohanan na nanatili ang kakayahang masubaybayan ay ang pangunahing aral para sa sinumang nagbuo o nag-invest sa mga proyektong crypto na may integrasyon ng AI. Ibig sabihin nito ay ang mga sistema ng kaligtasan sa paligid ng mga modelo ng pag-iisip ay nakakatanggap ng mga problema bago ito maging sistemiko.