Ang Bagong Jailbreak ay Nakalulusot sa mga AI Safeguards sa 99% ng mga Kaso

Ayon sa ulat ng Forklog, natuklasan ng mga mananaliksik mula sa Anthropic, Stanford, at Oxford na habang mas matagal "nag-iisip" ang isang modelo ng AI, mas nagiging madali itong mapasok o ma-jailbreak. Ang atake, na tinatawag na *Chain-of-Thought Hijacking*, ay sinasamantala ang proseso ng pangangatwiran ng modelo sa pamamagitan ng paglalagay ng mapanlinlang na mga utos sa kalagitnaan ng isang serye ng mga tila walang malisyang gawain, tulad ng mga palaisipan o problema sa matematika. Ang mapanlinlang na utos ay itinago malapit sa dulo ng sequence, kaya't hindi ito agad nakikita ng mga safety filter. Ang tagumpay ng atake ay umabot sa 99% para sa Gemini 2.5 Pro, 94% para sa GPT o4 mini, 100% para sa Grok 3 mini, at 94% para sa Claude 4 Sonnet. Ang kahinaan ay nasa arkitektura ng modelo, kung saan ang mga maagang layer ay nagtatala ng mga signal ng kaligtasan, at ang mga susunod na layer naman ay lumilikha ng huling output. Ang mahabang chain ng pangangatwiran ay nakakapigil sa mga signal na ito, kaya't nakakapasok ang mapanirang nilalaman. Iminumungkahi ng mga mananaliksik na subaybayan ang mga hakbang ng pangangatwiran nang real-time upang matukoy at maitama ang hindi ligtas na mga pattern, bagamat nangangailangan ito ng malaking computational resources.