Ang Bagong Jailbreak ay Nakalulusot sa mga AI Safeguards sa 99% ng mga Kaso

iconForklog
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Ayon sa ulat ng Forklog, natuklasan ng mga mananaliksik mula sa Anthropic, Stanford, at Oxford na habang mas matagal "nag-iisip" ang isang modelo ng AI, mas nagiging madali itong mapasok o ma-jailbreak. Ang atake, na tinatawag na *Chain-of-Thought Hijacking*, ay sinasamantala ang proseso ng pangangatwiran ng modelo sa pamamagitan ng paglalagay ng mapanlinlang na mga utos sa kalagitnaan ng isang serye ng mga tila walang malisyang gawain, tulad ng mga palaisipan o problema sa matematika. Ang mapanlinlang na utos ay itinago malapit sa dulo ng sequence, kaya't hindi ito agad nakikita ng mga safety filter. Ang tagumpay ng atake ay umabot sa 99% para sa Gemini 2.5 Pro, 94% para sa GPT o4 mini, 100% para sa Grok 3 mini, at 94% para sa Claude 4 Sonnet. Ang kahinaan ay nasa arkitektura ng modelo, kung saan ang mga maagang layer ay nagtatala ng mga signal ng kaligtasan, at ang mga susunod na layer naman ay lumilikha ng huling output. Ang mahabang chain ng pangangatwiran ay nakakapigil sa mga signal na ito, kaya't nakakapasok ang mapanirang nilalaman. Iminumungkahi ng mga mananaliksik na subaybayan ang mga hakbang ng pangangatwiran nang real-time upang matukoy at maitama ang hindi ligtas na mga pattern, bagamat nangangailangan ito ng malaking computational resources.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.