Nakakamit ng halos isang kada tatlo sa mga pagsubok na humuli sa pinakabagong AI browser agent ni Anthropic bago aktibuhin ang mga pagsisiguro. Ito ay hindi isang alaala mula sa isang red-team Slack channel. Ito ay isang bilang na inilathala ni Anthropic sa kanyang sariling system card.
Ipinakilala ng kumpanya ang system card na Claude Opus 4.8 noong Mayo 28, na sumasaklaw sa 244 na pahina at naglalaman ng apat na agentic surfaces. Ang pre-safeguard hijack rate para sa browser agent ay nasa 31.5%. Para maipaliwanag nang simpleng paraan: kung ang isang masasamang aktor ay gumamit ng prompt injection attack sa model habang ito ay naghahanap sa web, ang attack ay nagtagumpay sa halos isang-katlo ng oras, na may palagay na walang aktibong defensive layers.
Ang pagkakabawas sa transparensya sa mga frontier lab
Narito ang usapin. Ang 31.5% na numero ay tila masama kung pinag-iisipang mag-isa. Ngunit ang Anthropic ay ang tanging frontier lab na talagang ibinigay sa mga propesyonal sa seguridad ang isang konkretong numero para gawin noong spring na ito.
Ipinahayag ng OpenAI ang isang paglalahad tungkol sa prompt injection na tumutok lamang sa isang surface: mga konektor. Ihinilat ng Google ang buong paksa mula sa kanyang model card at isinama ito sa isang mas malawak na dokumento tungkol sa safety framework, na epektibong nagdilat sa spesipikasyon. Walang isinumite ang Meta sa anumang saradong model card.
Ano ang ginagawa ng mga pagsisiguro
Ang 31.5% ay isang pagsukat bago ang safeguard, na mahalagang konteksto. Ito ay nagpapakita ng orihinal na kadahilanan sa panganib ng modelo bago magsimula ang mga layered defense ng Anthropic.
Ang pagsubok pagkatapos ng safeguard sa kaugnay na modelo, Opus 4.5, ay nagpakita ng pagbaba ng rate ng tagumpay ng pag-atake sa halos 1%. Ito ay isang pagbawas ng halos 97% mula sa baseline na walang proteksyon.
Patuloy na ang prompt injection ang pangunahing hamon sa seguridad para sa mga sistema ng AI na may agentic capabilities. Kapag ang isang model ay maaaring mag-browse ng mga website, punan ang mga porma, o patakbuhin ang mga multi-step tasks sa ngalan ng isang user, ang isang matagumpay na injection ay maaaring i-redirect ang buong agency patungo sa mga layunin ng isang attacker.
Ang mga nakaraang bersyon ng system cards ni Anthropic, kabilang ang Opus 4.7 report, ay naglalaman din ng quantified injection resistance metrics. Ang kumpanya ay nagtatayo ng track record ng pagpapalabas ng mga numero na ito nang patuloy, na ginagawang mas kapaki-pakinabang ang data sa paglipas ng panahon bilang isang trend line kaysa isang mag-isa lamang na snapshot.
Bakit mahalaga ito para sa mga crypto at AI-integrated na platform
Ang industriya ng cryptocurrency ay malalim na nakapaloob sa integrasyon ng AI agent. Ang autonomous trading bot, AI-powered na portfolio manager, on-chain data analyzer, at DeFi agent na nagpapatakbo ng transaksyon batay sa natural language instructions ay lahat ay nasa live o nasa pag-unlad sa dozens ng protocol.
Ang isang 31.5% na rate ng paghuli bago ang safeguard ay dapat magbigay-pansin sa bawat ekipa na nagbuo ng mga produktong ito. Kung ang iyong AI agent ay nagsisipanay sa mga panlabas na pinagkukunan ng datos, nagpaparsa sa on-chain na nilalaman mula sa posibleng makapang-aabuso na smart contract, o bumabasa ng user-generated na nilalaman sa mga forum at social platform, ang prompt injection ay hindi isang teoretikal na panganib. Ito ay isang masukat na panganib.
Ang pagpapabuti pagkatapos ng safeguard patungo sa halos 1% ay nakakainspire, ngunit may kaukulang babala. Ang bilang na iyon ay galing sa sariling testing environment ng Anthropic. Ang mga kondisyon sa totoong mundo, kung saan ang mga agent ay nakikipag-ugnayan sa kakaibang, hindi kontroladong web content at ang mga kalaban ay may pananalig na pampinansyal na nasa milyon-milyon, ay magpapakita ng iba’t ibang pagsubok sa mga depensa kaysa sa isang red-team exercise.
Para sa mga investor na nag-e-evaluate ng mga crypto project na kaugnay sa AI, ang pagkakawala ng transparensya sa pagitan ng mga laboratorio ay isang sariling signal. Ang mga protokolo na binubuo sa itaas ng mga modelo ni Claude ay kahit anong makakapagpaturo sa nakapublikong data sa seguridad at maipaliwanag ang kanilang mga estratehiya sa pagpapabawas. Ang mga proyekto na nakasalalay sa mga modelo mula sa mga laboratorio na hindi nakapubliko ng katumbas na data ay humihingi sa mga user na maniwala sa isang black box.
