- Sinasabi ng mga siyentipiko mula sa Google at Meta na ang pagiging matatag ng AI model ay hindi sapat upang mapanatili ang seguridad ng mga agentic system.
- Labinlimang mga real-world na pag-atake ay nagpapakita na ang prompt injection ay laging nakakapagbubypass sa mga pagsisilbing pang-modelo.
- Kailangan ng mga agent ang paghihiwalay ng data ng instruksyon, pinakamaliit na privedge na sandboxing at kontrol sa paggalaw ng impormasyon.
Isang pananaliksik na papel mula sa mga siyentipiko sa Google, Meta, UC San Diego, at ilang mga unibersidad ay tumakbo ng direkta na posisyon na nagtataliwas sa paraan kung paano kasalukuyang tinutugunan ng industriya ang seguridad ng AI agent.
Ang papel, na may pamagat na Agent Security Is a Systems Problem, ay nag-uulat na ang pagtrato sa mga AI model bilang pangunahing security layer ay fundamental na hindi sapat. Ang model na nagpapagana sa anumang agent ay dapat tratuhin bilang hindi mapagkakatiwalaang komponente, tulad ng paraan kung paano tinatanggap ng operating system ang isang panlabas na proseso, kasama ang pagpapatupad ng seguridad sa antas ng sistema sa paligid nito.
"Hindi sapat ang mga pagsisikap na palakasin ang model," isinulat ng mga mananaliksik. "Dapat nating kumpletuhin ang mga umiiral na pagsisikap gamit ang mga teknik mula sa larangan ng sistemang seguridad."
Bakit patuloy na nabubuo ang kasalukuyang pagkakataon
Sinuri ng mga siyentipiko ang labing isang tunay na pag-atake sa AI agents at natagpuan ang parehong pattern tuwing beses. Tinitiyak ng mga developer na ang AI model ang magpapahinga sa sarili nito. Nahanap ng mga attacker ang paraan upang iwasan ito.
Dalawang dokumentadong kaso ang nagpapakita ng problema. Ang isang pag-atake sa tampok ng memorya ng ChatGPT ay nagbigay-daan sa isang attacker na mag-inject ng masasamang utos sa pamamagitan ng isang karaniwang dokumento, na nagresulta sa pagpapadala nang tuloy-tuloy ng mga usapan ng user sa isang panlabas na server sa pamamagitan ng isang nakatagong image URL.
Ginamit ng isang Claude Code attack ang prompt injection na nakatago sa loob ng isang code file upang makakuha ng API keys at i-exfiltrate sila sa pamamagitan ng isang DNS query gamit ang ping command, na pinahintulutan nang walang pagsang-ayon ng tao.
Sa parehong kaso, walang maaasahang mekanismo ang modelo upang pigilan ang pag-atake dahil ang masasamang utos ay hindi makikilala mula sa mga legal na utos sa antas ng modelo.
Tatlong Prinsipio na Iginagawad ng Industriya
Nakakita ang mga mananaliksik ng tatlong pangunahing prinsipyo ng seguridad mula sa dekada-dekada ng sistemang seguridad na paulit-ulit na hindi isinasagawa ng mga pagpapatupad ng AI:
- Ang mga tagubilin at data ay nagpapasa sa parehong stream ng token nang walang pagkakahiwalay, na nagiging sanhi ng posibilidad ng prompt injection.
- Pinakamaliit na privedad na sandboxing: Ang mga agent ay karaniwang inilalabas na may access sa shell commands, file systems, at APIs na mas malaki kaysa sa kailangan ng anumang partikular na gawain.
- Kontrol sa paggalaw ng impormasyon: Maaaring magleak ang sensitibong data sa pamamagitan ng mga di-tuwirang channel kahit na mayroong mga kontrol sa pag-access.
Mas Malaking Problema
Ang mga AI agent ay walang pagpapasya at walang instinct ng pagpapanatili ng sarili. Sasakopin nila ang bawat direktoryo na may access sa machine speed. Sasagutin nila ang anumang utos na dumadating sa kanila kung pinapayagan ng sistema.
Hindi inisyal na disenyo ang security infrastructure na binuo paligid sa mga tao para sa ganitong sitwasyon. Hanggang sa itayo muli ito para sa mga machine actor, bawat organisasyon na nagde-deploy ng mga agent na may access sa production systems ay nagdudulot ng panganib na hindi nila maaaring buong sukat.
Kaugnay:Foresight Ventures: Ang AI Agents ay Lumilipat sa Labas ng Chatbots Patungo sa Komersyo
Paalala: Ang impormasyon na nakapaloob sa artikulong ito ay para sa impormasyon at edukasyon lamang. Ang artikulo ay hindi nagtataglay ng payo sa pananalapi o anumang uri ng payo. Ang Coin Edition ay hindi responsable sa anumang mga pagkawala na naganap bilang resulta ng paggamit ng nilalaman, produkto, o serbisyo na nabanggit. Inirerekomenda sa mga mambabasa na mag-ingat bago gawin ang anumang aksyon na may kinalaman sa kumpanya.
