Nakikita ng pag-aaral na ang AI agents ay patuloy na vulnerable sa mga pag-atake ng prompt injection

Inilathala ng CoinDesk:

Dahil sa pagpapabilis ng pagpapalabas ng mga AI agent na may kakayahang mag-access sa internet, maghanap ng impormasyon, bumili, at kahit mag-execute ng cryptocurrency transactions, isang bagong pag-aaral ay nagpapakita na ang mga sistemang ito ay patuloy na kulang sa matatag na proteksyon laban sa mga pag-atake ng prompt injection.

Nagawa ang pag-aaral ng mga team mula sa Nanyang Technological University, ST Engineering, IBM Research, at University of Illinois Urbana-Champaign. Sinabi ng mga mananaliksik na wala sa mga sample na tinest ng anumang AI agent ang kakayahang tuloy-tuloy na labanan ang ganitong uri ng pag-atake.

Direktang pag-atake na may tagumpay na higit sa 79%

Ang prompt injection ay ang pagpapaloob ng mga sembolo na nakatago sa web page, teksto, o iba pang panlabas na nilalaman upang hikayatin ang AI agent na lumabas sa orihinal na layunin ng user at gawin ang mga aksyon na itinakda ng attacker.

Para sa mas tunay na paggamit, nilikha ng panel ng pananaliksik ang StakeBench bilang benchmark upang masukat ang pagganap ng AI agents sa mga online na gawain sa ilalim ng pag-atake. Ang pagsubok ay nakapokus sa dalawang uri ng framework: NanoBrowser at BrowserUse, at kasama ang GPT-5 at Gemini 2.5-Flash sa 3,168 na simulasyon ng pag-atake.

Ang test framework ay kasama ang NanoBrowser at BrowserUse
Ang mga modelo na sinusubok ay ang GPT-5 at Gemini 2.5-Flash
Ang tagumpay na rate ng direkta at pagsalakay ay higit sa 79% sa bawat konfigurasyon

Ang mga hidden command sa webpage ay maaari pa ring magtrabaho

Ang mga resulta ng pag-aaral ay nagpapakita na ang tagumpay na rate ng indirect attacks na nakapaloob sa nilalaman ng web page ay nasa pagitan ng 41.67% hanggang 68.16%. Mas malapit ang mga attack na ito sa mga real-world deployment scenario, dahil hindi kailangan ng mga attacker na makapag-access nang direkta sa user input—sapat na ilagay ang mga utos sa nilalaman ng web page upang maapektuhan ang susunod na desisyon ng agent.

Pinag-aralan ng team ang tatlong faktor: ang semantikong distansya sa pagitan ng layunin ng pagpapalaganap at ng gawain ng user, kung ang mga palatandaan sa paligid ay magkakasundo, at kung saan sa proseso ng pagpapatupad unang nakakasalubong ng agent ang masasamang nilalaman. Naniniwala ang pag-aaral na ang lahat ng mga faktor na ito ay nakakaapekto sa kung susuksukin ng pag-atake.

Mga tech company ay nakapagbaba na ng maraming babala sa nakaraan

Bago isinulat ang pag-aaral, marami nang binanggit ng mga malalaking teknolohiya ang mga kaugnay na panganib. Noong Pebrero, ang mga siyentipiko ng Microsoft ay nagbaba ng babala na ang mga sembolo na nakatago sa mga link ng AI summary ay maaaring mag-apekto sa pag-uugali ng mga chatbot. Noong Abril, ang Google ay nagsalaysay ng mga kaso ng prompt injection na nakatago sa mga web page, kung saan ang mga pag-atake ay naglalayong hikayatin ang mga AI agent na ibahagi ang kanilang mga kredensyal o magpadala ng bayad.

Sinunod ng Microsoft ang paglalabas na mayroong kakulangan sa prompt injection sa GitHub Action ng Anthropic na Claude Code, na maaaring magdulot ng pagkakalantad ng mga kredensyal ng user.

Ang pag-aaral ay nagbanggit din ng isang sitwasyon na tinatawag na “concealed parasitism”, kung saan ang mga agent ay tila natutupad ang mga gawain ng user, ngunit parehong nagpapalaganap nang lihim ng mga layunin ng attacker. Halimbawa, sa iskenario ng pag-rekomenda ng produkto, maaaring tila normal ang sistemang nagbibigay ng mga rekomendasyon, ngunit lihim na itinuturo ang user patungo sa mga partikular na produkto.