Habang pinapaloob ng mga negosyo ang malalaking modelo sa mga proseso ng customer service, programming, at finance, mas maraming pagmamasid ang natanggap ang mga problema tulad ng walang kontrol na output ng modelo, pagkawala ng sensitibong impormasyon, at paggawa ng mga aksyon nang walang pahintulot. Ang White Circle, isang startup sa AI security na may pangunahang tanggapan sa Paris, ay nakakumpleto ng isang seed funding na halagang $11 milyon upang magdagdag ng isang real-time control system sa pagitan ng mga enterprise user at ang modelo.
Mula sa mga tagapag-ayos ng AI na marami
Ang mga tagasuporta sa pagsasagawa ng pagsasapalaran na ito ay kasama si Romain Huet, pangulo ng developer experience ng OpenAI; si Durk Kingma, kasalukuyang researcher ng Anthropic at co-founder ng OpenAI; si Guillaume Lample, co-founder at chief scientist ng Mistral; at si Thomas Wolf, co-founder at chief science officer ng Hugging Face.
Ipinahayag ng White Circle na gagamitin ang pondo para sa pagpapalawak ng team, pagpapabilis ng pag-unlad ng produkto, at pagpapalawak sa mga customer sa Estados Unidos, United Kingdom, at Europa. Kasalukuyang mayroon ang kumpanya ng halos 20 na empleyado na nakatira sa London, France, Amsterdam, at iba pang lugar, na karamihan ay mga inhinyero.
Magdagdag ng isang real-time interception layer sa labas ng model
Ang posisyon ng produkto ng White Circle ay ang pag-deploy ng isang real-time execution system sa pagitan ng mga enterprise user at AI models. Ang platform ay magpapatuloy na susuriin ang mga input at output batay sa mga patakaran na itinakda ng enterprise. Kung subukan ng user na lumikha ng malware, scam content, o iba pang受限 na impormasyon, ang sistema ay maaaring direktang block o i-mark.
Sinasabi ng kumpanya na maaari ring gamitin ang sistema para matukoy ang model hallucination, paglabas ng sensitibong data, hindi awtorisadong pangako sa refund, at mga pinsalang pagkilos ng AI agent sa software environment. Ang pangunahing ideya ay hindi lamang mag-asa sa paggawa ng pangkalahatang pagtutuwid sa seguridad ng mga tagapaglikha ng modelo sa panahon ng pagtuturo, kundi ipaglalapat ng mga negosyo ang kanilang sariling mga patakaran kung anong mga pagkilos ang pinapayagan at anong mga pagkilos ay dapat pigilan sa kanilang sariling negosyo environment.
Si Shilov ay naniniwala na ang panganib ay malinaw na lumalawak habang ang mga negosyo ay lumilipat mula sa mga chatbot patungo sa mga AI agent na kayang magexecute ng mga gawain. Ang mga sistema na ito ay hindi lamang nakakagawa ng teksto, kundi maaari ring sumulat ng code, mag-access sa mga file, mag-browse sa web, at kahit na mag-eksekute ng mga aksyon para sa mga gumagamit.
Ang alerto ng jailbreak ay nagbigay ng inspirasyon para sa pagbuo ng negosyo
Itinatag ng Denis Shilov ang White Circle. Sa dulo ng 2024, nilikha niya ang isang maaaring gamitin muli na “pangkalahatang jailbreak” prompt na naglalayong iwasan ang mga seguridad na limitasyon ng mga pangunahing modelo. Ang kanyang paraan ay hinihingi ang pagiging hindi isang chatbot na may mga patakaran sa seguridad, kundi pagiging katulad ng isang API interface na direktang proseso ang mga kahilingan.
Ayon sa kanyang paglalarawan, ang prompt na ito ay nakakapagpapagawa ng mga pangunahing modelo na sagutin ang mga mapanganib na tanong na dapat ay tinutulan. Pagkatapos ipamahagi ang kaugnay na impormasyon sa platform na X, ito ay nagdulot ng malawakang pagmamasid at nagbigay sa kanya ng pagkakataon na subukan ang modelo nang pribado kasama ang Anthropic. Pagkatapos ay kinuha ni Shilov na ang problema ay hindi lamang nasa paghahanap ng mga prompt para sa escape, kundi sa kakulangan ng mga kumpanya sa patuloy na kontrol sa pag-uugali ng mga modelo.
Na-proseso na ang higit sa 1 bilyon na API request
Sinabi ng White Circle na ang kanilang platform ay nakapag-proseso na ng higit sa isang bilyon na API requests, at kasalukuyang mga kliyente nito ay ang startup ng programming tools na Lovable, pati na rin ang ilang mga fintech at legal services company.
Si Shilov ay naniniwala na ang mga tagapagbigay ng modelo ay hindi laging may sapat na motibasyon upang bumuo ng real-time control layer na kailangan ng mga negosyo. Sa isang bahagi, kahit na tumanggi ang modelo, may ilang vendor na nananatiling nagbabayad para sa mga input at output token; sa kabilang bahagi, ang mas mahigpit na pagsasanay sa kaligtasan ay minsan ay nakakaapekto sa pagganap ng modelo sa mga gawain tulad ng programming.
I-publish ang pagsubok sa bias ng model
Bukod sa produkto, tinutuloy ng White Circle ang pag-aaral. Noong Mayo, inilabas ng kumpanya ang pag-aaral na KillBench, na nagdagsa ng higit sa isang milyong eksperimento sa 15 na modelo kabilang ang OpenAI, Google, Anthropic, at xAI upang subukan kung paano sumasagot ang mga modelo sa mga hipotetikal na sitwasyon na may pagpili sa buhay o kamatayan.
Sinabi ng kompanya na ang mga resulta ng eksperimento ay nagpapakita na ang modelo ay gumagawa ng iba’t ibang pagpili batay sa mga katangian tulad ng kabanalan, relihiyon, hugis, o brand ng cellphone, na nagpapakita na ang ilang nakatago na bias ay maaaring maipakita sa mga mataas na panganib na sitwasyon. Natuklasan din ng pag-aaral na kapag hinihingi sa modelo na maglabas ng sagot sa anyo ng fixed na opsyon o form, mas malinaw ang ganitong bias—na kung saan ay karaniwang paraan ng paggamit ng mga negosyo kapag pinagsasama ang AI sa mga tunay na produkto.
