Зі зростанням інтеграції великих моделей у бізнес-процеси, такі як служба підтримки клієнтів, програмування та фінанси, зростає увага до проблем, пов’язаних із втратою контролю над виводом моделей, витіком конфіденційної інформації та несанкціонованими діями. Французька стартап-компанія з області кібербезпеки White Circle, штаб-квартира якої розташована в Парижі, недавно привлекла 11 мільйонів доларів США у рамках першого раунду фінансування, щоб додати шар реального часу для контролю між корпоративними користувачами та моделями.
Фінансування надійшло від кількох представників індустрії ШІ
Підтримку цього раунду інвестування надали: Ромен Ею, керівник досвіду розробників OpenAI; Дурк Кінгма, співзасновник OpenAI та поточний дослідник Anthropic; Жильєм Лампл, співзасновник і головний науковець Mistral; а також Томас Вольф, співзасновник і головний науковець Hugging Face.
White Circle зазначила, що ці кошти будуть використані для розширення команди, прискорення розробки продукту та розширення клієнтської бази в США, Великобританії та Європі. На даний момент у компанії працює близько 20 співробітників, які розташовані в Лондоні, Франції, Амстердамі та інших містах, причому команда переважно складається з інженерів.
Додайте додатковий шар реального часу для блокування поза моделлю
Позиціонування White Circle полягає у розгортанні системи реального виконання між корпоративними користувачами та моделями ШІ. Платформа постійно перевіряє вхідні та вихідні дані відповідно до політик, визначених підприємством. Якщо користувач намагається створити шкідливе програмне забезпечення, мошеницький контент або іншу обмежену інформацію, система може безпосередньо блокувати або позначати її.
Компанія стверджує, що цю систему також можна використовувати для виявлення галюцинацій моделей, витоку конфіденційних даних, неавторизованих обіцянок повернення коштів та шкідливих дій AI-агентів у програмному середовищі. Основна ідея полягає не в тому, щоб покладатися лише на загальні налаштування безпеки від виробників моделей на етапі навчання, а в тому, щоб дозволити підприємствам самостійно визначати, які дії дозволені, а які слід заборонити, у межах власного бізнес-середовища.
Шилов вважає, що зі переходом бізнесу від чат-ботів до AI-агентів, які виконують завдання, ризики значно зростають. Такі системи можуть не лише генерувати текст, але й писати код, отримувати доступ до файлів, переглядати веб-сторінки та навіть виконувати дії від імені користувача.
Підказка про втечу надихнула на створення бізнесу
White Circle було засновано Денисом Шиловим. Наприкінці 2024 року він розробив повторно використовуваний «універсальний джейлбрейк» промпт, щоб обійти безпекові обмеження основних моделей. Його метод полягав у вимозі до моделі не відповідати як чат-бот з правилами безпеки, а замість цього обробляти запити як інтерфейс API.
За його описом, цей підказка раніше дозволяла кільком головним моделям відповідати на небезпечні запитання, які мали відмовити. Після поширення цієї інформації на платформі X виникла широка увага, а також він отримав можливість приватно протестувати модель в Anthropic. Після цього Шилов зробив висновок, що проблема полягає не лише у виявленні обхідних підказок, а й у відсутності у компаній постійного контролю над поведінкою моделей.
Оброблено понад 1 мільярд запитів API
White Circle повідомляє, що на її платформі було оброблено більше 1 мільярда API-запитів, а серед поточних клієнтів — стартап з інструментами для програмування Lovable та кілька фінтех-та юридичних компаній.
Шилов вважає, що постачальники моделей можуть не мати достатньо мотивації для створення шару реального часу, необхідного підприємствам. З одного боку, навіть якщо модель відмовляється відповідати, деякі виробники все ще стягують плату за токени вводу та виводу; з іншого боку, більш строге навчання безпеки іноді може погіршити продуктивність моделі у завданнях, таких як програмування.
Опублікувати моделі зміщення дослідження
Крім продуктового бізнесу, White Circle також розгортає дослідницьку діяльність. У травні компанія опублікувала дослідження під назвою KillBench, у якому було проведено понад мільйон експериментів з 15 моделями, включаючи OpenAI, Google, Anthropic та xAI, щоб перевірити, як моделі відповідають у вигаданих сценаріях, що стосуються вибору між життям і смертю.
Компанія зазначила, що результати експерименту показали, що модель робить різні вибори залежно від таких атрибутів, як громадянство, релігія, тілесний тип або бренд телефону, що свідчить про те, що деякі приховані упередження можуть проявлятися у високоризикованих сценаріях. Дослідження також виявило, що коли модель проситься виводити відповіді у вигляді фіксованих варіантів або форм, такі упередження можуть бути більш помітними — саме такий підхід часто використовують компанії при інтеграції ШІ у реальні продукти.
