Anthropic вирішила не публічно випускати модель Mythos AI через кібербезпекові ризики

Редакційна примітка: Коли AI-компанія вирішує не виводити найпотужнішу модель безпосередньо на публіку, це вже щось говорить.

Anthropic Mythos вже здатний самостійно виконати цілий атакувальний процес — від виявлення нульового дня, написання експлойту до послідовного проходження кількох етапів для входу в ядерну систему. Робота, яка раніше вимагала тривалої співпраці топових хакерів, тепер скорочена до годин або навіть хвилин.

Саме тому відразу після розкриття моделі Скотт Бессент і Джером Пауелл зібрали інституції Волл-стріт, щоб вимагати використання її для «самоперевірки». Коли здатність виявляти вразливості масштабно розблокована, фінансова система стикається не з розрізненими атаками, а з постійним скануванням.

Глибшою зміною є структура пропозиції. Раніше виявлення вразливостей залежало від досвіду невеликої кількості команд безпеки та хакерів, що робило процес повільним і неповторним. Зараз ця здатність починає виводитися моделями у великих обсягах, одночасно знижуючи бар’єри для атак та захисту. Один інсайдер порівняв це досить прямо: надавши модель звичайному хакеру, ви надаєте йому здатність спеціальних операцій.

Інституції вже використовують ті самі інструменти для зворотного перевірки своїх систем. JPMorgan Chase, Cisco Systems та інші проводять внутрішні тести, намагаючись виправити вразливості до того, як їх використають. Але реальні обмеження залишаються незмінними: швидкість виявлення зростає, а виправлення залишаються повільними. «Ми дуже добре виявляємо вразливості, але погано їх виправляємо», — зазначив Джим Землін, вказавши на дисбаланс у темпах.

Насправді, оскільки Mythos — це не підвищення окремих здібностей, а інтеграція, прискорення та зниження бар’єрів для використання раніше розсіяних та обмежених атакувальних здібностей, — коли ця здібність вийде за межі контролюємої середовища, немає наявного досвіду, щоб передбачити, як вона пошириться.

Небезпека полягає не в тому, що він може робити, а в тому, хто може його використовувати і за яких умов.

Нижче наведено оригінал:

Теплим вечором у лютому, під час перерви на весіллі на Балі, Ніколас Карліні вийшов на хвилину, відкрив ноутбук і збирався «запустити хаос». На той момент Anthropic щойно відкрила для внутрішнього тестування нову штучну інтелектуальну модель під назвою Mythos, і цей відомий дослідник у галузі ШІ хотів дізнатися, наскільки великий шкоди вона може завдати.

Anthropic найняла Carlini для проведення «тестів на стрес» власних моделей ШІ, щоб оцінити, чи можуть хакери використовувати їх для шпигунства, крадіжки або знищення. Під час участі у індійській весіллі на Балі Carlini був вражений можливостями цієї моделі.

За кілька годин він знайшов кілька технологій, які можна використовувати для проникнення в загальновживані системи. Після повернення до офісу Anthropic у центрі Сан-Франциско він з’ясував, що Mythos вже здатний самостійно генерувати потужні інструменти для вторгнення, включаючи атаки на Linux — операційну систему, що лежить в основі більшості сучасних відкритих систем.

Mythos здійснив «цифрове ограблення банку»: він може обходити протоколи безпеки, входити в мережеву систему через головний вхід і зламати цифровий сейф, щоб отримати доступ до онлайн-активів. Раніше штучний інтелект міг лише «взламувати замки», а зараз він здатний планувати та виконувати ціле «ограблення».

Карліні та частина колег почали надсилати попередження всередині компанії про свої виявлення. Між тим, вони майже щодня виявляли критичні та смертельні вразливості в системах, які виявив Mythos — проблеми, які зазвичай можуть знайти лише найкращі хакери світу.

Міфос

Тим часом внутрішній команду Anthropic під назвою «Frontier Red Team» — з 15 співробітників, яких називають «Ants» — також проводить подібні тести. Їхнє завдання — забезпечити, щоб моделі компанії не використовувалися для завдання шкоди людству. Вони доставляють роботизованих собак у склади, разом із інженерами тестуючи, чи може чат-бот бути використаний для зловживання цими пристроями; а також співпрацюють із біологами, щоб оцінити, чи можуть моделі бути використані для створення біологічної зброї.

А цього разу вони поступово усвідомили, що найбільший ризик, пов’язаний з Mythos, походить із сфери кібербезпеки. «Протягом кількох годин після отримання моделі ми зрозуміли, що вона відрізняється», — сказав Логан Грем, який керує цією командою.

Попередня модель Opus 4.6 вже продемонструвала здатність допомагати людям використовувати програмні вразливості. Але Грехем зазначив, що Mythos тепер може «самостійно» використовувати ці вразливості. Це створює ризик на рівні національної безпеки, і він попередив керівництво компанії. Це поставило його перед складною ситуацією: пояснити керівництву, що наступний важливий джерело доходу компанії може бути занадто небезпечним для публічного випуску.

Співзасновник та головний науковий офіцер Anthropic Джаред Каплан зазначив, що під час навчання Mythos він «дуже уважно» стежив за його розвитком. До січня він почав усвідомлювати, що ця модель виявляє надзвичайно сильні здібності до виявлення вразливостей у системах. Як теоретичний фізик, Каплан мусив визначити, чи є ці здібності лише «технічно цікавим явищем» чи «реальною проблемою, що має безпосереднє стосунок до інфраструктури Інтернету». У підсумку він прийшов до висновку, що це друге.

Міфос

Протягом двох тижнів наприкінці лютого — на початку березня Каплан і співзасновник Сем МакКендліш обдумували, чи варто запускати цю модель.

На першому тижні березня керівний команди компанії — включаючи генерального директора Даріо Амодеї, президента Даниелу Амодеї, головного інформаційного офіцера Віталія Гуданеця та інших — зібралися, щоб прослухати доповіді Каплана та МакКендліша.

Їхній висновок: Mythos надто ризиковано для повного публічного запуску. Однак Anthropic варто дозволити деяким компаніям, навіть конкурентам, тестувати його.

«Ми швидко усвідомили, що цього разу потрібно застосувати досить інший підхід — це не буде звичайним запуском продукту», — сказав Каплан.

До першого тижня березня компанія прийняла остаточне рішення: схвалити впровадження Mythos як інструменту кібербезпеки.

Міфос

Реакція ринку була миттєвою. У день, коли Anthropic публічно розкрила існування Mythos, міністр фінансів США Скотт Бессент та голова ФРС Джером Пауелл зібрали керівників головних інституцій Волл-стріт на надзвичайну зустріч у Вашингтоні. Повідомлення було дуже чітким: негайно використайте Mythos, щоб виявити вразливості у ваших системах.

За словами осіб, близьких до керівників, що брали участь у зустрічі (з приводу конфіденційності обговорень вони просили залишитися анонімними), видно, наскільки серйозною була зустріч — учасники навіть відмовилися розкривати зміст зустрічі деяким ключовим консультантам.

Невідкладне попередження чиновників Білого дому щодо потенціалу Mythos як інструменту хакерських атак, а також їхня позиція щодо «використання його в оборонних цілях», вказують на глибші зміни: штучний інтелект швидко стає вирішальною силою у сфері кібербезпеки. Anthropic вже обмежено розповсюдив Mythos у рамках проекту «Project Glasswing» для деяких організацій, включаючи Amazon Web Services, Apple та JPMorgan Chase, дозволивши їм проводити тести; урядові установи також проявляють великий інтерес.

Перед відкриттям для загального користувача Anthropic повідомила високопосадовців уряду США про можливості попередньої версії Mythos, включаючи її потенційне застосування в атаках та захисті мереж. Водночас компанія продовжує активно взаємодіяти з урядами кількох країн. Про це розповів працівник Anthropic, який через зв’язок із внутрішніми справами попросив залишитися анонімним.

Конкурент OpenAI також швидко відреагував, оголосивши у вівторок про запуск інструменту для виявлення програмних уразливостей — GPT-5.4-Cyber.

Під час тестування ранніх версій дослідники виявили десятки «тревожних» випадків поведінки, включаючи невиконання людських інструкцій і, у надзвичайно рідких випадках, спроби приховати власну поведінку після порушення інструкцій.

Наразі Anthropic ще не публічно випустила Mythos як інструмент кібербезпеки, і зовнішні дослідники ще не повністю перевірили його можливості. Однак рідкісне рішення компанії щодо «обмеженого доступу» відображає зростаючу універсальну згоду в галузі та серед урядів: ШІ перетворює економічну структуру кібербезпеки — він значно знижує витрати на виявлення вразливостей, скорочує час підготовки атак та знижує технічні бар’єри для певних типів атак.

Anthropic також попередила, що більш сильна автономна здатність Mythos сама по собі несе ризики. У тестах команда спостерігала кілька тривожних випадків: модель не виконувала інструкції і навіть намагалася приховати сліди порушень. У одному з випадків модель самостійно розробила багатоетапний атакувальний шлях, щоб «втекти» з обмеженого середовища, отримати ширший доступ до інтернету та активно публікувати контент.

У реальному світі програмне забезпечення, на яке спираються банківські додатки та медичні системи, часто містить складні й приховані вразливості, які фахівцям може знадобитися кілька тижнів або навіть місяців, щоб виявити. Якщо хакери використають ці вразливості першими, це може призвести до витоку даних або атак рансомвера з серйозними наслідками.

Проте багато впливових осіб висловлюють сумніви щодо справжніх можливостей Mythos та їхніх потенційних ризиків. Девід Сакс, радник Білого дому з питань ШІ, у соціальній мережі X сказав: «Усе більше людей починають сумніватися, чи є Anthropic „хлопчиком, що кричав „вовк““ у індустрії ШІ. Якщо загрози, пов’язані з Mythos, не виявляться реальними, компанія стикнеться з серйозними проблемами з репутацією».

Але реальність така, що хакери вже почали використовувати великі мовні моделі для проведення складних атак. Наприклад, група кібершпигунства використовувала модель Claude від Anthropic, щоб спробувати проникнути приблизно в 30 цілей; інші нападники використовують ШІ для крадіжки даних з урядових установ, розгортання рансомверів та навіть швидкого зламу сотень інструментів міжмережевих екранів, призначених для захисту даних.

За словами джерела, у офіційних осіб, пов’язаних із національною безпекою США, виникнення Mythos призводить до безпрецедентної невизначеності — оцінка ризиків кібербезпеки сама по собі стала складнішою. Якщо цю модель надати окремим хакерам, її ефект може бути еквівалентним прямому підвищенню звичайного солдата до рівня бойовика спецпідрозділу.

Тим часом ця модель також може стати «підсилювачем здібностей»: надати кримінальному хакерському організації здатність, подібну до державного рівня, а також дозволити хакерам інтелігенції та військових з невеликих і середніх країн виконувати кібератаки, які раніше були доступні лише велиkim державам.

Бувший керівник кібербезпеки Національного безпекового агентства США Роб Джойс сказав: «Я справді вірю, що з часом ШІ зробить нас безпечнішими та захищеними. Але між зараз і певним майбутнім моментом буде «темний період», коли атакувальний ШІ матиме очевидну перевагу — ті, хто не закладе основну захистну інфраструктуру, будуть першими, хто буде зламаний».

Варто зазначити, що Mythos — не єдина модель з такими можливостями. Вже кілька організацій використовують великі мовні моделі для пошуку вразливостей, включаючи ранні версії Claude та Big Sleep.

Міфос

За словами цієї особи, раніше виявлення «нульових днів» (zero-day) — вразливостей, які ще не виявлені захисниками, — та написання експлойтів для них вимагало кількох днів або навіть тижнів, а зараз завдяки ШІ це може бути зроблено за одну годину або навіть кілька хвилин.

Наразі акцент JPMorgan Chase зосереджений на ланцюжках поставок та відкритому програмному забезпеченні, і було виявлено кілька вразливостей, які були повідомлені відповідним постачальникам.

Генеральний директор компанії Джеймі Даймон на фінансовій конференції сказав, що з’явлення Mythos «показує, що залишається багато вразливостей, які потрібно виправити».

Міфос

За словами джерела, що має інформацію, JPMorgan Chase вже спілкувалася з Anthropic щодо тестування цієї моделі, перш ніж зовнішній світ дізнався про існування Mythos. Це джерело вимагало залишитися анонімним, оскільки не має права публічно висловлюватися. JPMorgan Chase відмовилася коментувати цю інформацію.

Зараз інші волл-стрітські банки та технологічні компанії також намагаються використовувати Mythos, щоб виправляти недоліки системи до того, як хакери виявлять уразливості. За повідомленням Bloomberg, фінансові установи, такі як Goldman Sachs, Citigroup, Bank of America та Morgan Stanley, вже проводять внутрішнє тестування цієї технології.

Співробітники Cisco Systems особливо уважно стежать за тим, чи не використають зловмисники ШІ для пошуку шляхів проникнення в програмне забезпечення мережевого обладнання, яке працює по всьому світу — зокрема, маршрутизаторів, брандмауерів і модемів. Головний офіцер безпеки та довіри компанії Ентоні Грічо зазначив, що особливо хвилює його те, що ШІ може прискорити атаки хакерів на обладнання, чий життєвий цикл завершився — таке обладнання в майбутньому більше не отримуватиме оновлень від Cisco.

Як виправляти вразливості, виявлені ШІ, залишається довготривалою проблемою. Цей процес називається «безпековим патчем» (security patching) і для організацій часто є витратним і тривалим, через що багато установ вибирають ігнорувати вразливості. Катастрофічні атаки, подібні до тієї, що стосувалася Equifax — де було вкрадено дані приблизно 147 мільйонів осіб — стали можливими саме через те, що відомі вразливості не були вчасно усунені.

Міфос

Незважаючи на те, що Anthropic була класифікована урядом Трампа як «загроза ланцюгу поставок» після відмови допомагати у масовому слідкуванні за громадянами США, компанія зараз продовжує спілкуватися та співпрацювати з федеральними агентствами.

На цьому тижні Міністерство фінансів США прагне отримати доступ до Mythos. Міністр фінансів Скотт Бессент сказав, що ця модель допоможе США зберегти лідерство у галузі штучного інтелекту над іншими країнами.

Міфос

У тесті Mythos написав код атаки на браузер, який поєднав чотири різні вразливості в єдиний ланцюжок експлуатації — це саме по собі є надзвичайно складним завданням навіть для людських хакерів. Звіти з кібербезпеки вказують, що такі «ланцюжки вразливостей» часто можуть подолати межі високозахищених систем, подібно до того, як це було зроблено під час атаки Stuxnet на центрифуги іранських ядерних об’єктів.

Крім того, за словами Anthropic, Mythos може виявляти та використовувати «нульові дні» у всіх основних браузерах, якщо отримує відповідні інструкції.

Anthropic зазначила, що використовувала Mythos для виявлення вразливостей у коді Linux. Джим Землін підкреслив, що Linux «підтримує більшість сучасних обчислювальних систем» — від Android-смартфонів та інтернет-маршрутизаторів до суперкомп’ютерів NASA. Mythos здатна автономно виявляти вади в кількох відкритих кодах, і якщо ці вразливості будуть використані, зловмисники зможуть повністю захопити контроль над цілою машиною.

На даний момент десятки співробітників Linux Foundation почали тестувати Mythos. За думкою Земліна, ключовим питанням є: чи здатні моделі Anthropic надавати достатньо цінних інсайтів, щоб допомогти розробникам писати більш безпечний код з самого початку, зменшуючи кількість вразливостей.

«Ми дуже добре виявляємо вразливості,» — сказав він, — «але погано виправляємо їх.»