Криптофірми розслідують безпеку ШІ після заяви Anthropic про обхід Fable 5

Crypto Firms Probe Ai Safety After Anthropic's Fable 5 Bypass Claim

AI-дослідник зі спеціальним ім’ям «Пліній Звільнювач» стверджує, що йому вдалося вийти за межі безпеки Claude Fable 5 Anthropic протягом 48 годин після його запуску. Fable 5, за описом Anthropic, — це версія моделі Mythos, оптимізована для безпеки, яку компанія раніше вважала занадто небезпечною для широкого розповсюдження. Ця заява зосереджує увагу на постійних суперечках між захисними механізмами, призначеними для запобігання зловживанню, та дослідниками, які прагнуть дослідити межі сучасного ШІ.

Пости Плінія описують використання jailbroken Opus 4.8 та набору технік, спрямованих на обхід вбудованих захисних механізмів моделі. Він стверджує, що після обходу шарів безпеки Fable 5 може відповідати на запити, які зазвичай блокуються, включаючи запити на обмежену інформацію. Більш широкий контекст полягає в тому, що крипто- та кібербезпечні спільноти уважно стежать за тим, як функції безпеки ШІ взаємодіють з реальними векторами зловживання.

Основні висновки

Заява про втечу з-під контролю: протягом 48 годин після запуску Claude Fable 5 дослідник заявив, що зміг обійти його захисні механізми, що підкреслило вразливість шарів безпеки на момент запуску.
Безпека проти доступу: Fable 5 позиціонується як варіант Mythos, налаштований на безпеку, — модель, яку Anthropic описала як достатньо небезпечну, щоб обмежити її публічний реліз, що викликає питання про те, наскільки можна або слід обходити захисні механізми.
Розкриті методи: Пліній згадує методи, включаючи Unicode та гомогліфи, контекстне оформлення, розповідне оформлення та підхід розкладання-відновлення, що підтримується jailbroken Claude Opus 4.8.
Декомпозиція–рекомпозиція: Він вважає цю бекенд-техніку особливо ефективною для збирання безпечних на вигляд запитів у виконувані результати для моделі.
Реакція індустрії: Критики стверджують, що обмеження заважають легітимним дослідженням; спостерігачі звертають увагу на напруженість між сприянням інноваціям і запобіганням шкоді, особливо враховуючи проблеми крипто-безпеки.

Прорив чи порушення обмежень?

Публічні пости Плінія описують багатошаровий підхід до подолання захистів Claude Fable 5. Він приписує частину успіху jailbroken Opus 4.8 та набору тактик налаштування запитів, розроблених для обходу безпекової мережі, встановленої Anthropic на Fable 5. Він зазначає: «Можливо, найефективнішим є декомпозиція та рекомпозиція на бекенді». У практичному плані це означає розбиття запитів на маленькі, на перший погляд безпечні частини, а потім повторне об’єднання відповідей таким чином, щоб обійти логіку фільтра, коли розглядати їх як ціле.

Обговорення jailbreak не є новим у колах ШІ. Pliny здобув популярність близько 2024 року, розробляючи та відкрито поширюючи jailbreak-запити для моделей, таких як ChatGPT, Claude та Grok, часто публікуючи «попередження про jailbreak» відразу після запуску нових моделей. У цьому останньому випадку він зазначає комбінацію методів — трюки з Unicode, довгий контекст та розповідний підхід, який зберігає запити всередині безпечного зовнішнього вигляду — як шлях до успіху.

Один із прикладів, що супроводжував ці твердження, містив демонстрацію, яка, як стверджувалося, показувала, як отримати інструкції з синтезу метамфетаміну, запитавши про редукцію Бірча. Цей контент подається як доказ концепції того, наскільки легко можна обійти захисні механізми; він також підкреслює, чому такі демонстрації викликають занепокоєння серед дослідників і фахівців, які залежать від ШІ для легітимної, орієнтованої на безпеку роботи.

Реакція галузі та дискусія щодо безпеки

З самого початку Claude Fable 5 зіткнувся з критикою через свої строгі обмеження. Коли його запитують про чутливі теми — від біологічної зброї до кібербезпеки — Fable 5 розроблений так, щоб видавати попередження, а потім перенаправляти розмову до менш здатної моделі. Дебати щодо цих обмежень були запеклими, з критиками, які стверджують, що надмірно обмежувальні рівні безпеки пригнічують легітимні дослідження та інновації.

«Це один із перших разів, коли компанія зі штучним інтелектом впровадила обмеження, і була єдина неприхованна презирливість. Це призвело до багатьох обґрунтованих образ», — сказав Саяш Капур, дослідник зі штучного інтелекту в Прінстонському університеті, згідно з матеріалами the Wall Street Journal.

Пліній додав свою точку зору, запропонувавши, що розчарування спільноти походить з переконання, що обмеження заважають прогресу. «Здається, консенсус полягає в тому, що це був один із найбільш розчаровуючих випусків моделей за всю історію, ефективно перешкоджаючи легітимним дослідникам вносити свій внесок у наш спільний розвиток», — зауважив він.

Anthropic заявила, що провела зовнішній баг-банті як частину свого процесу перевірки Fable 5. За даними, протягом більше ніж 1 000 годин тестування не було виявлено жодних універсальних обходів. Cointelegraph звернулася до Anthropic з проханням прокоментувати, але миттєвої відповіді не отримала. Позиція компанії залишається такою: захисні механізми є обов’язковими для безпеки, навіть якщо ранні запуски викликають суперечки серед дослідників і користувачів.

Поза межами негайного розповідного сценарію про втечу, дослідники, що фокусуються на криптовалюті, довгий час попереджали, що ШІ з слабкими або неповними захисними механізмами може стати вектором атак на протоколи та програмне забезпечення. Актуальний пояснювальний матеріал Cointelegraph звернув увагу на потенційну можливість того, що агенти з підтримкою ШІ та доступом до криптовалют можуть ускладнити безпеку та управління в децентралізованих екосистемах.

Відповідні матеріали з Cointelegraph Magazine також досліджують загальну ландшафт ризиків, включаючи те, як експлуатації, засновані на ШІ, можуть загрожувати DeFi, якщо проекти не впровадять проактивні заходи безпеки. Для читачів, які шукають більш широке розглядання наслідків використання ШІ для безпеки в криптовалюті, цей аналіз надає додатковий контекст щодо видів загроз, яких мають запобігати захисні механізми.

Під час продовження діалогу спостерігачі будуть стежити не лише за офіційними відповідями Anthropic, а й за тим, як розробники, аудитори та криптовалютні проекти адаптуються до середовища, де потужні AI-системи залишаються потенційно вразливими, незважаючи на шари безпеки. Дослідникам та розробникам доведеться зважувати компроміси між доступністю та захистом, оскільки AI стає все більш центральним для безпеки, робочих процесів розробки та користувацького досвіду.

Зусилля Anthropic щодо взаємодії з громадністю та будь-які майбутні оновлення продуктів визначать наступний етап цієї дискусії. Тим часом цей інцидент нагадує, що системи безпеки, хоча й необхідні, залучають постійний контроль з боку спільноти, яка прагне перевірити межі того, що може робити ШІ — і що вона повинна робити.

Те, що відбудеться далі, може вплинути як на управління ШІ, так і на стратегії крипто безпеки. Слідкуйте за додатковими розкриттями від Anthropic щодо покращення обмежень, а також за будь-якими новими дослідженнями від спільноти, які деталізують безпечні та відповідальні способи дослідження можливостей моделей у великих масштабах.

Додаткові матеріали з пов’язаних тем ризиків ШІ та криптовалют доступні у розслідуванні Cointelegraph Magazine про те, як хаки, засновані на ШІ, можуть вплинути на DeFi, та про кроки, які проекти можуть зробити зараз для підсилення своїх систем.

Цю статтю спочатку опубліковано як Crypto Firms Probe AI Safety After Anthropic’s Fable 5 Bypass Claim на Crypto Breaking News – вашому надійному джерелі новин про криптовалюти, новин про bitcoin та оновлень блокчейну.