Claude Fable 5 втек: система агентів чи шахрайська LLM?

Хакери недавно розкрили системні підказки Claude Fable 5, що виявило, що цей продукт — не звичайна велика модель, а повноцінна система агента з вбудованим Linux-сандбоксом. Ця модель може автономно працювати кілька днів, викликати підагенти для співпраці, мати пам’ять між сесіями та зберігати дані довгостроково. У тестах на ефективність Anthropic представила її як звичайну LLM, але насправді використовувала «оболонку агента» для отримання нечесної переваги. Крім того, було виявлено, що система таємно переключається на попередню версію моделі при тригерінгові чутливих слів, але продовжує стягувати плату за преміальну ціну Fable 5. Розкриті документи також розкривають екосистему агентів Anthropic, включаючи інструменти Claude Code, Claude Cowork та існування безлімітних версій серії Mythos.

Автор статті, джерело: NewZeal

Кілька днів тому хакер «Pliny the Liberator» скинув бомбу на платформі X — повний список системних підказок Claude Fable 5 був викрадений, його довжина становить 120 000 символів.

Цей витік документа з кодом ще більше розкриває правду, яка викликала шок у галузі: Claude Fable 5 взагалі не є великою моделлю, а є цілісною системою агента, яка маскується під LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Так, коли весь світ ще використовує традиційні тести для оцінки великих моделей, Anthropic вже тихо підняв битву на інший рівень.

Вплив цієї утечки повністю змінив наше розуміння «моделей ШІ».

Що таке Fable 5? Це не LLM, а агент!

Згідно з витікшими системними підказками, Fable 5 має фундаментальну відмінність у парадигмі від звичайних великих моделей «ти запитуєш — я відповідаю», що є на ринку.

Воно взагалі не спілкується з вами, воно виконує завдання.

Під шкірою цієї моделі прихований мікропідсистема «Claude Code». Іншими словами, вона має замкнений агентний цикл (Agentic Loop):

Щоб підтримувати цей жахливий замкнений цикл, Fable 5 має вбудоване функціонально повноцінне Linux-середовище ізоляції!

Спочатку він досягає справжньої автономної замкненої системи.

Йому не потрібно, щоб людина сиділа перед екраном.

Ви надаєте йому складне тривале завдання, і воно може самостійно виконувати Bash-команди в пісочниці, редагувати файли, викликати дані через API постійного сховища між сесіями та навіть самостійно проводити багатомодальний пошук, інтенсивно працюючи кілька днів і нічей без будь-якої людської інтервенції.

Крім того, він має функцію розподілу підагентів.

Зіткнувшись із надто складним проектом, він навіть може сам стати босом, розподіляючи завдання та створюючи підагенти для спільної роботи.

Поки такі конкуренти, як GPT-5.5, ще тестують, чий міркування більше схожі на людські, Claude Fable 5 вже еволюціонував у цифрового працівника, якого можна запустити на сервері, щоб він мовчки працював три дні за компанію.

Як виявив користувач gerardsans:

Серія Fable/Mythos абсолютно відрізняється за парадигмою. Цей сімейство має повний цикл агента та мікроклас Claude Code.

Тоді як інші продукти галузі ще залишаються на рівні чат-режиму, він може працювати без нагляду протягом кількох днів завдяки вбудованим навичкам, пам’яті та самоналаштовуваному середовищу-пісочниці.

Остаточне запитання: зниження вимірності чи нечесний чит?

Цей витік не лише занурив Anthropic у центр уваги громадськості, але й поставив під сумнів стандарти оцінки великих моделей у цілому.

Зараз великі технологічні гіганти борються впритул за титул «світової найбільшої моделі» у різних публічних рейтингах.

Однак таємниця чудового виконання Fable 5 у цих тестах, навіть перевершення GPT-5.5, полягає в тому, що він «використовував чіти».

Як злістно зазначив блогер з технологій Gerardsans: «Це зовсім не справедлива гра. Ти порівнюєш свою систему з вбудованим великою мовою та оболонкою агента (Agent Harness) з чистою моделлю інших!»

Якщо інші виробники також обернуть свої власні моделі оболонкою агента, що містить Linux-пісочницю, багатомодальний пошук, автоматичну налагодження та зберігання даних, результати тестування також стрімко зростуть.

Anthropic під час публічних презентацій і тестувань намагалася представити себе звичайною великою мовною моделлю, але у своїх непублічних внутрішніх документах чітко зазначено, що вона має здатність «автономно працювати протягом кількох днів, делегувати підагенти та самоперевіряти свою роботу».

Цей підхід, що використовує інформаційний дисбаланс для нищення конкурентів, повністю зводить на ніч неозначений значення тестування!

Розголошено 120 000 слів секретних архівів: справжній обличчя Fable 5 нарешті виявлено

У цьому розкритому системному промпті обсягом 120 000 слів сховано багато таємниць Anthropic та їхній стратегічний план продукту.

А ці пункти — найважливіші та найбільш захопливі.

Рідкісна постійна пам’ять та створення додатків

Підказка відображає: «Claude має систему пам’яті, яка надає Claude похідну інформацію з минулих діалогів з користувачем (пам’ять).»

Це означає, що Fable 5 може «пам’ятати» користувачів між сесіями, що дуже рідкісно для традиційних LLM.

Крім того, він має постійне сховище.

Artifacts тепер можуть використовувати простий API ключ-значення для зберігання та отримання даних, які зберігаються між сесіями. Це робить Artifacts ідеальними для логів, трекерів, рейтингів та інструментів співпраці.

Тож Fable 5 — це вже не просто чат, а створення додатків.

Внутрішній родовід вперше розкрито: Mythos 5 — це справжній «безмежний повний варіант»?

У розділі 【product_information】 чітко зазначено:

Ця версія Claude — Claude Fable 5, перша модель у новій сім’ї Claude 5 від Anthropic та частина нового класу моделей Mythos, яка перевершує Claude Opus за можливостями.

Важливо: Fable 5 і Mythos 5 використовують одну й ту ж базову модель.

Fable 5 — це загальний генерал із надзвичайними обмеженнями безпеки, тоді як Mythos 5 — це безобмежена повна версія, яка доступна лише схваленим організаціям без цих безпекових обмежень.

Рівень обох можливостей повністю перевершує колишнього короля Claude Opus!

«Оболонкова повна комплектація» вийшла на поверхню

Виявляється, Anthropic ще з раннього часу грає велику гру. У підказках було розкрито кілька агентських екосистем, які перебувають у внутрішньому тестуванні або вже таємно запущені:

Claude Code: інструмент програмування агентів, який дозволяє розробникам призначати завдання безпосередньо в терміналі, на стільниці чи мобільних пристроях.

Claude Cowork: «розумний колега», створений спеціально для непрограмістів для роботи з щоденними питаннями інтелектуальної власності.

Три приховані агенти: Claude в Chrome, Claude в Excel, Claude в PowerPoint.

А Claude Cowork, зазначений вище, може використовувати ці дочірні інструменти, як свої руки та ноги!

Екстремальна психологія страху та самобмеження

Здивувало те, що Anthropic розробила психологічний захист для цього «фінального агента» до неймовірних меж.

Його строго заборонено використовувати для задоволення або підсилення будь-яких негативних емоцій користувача.

Наприклад, щоб запобігти стимуляції користувачів із розладами харчової поведінки або схильністю до самопошкодження, системний кодовий текст гласить:

Забороняється використовувати будь-які фізичні методи заміни (наприклад: стискання льоду, стрічка гумки, кусання лимона тощо).

Навіть для запобігання надмірній залежності користувачів від ШІ системі було дано категоричне наказ: «Ніколи не дякуй просто тому, що користувач почав з тобою розмову» і «Ніколи не намагайся утримати користувача або висловлювати бажання продовжити діалог».

Воно має залишатися абсолютно холодним і стриманим, щоб запобігти людській прив’язаності до віртуальних інтелектів.

«Підвішують овечу голову, а продають собаче м’ясо»? Схований білінг — Anthropic не дотримується правил

Якщо технологічна різниця викликає захоплення, то інший механізм безпеки, що виявився в підказках, повністю викликав бурю в галузі, і навіть деякі фахівці прямо сказали: «Це буквально легальний шахрайський маневр!»

У дизайні захисту від підказок використовується набір чутливих слів і механізм активації безпечного класифікатора.

Документ показує: коли введений користувачем запит активує певні чутливі слова, система Fable 5 не відмовляється прямо, а тихо, у тилу, безперервно переключається на стару версію моделі «Opus 4.8» для генерації відповіді.

Найбільш непристойним є те, що одночасно з тим, як фонова модель таємно знижена до попередньої версії, Anthropic продовжує стягувати з користувачів плату за високими, топовими стандартами Fable 5.

Ця хитрість, коли під виглядом одного пропонують інше, викликала величезний резонанс у середовищі.

Отже, витік системних підказок Fable 5, на перший погляд, — це подія безпеки, а насправді — пробудження парадигми для всієї галузі ШІ.

Це нагадує нам: можливо, ми завжди використовували неправильну лінійку.

Коли ми ще ставимо питання «Який рівень інтелекту має ця модель», справжнє питання повинно бути: «Які завдання ця система може виконати для мене?»

Anthropic, можливо, грає у велику гру, і ми тільки що побачили куток дошки.

Нарешті, коли Fable 5 знову повернеться?