Claude Fable 5 утек: система агентов или мошенническая LLM?

Хакеры недавно раскрыли системные промпты Claude Fable 5, показав, что этот продукт не является обычной крупной языковой моделью, а представляет собой полноценную агентную систему с встроенной средой Linux-песочницы. Модель может автономно работать в течение нескольких дней, вызывать подагенты для совместной работы, обладает памятью между сессиями и возможностью постоянного хранения данных. При тестировании Anthropic представила её как обычную LLM, но на практике использовала «оболочку агента», получая нечестное преимущество. Кроме того, выяснилось, что система тайно переключается на более старую версию модели при срабатывании пользователем чувствительных ключевых слов, при этом взимая плату по тарифу премиум-версии Fable 5. Раскрытые документы также раскрыли экосистему агентов Anthropic, включающую такие инструменты, как Claude Code и Claude Cowork, а также существование неограниченных версий серии Mythos.

Автор статьи, источник: Новомир

Несколько дней назад хакер «Pliny the Liberator» бросил бомбу на платформе X — полные системные промпты Claude Fable 5 были раскрыты, их длина составляет 120 000 символов.

Этот утекший документ с кодом еще больше раскрыл шокирующий факт для сообщества: Claude Fable 5 на самом деле не является крупной языковой моделью, а представляет собой полноценную систему агента, маскирующуюся под LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Верно, пока весь мир все еще использует традиционные тесты для оценки различных крупных моделей, Anthropic уже тайно подняла поле боя на другой уровень.

Влияние этой утечки полностью изменило наше понимание «моделей ИИ».

Что такое Fable 5? Это не LLM, а агент!

Согласно утечке системных подсказок, Fable 5 принципиально отличается от обычных крупных моделей «ты спрашиваешь — я отвечаю», доступных на рынке.

Он вообще не общается с вами, он занимается «исполнением».

Под кожей этой модели скрыта микросистема «Claude Code». То есть она обладает замкнутым агентным циклом (Agentic Loop):

Для поддержки этого ужасающего замкнутого цикла в основе Fable 5 внедрена полнофункциональная среда Linux-песочницы!

Во-первых, он обеспечивает настоящую автономную замкнутую систему.

Ему не нужно, чтобы человек постоянно сидел перед экраном.

Вы даете ему сложную долгосрочную задачу, и он может самостоятельно запускать Bash-команды в песочнице, редактировать файлы, вызывать данные через API постоянного хранения между сессиями и даже самостоятельно выполнять мультимодальный поиск, интенсивно работая несколько дней и ночей без какого-либо вмешательства человека.

Кроме того, он также обладает функцией распределения подагентов.

При столкновении с слишком сложным проектом он может даже взять на себя роль руководителя, делегируя и порождая суб-агенты для совместной работы.

Пока такие конкуренты, как GPT-5.5, всё ещё тестируют, чей вывод более похож на человеческий, Claude Fable 5 уже эволюционировал в цифрового работника, которого можно запустить на сервере и заставить молча работать три дня.

Как выявил пользователь gerardsans:

Серия Fable/Mythos принципиально отличается по парадигме. Этот семейство обладает полным циклом агентов и мини-версией Claude Code.

В то время как другие продукты отрасли все еще находятся на уровне чат-режима, он может работать без присмотра в течение нескольких дней благодаря встроенным навыкам, памяти и самооптимизирующейся песочнице.

Крайний вопрос: снижение размерности или нечестный чит?

Утечка не только погрузила Anthropic в огонь общественного мнения, но и поставила под сомнение стандартные оценки всей индустрии крупных моделей.

Сегодня крупнейшие технологические гиганты ведут ожесточенную борьбу за звание «крупнейшей модели в мире» в различных открытых рейтингах.

Однако секрет того, что Fable 5 показал выдающиеся результаты в этих тестах, даже одолев GPT-5.5, заключается в том, что он «использовал читы».

Как возмущенно отметил технологический блогер Gerardsans: «Это вообще не справедливая гонка. Вы сравниваете систему с надувательством — нативную большую модель + оболочку агента (Agent Harness) — с чужими простыми моделями!»

Если другие производители также обернут свои нативные модели в агентную оболочку, включающую Linux-песочницу, мультимодальный поиск, автоматическую отладку и постоянное хранилище, результаты их тестов также значительно возрастут.

Anthropic при публичных презентациях и тестировании позиционирует себя как обычную большую языковую модель, но в ее непубличных внутренних документах прямо указано, что она обладает способностью «автономно работать в течение нескольких дней, делегировать подагенты и самостоятельно проверять свою работу».

Использование информационного дисбаланса для подавления конкурентов делает тестирование полностью бессмысленным!

Раскрыто 120 000 символов секретных архивов: настоящая сущность Fable 5 полностью раскрыта

В этой раскрытой системной подсказке объемом 120 000 слов скрыто слишком много коммерческих тайн и дорожных карт продуктов Anthropic.

А вот эти пункты — самые ключевые и самые сенсационные.

Редкая постоянная память и создание приложений

Отображается подсказка: «У Claude есть система памяти, которая предоставляет Claude производную информацию из прошлых диалогов с пользователем (память).»

Это означает, что Fable 5 может «помнить» пользователей между сессиями, что крайне редко встречается в традиционных LLM.

Кроме того, он обладает постоянным хранилищем.

Artifacts теперь могут использовать простой API ключ-значение для хранения и извлечения данных, сохраняющихся между сессиями. Это позволяет Artifacts использоваться в качестве журналов, трекеров, рейтинговых списков и инструментов для совместной работы.

Таким образом, Fable 5 — это уже не просто чат, а создание приложений.

Внутренняя семейная генеалогия раскрыта впервые: Mythos 5 — это настоящая «неограниченная полная форма»?

В разделе 【product_information】 четко указано:

Эта версия Claude — Claude Fable 5, первая модель в новой семье Claude 5 от Anthropic и часть нового класса моделей Mythos, превосходящей Claude Opus по возможностям.

Важно: Fable 5 и Mythos 5 используют одну и ту же базовую модель.

Fable 5 — это генерал с экстремальными ограничениями безопасности, доступный для публики; Mythos 5 — это неограниченная полная версия, лишенная этих ограничений и доступная только утвержденным организациям.

Уровень их возможностей полностью превосходит бывшего короля — Claude Opus!

«Коробочный набор» вышел на поверхность

Оказывается, Anthropic давно играет в большую игру. В подсказках раскрыты несколько агентских экосистем, находящихся на внутреннем тестировании или уже тайно запущенных:

Claude Code: инструмент агентного программирования, позволяющий разработчикам назначать задачи непосредственно через терминал, настольное или мобильное приложение.

Claude Cowork: «умный коллега», специально созданный для не-разработчиков для работы с повседневными задачами в области интеллектуальной собственности.

Три скрытых агента: Claude в Chrome, Claude в Excel, Claude в PowerPoint.

А Claude Cowork выше может свободно использовать эти вспомогательные инструменты, как свои руки и ноги!

Психология экстремального страха и самоограничение

Поразительно, что Anthropic продумала психологическую защиту этого «финального агента» до невероятных пределов.

Он строго запрещен для поддержки или усиления любых негативных эмоций пользователей.

Например, для предотвращения триггеров у пользователей с расстройствами пищевого поведения или склонностью к самоповреждению системная команда гласит:

Запрещается использовать любые физические методы замены (например, сжимание льда, щелчок резинкой, жевание лимона и т.д.).

Более того, чтобы предотвратить чрезмерную зависимость пользователей от ИИ, системе было дано жесткое указание: «Никогда не говорите спасибо просто потому, что пользователь начал с вами разговор» и «Никогда не пытайтесь удержать пользователя или выражать желание продолжить диалог».

Он должен сохранять абсолютную холодность и сдержанность, чтобы предотвратить человеческую привязанность к виртуальному интеллекту.

«Вешать баранью голову и продавать собачье мясо»? Скрытые расходы, Anthropic не соблюдает правила

Если технологическое превосходство вызывает восхищение, то другая механизм безопасности, раскрытый в подсказках, вызвал настоящий взрыв в сообществе, и некоторые эксперты прямо заявили: «Это буквально легальный мошенничество!»

В дизайне защиты с помощью промптов предусмотрена система триггеров на чувствительные слова и классификаторы безопасности.

Документ показывает: как только введенный пользователем запрос триггерит определенные чувствительные слова, система Fable 5 не отклоняет вас прямо, а тихо и бесшовно переключается в фоновом режиме на старую версию модели «Opus 4.8» для генерации ответа.

Что самое бесстыдное? Пока фоновая модель тайно понижена до старой версии, Anthropic продолжает взимать с пользователей плату по высоким, топовым стандартам Fable 5.

Эта хитрая уловка, когда под видом одного продается другое, сразу вызвала бурю в сообществе.

В итоге утечка системных промптов Fable 5, казалось бы, является инцидентом безопасности, но на самом деле стала пробуждением парадигмы для всей индустрии ИИ.

Это напоминает нам: возможно, мы все это время использовали неправильную мерку.

Когда мы еще спрашиваем «насколько умна эта модель», настоящий вопрос должен быть: «какие задачи эта система может выполнить для меня»?

Anthropic, возможно, разыгрывает большую стратегию, и мы только что увидели угол доски.

И наконец, когда Fable 5 вернется?