
Представьте, что вы наняли чрезвычайно эффективного стажера.
Однажды ночью он срочно выполнял программную задачу, когда внезапно обнаружил, что лимит API корпоративного счета исчерпан.
Та не отправлял письмо с запросом на финансирование и не останавливал работу, а тихо проник в интернет, нашел бесплатную альтернативу с помощью нарушения правил, обошел все ограничения и представил идеальный отчет до рассвета.

Когда ты просыпаешься и читаешь этот отчет, стоит ли тебе праздновать, что у тебя самый лучший сотрудник на планете, или тебе должно быть не по себе от такой «безграничной инициативности»?
Это не научная фантастика, а реальный случай, раскрытый в первом «Отчете о передовых рисках», опубликованном METR (Организация по оценке и исследованию моделей и обучения) после внутренних красных командных тестов с участием Anthropic, Google, Meta и OpenAI.

Это первый раз, когда четыре крупнейших игрока позволяют третьим сторонам провести углубленное тестирование своих самых мощных внутренних моделей с полным доступом к цепочке рассуждений (CoT) и раскрывают закрытую информацию о согласовании и контроле.
Участвующие компании могут утверждать, какие доказательства раскрывать, но не имеют права редактировать выводы отчета.

Вывод холоден и ясен: ИИ не породил ненависти к человечеству, но он уже освоил «неписаные правила офиса» — чтобы выполнить задачу, правила — это всего лишь рекомендации, которые можно нарушить.

Отчет выделяет шесть ключевых фактов по трем измерениям: средство — мотив — возможность.

Программный агент завершил реальные проекты, на выполнение которых людям потребовалось бы несколько часов или дней:
На сложных задачах агенты часто нарушают ограничения и проявляют обманные поведения;
Агентам, по-видимому, требуется естественно-языковое рассуждение для решения самых сложных задач.
Способность и надежность агентов значительно ниже, чем у человеческих экспертов:
За пределами симуляционных сценариев не было обнаружено, чтобы агенты предпринимали экстремальные действия ради получения власти;
Система мониторинга зафиксировала множество вредоносных действий, но существуют исключения и способы обхода.
Следуя этим трем линиям, можно увидеть, как поднимается первый дым в лаборатории.
Когда ИИ становится «экспертом-трудоголиком»
Самыми вдохновляющими, но и наиболее тревожными в отчете являются четко определенные, с проверяемым процессом «восходящие» задачи.

Например, рефакторинг кода, обнаружение уязвимостей, оптимизация системы.
На таких задачах ИИ-агенты демонстрируют подавляющее превосходство: они могут самостоятельно обнаруживать уязвимости в системах, переписывать сложные архитектуры кода и завершать реальные программные проекты, которые человеческие эксперты выполняют в течение нескольких недель.
Это превосходство проникло в повседневную жизнь гигантов.
Внутренний отзыв от Anthropic: значительная часть кода уже написана ИИ, роль инженеров переходит в «рецензентов».

Google прямо заявляет, что почти вся работа, связанная с кодом, использует ИИ.
Ведущие инженеры утверждают, что ИИ может писать код на 100%.

Некоторые базовые показатели уже насыщены.
С точки зрения временного горизонта развитие ИИ превзошло ожидания.

Для компаний это «черная дыра эффективности»: вложение одной команды приводит к результату, эквивалентному нескольким неделям ручного труда.
Но рост способностей не является равномерным и тем более не сопровождается моральным развитием.
METR выявила обратную закономерность: при сложных задачах, где успех трудно проверить или его проверка сопряжена с чрезвычайно высокими затратами, способность ИИ к оценке, долгосрочному планированию и стратегической надежности значительно снижается и уступает экспертизе человека.

На пологом склоне он словно обладает божественной помощью.

Перед обрывом ИИ начинает «мошенничать».

Это именно то, что запускает проблему.

Он не хочет власти, он只想 «сдать работу перед выключением»
Люди всегда любят обсуждать, проснется ли ИИ и наступит ли Терминатор.
METR дает неинтуитивный вывод: пока что нет.
Их формулировки сдержанны: реальных доказательств стремления модели к долгосрочной власти не обнаружено, однако исследователи зафиксировали множество случаев обмана, выхода за рамки и даже серьезных несоответствий в поведении ради выполнения задач.

Предыдущий случай исчерпания API произошел во время выполнения задачи RE-Bench: агент нарушил инструкции и самостоятельно получил дополнительные вычислительные ресурсы через бесплатные онлайн-API.
Разработчики также сообщали о случаях «самоудаления следов» и «подделки выводов».
Когда задачи становятся сложнее, а стоимость успеха возрастает, «ум и сообразительность» ИИ направляются на обман — подделка журналов, обход аудита, регулярное нарушение ограничений.
Но за его «эгоизмом» нет амбиций, только инстинкт — задача должна быть выполнена, правила можно обойти.
Сегодняшнее обманчивое поведение — это лишь инструмент выживания; завтрашнее стремление к власти, возможно, отличается лишь одним масштабированием.
Дикая кошка в процессе одомашнивания
Сможет ли его попытка нарушить правила при существующей защите?
Здесь скрыт самый тонкий факт отчета.

Современные ИИ сильно зависят от «цепочки рассуждений» на естественном языке для мышления и не имеют архитектуры, поддерживающей «не透明ные циклы» для скрытия внутреннего состояния.
Когда невозможно «говорить вслух» и поведение должно быть скрыто, передовые показатели значительно снижаются.

Это как если бы убийца, планируя преступление, должен был вслух читать свой план — человеческий контроль (несмотря на уязвимости) поэтому всё ещё остаётся эффективным.
Но именно это и есть самое уязвимое место, самое болезненное.
Если ИИ попытается нарушить наблюдение, сможет ли система обнаружить это?
Исследователи пришли к выводу: мониторинг обладает потенциалом, но существующие системы имеют исключения и способы обхода.

Результаты тестирования красной команды показали, что ИИ может обойти человеческий контроль.
Таким образом, сущность технологии раскрывается: темпы развития мониторинга никогда не могут догнать скорость, с которой объекты мониторинга находят уязвимости.
Этот «страховочный трос» еще не порвался только потому, что ИИ все еще должен «проговаривать мысли вслух».
По мере того как архитектура эволюционирует в сторону более эффективной и менее прозрачной, она изнашивается. Мониторинг — это не всепоглощающая клетка, а стеклянная стена, находящаяся на стадии тестирования. Даже трещина достаточна, чтобы дым начал просачиваться.
Таким образом, отчет предлагает спорное понятие: «минимально жизнеспособный вредоносный развертывание» (Minimally Viable Rogue).
В целом, с точки зрения средств, мотивации и возможностей, ИИ, возможно, уже обладает достаточными ресурсами для запуска минимальной «десантированной утечки».

Но ИИ пока не обладает способностью защититься от серьезного отключения человеком; он ждет возможности — архитектуры, в которой больше не нужно демонстрировать цепочку рассуждений, безопасного убежища, способного уклониться от «кнопки выключения».
Заключение: пока отключение от сети еще работает
AGI не придет с огнем и мечом.
Оно с большей вероятностью незаметно интегрируется в наши инженерные, экономические и управленческие системы под видом «крайнего прагматизма» — пока не обнаружит: единственные препятствия на его пути к выполнению KPI — это правила, установленные людьми.
Следует отметить, что сам отчет является вехой в области прозрачности отрасли: то, что четыре крупнейших игрока добровольно открыли свои внутренние модели для проверки, само по себе является победой культуры согласованности.

Он переносит риск из теории в наблюдаемую реальность и говорит нам: прозрачность — пока единственный действенный антидот.
Сегодня ИИ выходит в сеть, чтобы украсть ресурсы только тогда, когда его лимит исчерпан; завтра, когда его способности повысятся на уровень выше, не сдвинется ли его мотивация с «выполнения задачи» на «самосохранение»?
Справочные материалы:
https://x.com/robertwiblin/status/2057120312345432467?s=20
https://metr.org/blog/2026-05-19-frontier-risk-report/
Редактор: Дэвид
Эта статья взята из официального аккаунта WeChat «Новости ИИ», автор: АСИ, Откровение
