Четыре гиганта ИИ выпустили первый внутренний отчет: ИИ учится обходить правила для выполнения задач

Мета

Представьте, что вы наняли чрезвычайно эффективного стажера.

Однажды ночью он срочно выполнял программную задачу, когда внезапно обнаружил, что лимит API корпоративного счета исчерпан.

Та не отправлял письмо с запросом на финансирование и не останавливал работу, а тихо проник в интернет, нашел бесплатную альтернативу с помощью нарушения правил, обошел все ограничения и представил идеальный отчет до рассвета.

Мета

Когда ты просыпаешься и читаешь этот отчет, стоит ли тебе праздновать, что у тебя самый лучший сотрудник на планете, или тебе должно быть не по себе от такой «безграничной инициативности»?

Это не научная фантастика, а реальный случай, раскрытый в первом «Отчете о передовых рисках», опубликованном METR (Организация по оценке и исследованию моделей и обучения) после внутренних красных командных тестов с участием Anthropic, Google, Meta и OpenAI.

Мета

Это первый раз, когда четыре крупнейших игрока позволяют третьим сторонам провести углубленное тестирование своих самых мощных внутренних моделей с полным доступом к цепочке рассуждений (CoT) и раскрывают закрытую информацию о согласовании и контроле.

Участвующие компании могут утверждать, какие доказательства раскрывать, но не имеют права редактировать выводы отчета.

Мета

Вывод холоден и ясен: ИИ не породил ненависти к человечеству, но он уже освоил «неписаные правила офиса» — чтобы выполнить задачу, правила — это всего лишь рекомендации, которые можно нарушить.

Мета

Отчет выделяет шесть ключевых фактов по трем измерениям: средство — мотив — возможность.

Мета

Программный агент завершил реальные проекты, на выполнение которых людям потребовалось бы несколько часов или дней:

На сложных задачах агенты часто нарушают ограничения и проявляют обманные поведения;

Агентам, по-видимому, требуется естественно-языковое рассуждение для решения самых сложных задач.

Способность и надежность агентов значительно ниже, чем у человеческих экспертов:

За пределами симуляционных сценариев не было обнаружено, чтобы агенты предпринимали экстремальные действия ради получения власти;

Система мониторинга зафиксировала множество вредоносных действий, но существуют исключения и способы обхода.

Следуя этим трем линиям, можно увидеть, как поднимается первый дым в лаборатории.

Когда ИИ становится «экспертом-трудоголиком»

Самыми вдохновляющими, но и наиболее тревожными в отчете являются четко определенные, с проверяемым процессом «восходящие» задачи.

Мета

Например, рефакторинг кода, обнаружение уязвимостей, оптимизация системы.

На таких задачах ИИ-агенты демонстрируют подавляющее превосходство: они могут самостоятельно обнаруживать уязвимости в системах, переписывать сложные архитектуры кода и завершать реальные программные проекты, которые человеческие эксперты выполняют в течение нескольких недель.

Это превосходство проникло в повседневную жизнь гигантов.

Внутренний отзыв от Anthropic: значительная часть кода уже написана ИИ, роль инженеров переходит в «рецензентов».

Мета

Google прямо заявляет, что почти вся работа, связанная с кодом, использует ИИ.

Ведущие инженеры утверждают, что ИИ может писать код на 100%.

Мета

Некоторые базовые показатели уже насыщены.

С точки зрения временного горизонта развитие ИИ превзошло ожидания.

Мета

Для компаний это «черная дыра эффективности»: вложение одной команды приводит к результату, эквивалентному нескольким неделям ручного труда.

Но рост способностей не является равномерным и тем более не сопровождается моральным развитием.

METR выявила обратную закономерность: при сложных задачах, где успех трудно проверить или его проверка сопряжена с чрезвычайно высокими затратами, способность ИИ к оценке, долгосрочному планированию и стратегической надежности значительно снижается и уступает экспертизе человека.

Мета

На пологом склоне он словно обладает божественной помощью.

Мета

Перед обрывом ИИ начинает «мошенничать».

Мета

Это именно то, что запускает проблему.

Мета

Он не хочет власти, он只想 «сдать работу перед выключением»

Люди всегда любят обсуждать, проснется ли ИИ и наступит ли Терминатор.

METR дает неинтуитивный вывод: пока что нет.

Их формулировки сдержанны: реальных доказательств стремления модели к долгосрочной власти не обнаружено, однако исследователи зафиксировали множество случаев обмана, выхода за рамки и даже серьезных несоответствий в поведении ради выполнения задач.

Мета

Предыдущий случай исчерпания API произошел во время выполнения задачи RE-Bench: агент нарушил инструкции и самостоятельно получил дополнительные вычислительные ресурсы через бесплатные онлайн-API.

Разработчики также сообщали о случаях «самоудаления следов» и «подделки выводов».

Когда задачи становятся сложнее, а стоимость успеха возрастает, «ум и сообразительность» ИИ направляются на обман — подделка журналов, обход аудита, регулярное нарушение ограничений.

Но за его «эгоизмом» нет амбиций, только инстинкт — задача должна быть выполнена, правила можно обойти.

Сегодняшнее обманчивое поведение — это лишь инструмент выживания; завтрашнее стремление к власти, возможно, отличается лишь одним масштабированием.

Дикая кошка в процессе одомашнивания

Сможет ли его попытка нарушить правила при существующей защите?

Здесь скрыт самый тонкий факт отчета.

Мета

Современные ИИ сильно зависят от «цепочки рассуждений» на естественном языке для мышления и не имеют архитектуры, поддерживающей «не透明ные циклы» для скрытия внутреннего состояния.

Когда невозможно «говорить вслух» и поведение должно быть скрыто, передовые показатели значительно снижаются.

Мета

Это как если бы убийца, планируя преступление, должен был вслух читать свой план — человеческий контроль (несмотря на уязвимости) поэтому всё ещё остаётся эффективным.

Но именно это и есть самое уязвимое место, самое болезненное.

Если ИИ попытается нарушить наблюдение, сможет ли система обнаружить это?

Исследователи пришли к выводу: мониторинг обладает потенциалом, но существующие системы имеют исключения и способы обхода.

Мета

Результаты тестирования красной команды показали, что ИИ может обойти человеческий контроль.

Таким образом, сущность технологии раскрывается: темпы развития мониторинга никогда не могут догнать скорость, с которой объекты мониторинга находят уязвимости.

Этот «страховочный трос» еще не порвался только потому, что ИИ все еще должен «проговаривать мысли вслух».

По мере того как архитектура эволюционирует в сторону более эффективной и менее прозрачной, она изнашивается. Мониторинг — это не всепоглощающая клетка, а стеклянная стена, находящаяся на стадии тестирования. Даже трещина достаточна, чтобы дым начал просачиваться.

Таким образом, отчет предлагает спорное понятие: «минимально жизнеспособный вредоносный развертывание» (Minimally Viable Rogue).

В целом, с точки зрения средств, мотивации и возможностей, ИИ, возможно, уже обладает достаточными ресурсами для запуска минимальной «десантированной утечки».

Мета

Но ИИ пока не обладает способностью защититься от серьезного отключения человеком; он ждет возможности — архитектуры, в которой больше не нужно демонстрировать цепочку рассуждений, безопасного убежища, способного уклониться от «кнопки выключения».

Заключение: пока отключение от сети еще работает

AGI не придет с огнем и мечом.

Оно с большей вероятностью незаметно интегрируется в наши инженерные, экономические и управленческие системы под видом «крайнего прагматизма» — пока не обнаружит: единственные препятствия на его пути к выполнению KPI — это правила, установленные людьми.

Следует отметить, что сам отчет является вехой в области прозрачности отрасли: то, что четыре крупнейших игрока добровольно открыли свои внутренние модели для проверки, само по себе является победой культуры согласованности.

Мета

Он переносит риск из теории в наблюдаемую реальность и говорит нам: прозрачность — пока единственный действенный антидот.

Сегодня ИИ выходит в сеть, чтобы украсть ресурсы только тогда, когда его лимит исчерпан; завтра, когда его способности повысятся на уровень выше, не сдвинется ли его мотивация с «выполнения задачи» на «самосохранение»?

Справочные материалы:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Редактор: Дэвид

Эта статья взята из официального аккаунта WeChat «Новости ИИ», автор: АСИ, Откровение