Редакционная заметка: По мере того как AI-агенты становятся все более дешевыми и легкими в использовании, разработка программного обеспечения вступает в новую фазу: вопрос больше не в том, можно ли запустить больше агентов, а в том, хватит ли у людей внимания, чтобы управлять, оценивать и объединять их результаты.

Эта статья предлагает очень вдохновляющую концепцию — «оркестровочного налога». Стоимость запуска агента невелика — достаточно одного промпта или одного клика; однако настоящие затраты лежат на последующих этапах: проверка корректности результатов, понимание их влияния на архитектуру системы, разрешение конфликтов между различными агентами и, в конечном итоге, решение, какой код можно включить в основную ветку. Эти задачи невозможно просто параллелизовать — они все равно требуют обращения к одному и тому же последовательному ресурсу: человеческому суждению.

Автор сравнивает разработчиков с «GIL» в системе AI Agent — однопоточной блокировкой, ограничивающей конечную пропускную способность параллельной системы. Несколько агентов могут работать одновременно, но при входе в этапы архитектурного анализа, проверки кода и разрешения конфликтов они должны снова пройти через мозг разработчика. Таким образом, чем больше агентов, тем не обязательно выше производительность — возможно, это лишь удлиняет очередь задач на проверку и заставляет разработчиков чаще переключаться между контекстами и испытывать когнитивное утомление.

Это также один из часто упускаемых из виду аспектов нынешней волны инструментов AI-программирования: ощущение эффективности и реальная производительность — не всегда одно и то же. Панель мониторинга агентов, заполненная работающими элементами, создает иллюзию «высокой продуктивности»; однако, если разработчики не понимают, не проверяют и не интегрируют эти изменения на самом деле, в системе в конечном итоге может накопиться не производительность, а технический и когнитивный долг.

Таким образом, настоящая тема этой статьи — не «как использовать больше агентов», а «как перепроектировать рабочие процессы вокруг человеческого внимания». В эпоху агентов ключевым умением является не только умение задавать вопросы и распределять задачи, но и понимание, какие задачи можно передать машине для параллельной обработки, а какие необходимо оставить на усмотрение человека; когда следует проводить пакетный обзор, а когда следует прекратить оркестрацию и сосредоточиться на одной ключевой проблеме.

Искусственный интеллект расширяет параллельные возможности производства программного обеспечения, но человеческое внимание остается самым дефицитным и неповторимым ресурсом в системе. По-настоящему зрелые рабочие процессы агентов — это не передача всех задач машине, а серьезное проектирование собственной архитектуры внимания, как при создании производственной системы.

Следует оригинальный текст:

Сейчас запускать больше AI-агентов стало намного проще. Но большее количество одновременно работающих агентов не означает, что «вы» стали множественными. Ваша когнитивная пропускная способность не может быть параллелизирована. Все истинные суждения, необходимые для управления ими, оценки результатов и объединения изменений, в конечном итоге должны проходить через один и тот же последовательный процессор — вас самих.

Так называемый «налог на планирование» — это по сути цена, которую вы платите, забыв об этом. Единственное настоящее решение — начать проектировать свое внимание так же, как вы проектируете любую параллельную систему.

Ранее я участвовал в круглом столе на Google I/O, где обсуждали с Ричардом Серотером, Аджей Хаммерли и Сьерой Джаспан, как выглядит современное программное обеспечение и как оно может развиваться в будущем. Под конец Ричард спросил нас: что самое главное, что разработчики должны унести с собой и изменить после этого выступления?

Архитектура внимания

Я высказал то, что несколько месяцев подряд не давало мне покоя: ощущение занятости не равно реальной результативности. Вы можете одновременно запустить 20 агентов и чувствовать себя перегруженным. Но это не означает, что вы выполнили объем работы, соответствующий 20 агентам.

Ранее в этом диалоге Ричард дал этому вопросу название. Он сказал: «То, о чём вы только что говорили, — это просто налоговое планирование. Вы не сможете успешно управлять 20 агентами в своей голове».

Он абсолютно прав. Я хочу подробно разобрать эту концепцию, потому что это не проблема самодисциплины, а проблема архитектуры.

Во время того круглого стола я почти случайно произнёс фразу, которая потом не выходила у меня из головы: запуск нескольких агентов не означает, что в мире появился ещё один ты.

Асимметрия, не учтенная людьми

В рабочем процессе агента существует скрытая асимметрия.

Запуск агента очень дешев. Вам нужно лишь нажать одну клавишу или написать один промпт. Но замкнуть цикл агента совсем не дешево. Кто-то должен проверить, правильно ли он вернул результат, и согласовать его с изменениями, внесенными другими агентами.

Это ты. И ты один.

В прошлом месяце я частично затрагивал этот вопрос в статье «Ваш лимит параллельных агентов», где в основном обсуждалась так называемая экологическая тревожность: вы не знаете, какая из параллельных потоков тайно терпит неудачу. Эта статья посвящена структуре, лежащей за этими затратами.

Когда вы начнете воспринимать разработку агента как параллельную систему, вы поймете, что человек сам по себе является лишь одним из компонентов этой системы — очень медленным последовательным компонентом.

Ты тот самый однопоточный ресурс

Если вы писали параллельный код, вы уже обладаете интуитивным пониманием этой проблемы. Просто раньше вы применяли эту интуицию не в том месте.

У Python есть глобальная блокировка интерпретатора (GIL). Вы можете создавать любое количество потоков, но в любой момент времени только один поток может выполнять байт-код Python, поскольку все они должны сначала получить эту блокировку.

Ты — твой собственный GIL для AI-агента.

Они могут работать одновременно. Но как только их задачи требуют настоящего понимания архитектуры системы или решения конфликтов слияния, необходимо сначала получить этот замок. А этот замок единственный, и он находится у вас.

Закон Амдала точно описывает это: предел ускорения, достигаемого за счет параллелизации, зависит от части работы, которая все еще должна выполняться последовательно. Если в вашем процессе существует значительная часть, которую невозможно параллелизовать, то, сколько бы ядер вы ни добавляли, вы неизбежно столкнетесь с жестким пределом.

В разработке агентов эта последовательная часть — это способность к суждению.

Запуск 8 агентов не ускорит ваше время принятия решений. Он только удлинит очередь ожидающих ваших действий.

Это давно известный факт в области производительности, но многие всё ещё удивляются ему: оптимизация неутяжелённых участков не повышает общую пропускную способность. Вы просто накапливаете больше незавершённой работы перед узким местом.

Агент оптимизирует ту часть, которая изначально не была ограничением. Настоящим ограничением является этап проверки, и пропускная способность всей системы恰好 равна пропускной способности этого этапа.

Налог на организацию — это структурный разрыв между производительностью агента и тем, что вы фактически можете объединить. Он возникает, когда вы заставляете однопоточный ресурс управлять параллельной системой.

Принудительное удержание не решает структурные ограничения

На той панельной дискуссии я сказал: «Я никогда раньше не чувствовал, что мои инструменты так эффективны, но и никогда раньше не был так устал».

Оба этих ощущения абсолютно настоящи и возникают из одной и той же причины.

Эта усталость имеет очень конкретный источник: это ощущение постоянной нагрузки последовательного процессора на 100% без какого-либо запаса.

Каждый раз, когда вы возвращаетесь к агенту, вышедшему из поля вашего внимания, вы платите за переключение контекста. Вам нужно очистить сознание и заново загрузить другой контекст с нуля.

ЦП может выполнить это за микросекунды, однако архитекторы всё равно стараются избегать частых переключений. А вам потребуются минуты, и вы никогда не сможете идеально восстановить контекст.

Пять агентов — это не повторение одной и той же работы в пять раз. Это пять запусков с нуля с перезагрузкой контекста плюс фоновый процесс-«мозг», который постоянно беспокоится, какой из агентов вам сейчас стоит проверить.

Вы не можете решить структурное ограничение, просто «прилагая больше усилий». Эта налоговая плата всегда должна быть оплачена.

Если вы пытаетесь упорствовать, это в конечном итоге проявится в другой форме: либо проверка кода становится все более поверхностной, либо вы входите в состояние «когнитивной капитуляции» — потому что формирование собственных суждений требует слишком много внимания, и вы просто принимаете код, написанный агентом.

Ты либо платишь этот налог добровольно, либо позволяешь ему медленно разрушать твоё понимание своей системы в тени.

Дизайн своего внимания, как дизайн-систему

Таким образом, вы должны относиться к своему вниманию как к редкому последовательному ресурсу.

Вы не создаете распределенную систему, полностью игнорируя узкие места. Точно так же относитесь к своему мозгу с таким же уважением.

Вот некоторые методы, которые действительно работают для меня:

Расширять команду агентов на основе способности к рецензированию, а не на основе способности к интерфейсу.

Хорошая параллельная система использует механизм обратной связи, чтобы предотвратить бесконечный рост очереди. Производителю следует замедлить скорость, чтобы соответствовать производительности потребителя.

Количество ваших агентов — это производители, а ваша способность к ревью — это потребители. Правильное количество параллельных агентов должно соответствовать количеству кода, который вы можете внимательно проревьювить. Для большинства людей это обычно очень небольшое однозначное число.

AI-инструменты, конечно, с удовольствием позволят вам запустить 20 агентов, но это всего лишь функция интерфейса и не означает, что вы действительно способны управлять ими.

Классифицировать задачи.

Когда Ричард спросил меня, как справиться с этим, я упомянул этот метод. Я разделю задачи на две группы.

Первая группа — это относительно независимые задачи, которые я готов передать агенту, работающему в облачной системе. Эти задачи могут выполняться асинхронно, и мне обычно достаточно проверить их только на финальном этапе.

Вторая группа — это сложные задачи, где сама суть работы заключается в принятии решений. Например, странный баг или проектирование архитектуры.

Самая большая ошибка — попытка параллелизировать также задачи второго типа. Параллельная обработка нескольких сложных задач не увеличит вашу производительность, а только заставит множество процессов постоянно конкурировать за один и тот же ресурс, в результате чего все итоговые результаты ухудшатся.

Пакетный обзор.

Каждая смена контекста обходится вам очень дорого. Гораздо дешевле сесть и сразу просмотреть результаты четырёх агентов, чем смотреть одного, заняться чем-то другим, а затем снова включаться, чтобы продолжить просмотр другого.

Дайте агенту более длинную поводок. Дайте работе немного накопиться, а затем обрабатывайте её пакетами.

Используйте этот замок только для проверки.

Не тратьте свой мозг на вещи, которые машина может проверить самостоятельно. Пусть агент напишет проходящие тесты или сгенерирует скриншоты.

Позвольте им самостоятельно доказать ту скучную, но проверяемую 80%. Таким образом, ваше ценное внимание будет сосредоточено только на 20%, где требуется человеческая оценка.

Защитите свое время в режиме реального времени.

Бутылочное горлышко требует вашего лучшего времени, а не фрагментов времени, оставшихся между проверками агента.

Иногда самым высоким уровнем рычага является полная остановка хореографии: выключить компьютер, заполненный агентами, и сосредоточиться только на одном вопросе, надежно удерживая этот ключ на протяжении всего процесса.

Организация — это не настоящая работа. Это просто накладные расходы, возникающие вокруг работы.

Ажа отметила, что архитектурные навыки сейчас стали наиболее срочным умением: вам нужно понимать, какие задачи подходят для агента, а какие для него слишком велики.

Я还想补充一点: вы сами являетесь частью этой системы. Ваше внимание имеет известный, очень низкий последовательный показатель пропускной способности. Система либо уважает это число, либо обходит его, незаметно снижая ваши стандарты.

Занятость не равна высокой продуктивности

Это крайне важно, поскольку эта модель сбоя практически незаметна для вас самих.

20 запущенных агентов создают ощущение «безумной продуктивности». Панель управления заполнена, всё движется. Но это ощущение уже не связано с реальным внедрением качественного кода в основную ветку.

Вы можете быть заняты до предела, но при этом почти ничего не создать. Изнутри ощущения этих двух состояний почти идентичны.

Ciera упомянула исследование Маргарет-Энн Стори о долгах. Мы обсудили технический долг и когнитивный долг.

Отсутствие уплаты организационного налога приведет к накоплению обоих видов долгов.

Ты объединил то, что не читал внимательно. Твоя модель кодовой базы полностью устарела. Эти проблемы не появятся на панели управления сегодня — они проявятся, когда система выйдет из строя в продакшене — и тогда ты будешь смотреть на систему и внезапно осознаешь, что уже не знаешь, как она работает.

Таким образом, настоящий вывод заключается в том, что запуск агента — это не способность. Любой может запустить 20.

Настоящая способность — это проектирование систем вокруг ресурса, который нельзя скопировать и нельзя параллелизовать.

Этот ресурс — ваше внимание.

Проектируйте его так же, как и любой ключевой компонент, от которого зависит производственная среда.