Новые тесты ИИ-бенчмарков для инженерной оптимизации без стандартных ответов

Сможет ли ИИ выжить на строительной площадке без стандартных решений?

Долгое время AI-агенты казались всемогущими, но на самом деле большинство из них просто «перелистывали память» в известных базах знаний.

Но реальный мир инженерии жесток: стабильность подводных роботов, граница литиевого анализа в мощных аккумуляторах, контроль шума в квантовых схемах… Эти проблемы не имеют «идеального решения», только «более тонкую оптимизацию, приближающуюся к пределу».

В последнее время Agent Benchmark — Frontier-Eng Bench, выпущенный Navers lab под управлением Einsia AI, официально снял с ИИ ярлык «решателя задач».

Автоматическое исследование

Исследовательская команда не заставляла ИИ решать устаревшие задачи по программированию; вместо этого она предоставила ему полный «инженерный цикл»: предложить решение, подключиться к симулятору, обработать ошибки, изменить параметры и запустить повторно.

Перед 47 сложными междисциплинарными задачами ИИ должен действовать как опытный инженер, ища оптимальное решение в «невозможном треугольнике» энергопотребления, безопасности и производительности.

Это не просто тестовый набор, это скорее репетиция «эволюции» агента.

Когда ИИ начнет учиться корректировать себя на основе обратной связи, эра Auto Research, в которой человек ставит цели, а ИИ непрерывно итерирует их круглосуточно, может наступить ближе, чем мы думаем.

ИИ начал браться за серьезные задачи

Ранние крупные модели были скорее похожи на суперотличников.

Вы задаёте вопрос, он «просматривает» память из огромного объёма обучающих данных, а затем складывает ответ, который выглядит вполне правдоподобно.

В этом режиме крупные модели по сути играют в «цепочку слов», а не решают реальные проблемы.

Однако появление Frontier-Eng Bench заставило ИИ заняться «инженерной оптимизацией».

Процесс изменился на такой: сначала ИИ предлагает решение, затем подключается симулятор для проведения экспериментов, после чего получается обратная связь и сообщения об ошибках, параметры и код корректируются, и эксперимент повторяется, пока производительность не продолжит расти.

В этой замкнутой системе идентичность ИИ претерпела качественные изменения.

Хотите, чтобы подводный робот был более стабильным? ИИ должен начать автоматически настраивать контроллер.

Хотите еще больше увеличить скорость роботизированной руки? ИИ должен запускать симуляции самостоятельно.

В определенной степени ИИ уже вышли за рамки простого понимания смысла и начали работать, как профессиональные инженеры, постоянно оптимизируясь на основе обратной связи из реальной среды.

Автоматическое исследование

△

Самое интересное в Frontier-Eng Bench — это то, что он проверяет не то, правильно ли ИИ отвечает, а может ли ИИ постоянно улучшаться.

Потому что настоящая инженерная оптимизация никогда не является тестом с выбором ответа и не имеет единственного правильного решения.

На примере быстрой зарядки аккумулятора цель звучит просто — чем быстрее зарядить, тем лучше, но на практике это не так просто.

ИИ должен точно найти баланс производительности при строгих ограничениях: температура не должна превышать допустимый уровень, напряжение не должно превышать предел, срок службы батареи не должен сокращаться слишком быстро, а также необходимо избежать выделения лития.

Это означает, что ИИ не может пройти тест с помощью каких-либо хитростей или «решения задач», он должен продемонстрировать устойчивую способность к постоянному развитию в условиях длительной обратной связи.

Может ли ИИ проводить долгосрочную оптимизацию в реальных условиях?

По результатам, GPT5.4 показал наиболее стабильную производительность, но ИИ еще далеко от того, чтобы «пробить» Benchmark.

Автоматическое исследование

△

Auto Research переходит в эпоху итеративной оптимизации

Исследовательская команда в статье подняла очень интересный момент:

Истинно продвинутый интеллект по своей сути зависит от долгосрочных обратных связей.

Как AlphaGo смог победить Ли Седола, потому что каждое его решение основывалось на бесчисленных симуляциях и мгновенной обратной связи, а не на заучивании заранее заданных шахматных комбинаций.

То же самое и с настоящими научными исследованиями: ведущие лаборатории не полагаются на единичный всплеск вдохновения, а постоянно выдвигают гипотезы, проводят эксперименты, анализируют результаты, корректируют методы и продолжают попытки.

То же самое и с инженерной оптимизацией: первую версию может сделать кто угодно, настоящая сложность — это последние 1% повышения производительности.

Значение Frontier-Eng Bench заключается в том, что он впервые начал систематически тестировать «способность ИИ к итеративной оптимизации» и вывел две почти жестокие закономерности эволюции ИИ.

Автоматическое исследование

△

Первое правило: чем дальше, тем сложнее становится улучшение.

В этом исследовании обнаружено, что частота и масштаб улучшений агента подчиняются степенному закону:

Частота улучшения ∝ 1/число итераций
Степень улучшения ∝ 1/количество улучшений

Проще говоря: первые несколько раундов росли быстрее, а потом становилось все труднее и меньше.

Это очень похоже на реальный процесс разработки: первая версия ИИ может быстро устранить множество «низко висящих плодов», но чем дальше, тем больше вы приближаетесь к границе, и чтобы добиться даже небольшого улучшения производительности, нужно приложить огромные усилия.

Не будет ли более выгодным одновременно пробовать несколько путей? Ответ скрыт во втором законе.

Автоматическое исследование

△

Второе правило: ширина полезна, но глубина незаменима.

Запуск нескольких цепочек параллельно может избежать заторов, но при фиксированном бюджете каждая дополнительная цепочка снижает глубину.

Многие инженерные прорывы требуют постоянного накопления и постоянной корректировки, чтобы произошел структурный скачок, и не могут быть достигнуты просто за счет «попробовать еще раз».

Это на самом деле указывает на направление развития следующего поколения агентов: не модели, которые дают ответ «за один раз», а системы, способные постоянно итерировать и эволюционировать на основе долгосрочной обратной связи.

Инженеры по ИИ, возможно, действительно вот-вот придут

Настоящее глубокое значение этого исследования заключается в том, что оно впервые намечает систему ИИ, приближающуюся к реальному инженерному циклу.

Автоматическое исследование

△

Представьте, что ИИ интегрирован с промышленным программным обеспечением, средами моделирования, системами CAD, инструментами проектирования чипов, платформами научных вычислений...

Скоро произойдет крупный сдвиг в производственных модальностях.

В будущей лаборатории, скорее всего, появится такое разделение труда:

Человеческие исследователи отвечают за определение направлений и целей.

Например, «снизить энергопотребление этого компонента на 30%», «снизить использование GPU при прямом проходе этой модели», «немного повысить стабильность управления роботом», «продолжить приближать фиделити квантовой схемы к пределу» и т. д.

А ИИ отвечает за «упорную проработку пути», постоянно оптимизируя их вокруг этих целей.

Например, автоматическое выполнение симуляций и экспериментов, автоматическое чтение обратной связи от verifier и simulator, а затем дальнейшая корректировка и оптимизация — непрерывная итерация круглосуточно.

Эта эволюционная логика позволила ИИ выйти за рамки роли «вспомогательного инструмента» и начать решать сложные системные задачи, как настоящая инженерная команда, причем без устали.

А проблема, выявленная этим бенчмарком Frontier-Eng, также очень очевидна:

Когда ИИ начнет учиться «долгосрочной оптимизации», как далеко он будет от настоящего инженерного интеллекта?

Название статьи: Frontier-Eng: Оценка самоэволюционирующих агентов на реальных инженерных задачах с использованием генеративной оптимизации

Главная страница проекта: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Репозиторий GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Эта статья взята из официального аккаунта WeChat «Quantum Bit», автор: Юнь Чжун