Нові тести з штучним інтелектом для оцінки інженерної оптимізації без стандартних відповідей

Чи зможе штучний інтелект вижити на будівельному майданчику без стандартних відповідей?

Протягом тривалого часу AI-агенти виглядали всевладними, але насправді більшість з них просто «переглядають пам’ять» у відомих базах знань.

Але справжній інженерний світ жорстокий: стабільність підводних роботів, межа літіювання в батареях, керування шумом у квантових схемах… Ці проблеми не мають «відмінника», є лише «більш точна оптимізація, що наближається до межі».

Недавно Agent Benchmark — Frontier-Eng Bench, опублікований Navers lab під егідою Einsia AI, офіційно зняв з штучного інтелекту ярлик «розв’язувача задач».

Автоматичне дослідження

Дослідницька команда не заставляла ІІ вирішувати застарілі задачі з коду, натомість надала їй повний «інженерний цикл»: запропонувати рішення, підключитися до симулятора, отримати помилки, змінити параметри, перезапустити.

Перед 47 складними завданнями міждисциплінарної спрямованості штучний інтелект повинен вести себе як досвідчений інженер, шукаючи оптимальний розв’язок у «неможливому трикутнику» енергоспоживання, безпеки та продуктивності.

Це не просто тестовий набір, це більше схоже на попереднє відтворення «еволюції» агента.

Коли ШІ почне вчитися самокорекції через зворотний зв’язок, ера Auto Research, коли людина встановлює цілі, а ШІ ітерує їх 24/7, може настати швидше, ніж ми уявляємо.

Штучний інтелект почав виконувати «складні завдання»

Колишні великі моделі були більше схожі на суперстудента.

Ви ставите запитання, вона «шukaє пам’ять» серед величезного обсягу навчальних даних, а потім складає відповідь, яка виглядає досить правдоподібно.

У цьому режимі велика модель суттєво грає у «ланцюжок слів», а не вирішує реальні проблеми.

Але з’явлення Frontier-Eng Bench заставило ШІ зайнятися «інженерною оптимізацією».

Процес перетворився на те, що спочатку AI пропонує рішення, потім підключає симулятор для проведення експериментів, отримує зворотний зв’язок та помилки, змінює параметри та код, а потім повторно запускає, доки продуктивність не продовжуватиме зростати.

У цій замкненій системі ідентичність ШІ зазнає якісної зміни.

Хочете зробити підводного робота більш стабільним? Штучний інтелект повинен почати автоматично налаштовувати контролер.

Хочете ще більше збільшити швидкість роботизованої руки? ІІ має запускати симуляцію самостійно.

На певному рівні штучні інтелекти вже вийшли за межі простого розуміння сенсу й почали оптимізуватися неперервно, як професійні інженери, на основі реальних відгуків з середовища.

Автоматичне дослідження

△

Найцікавіше в Frontier-Eng Bench — це те, що він вимірює не те, чи відповідає ШІ правильно, а чи здатний ШІ постійно покращуватися.

Справжня інженерна оптимізація ніколи не є тестом з вибором відповіді, і не існує єдиного правильного рішення.

Наприклад, швидке заряджання батарей: мета звучить просто — чим швидше зарядити, тим краще, але на практиці це не так просто.

Машинне навчання має точно знайти баланс продуктивності за строгих обмежень: температура не повинна перевищувати допустимий рівень, напруга не повинна перевищувати ліміт, термін служби батареї не повинен швидко скорочуватися, а також необхідно уникати випадання літію.

Це означає, що ШІ не може пройти тест за допомогою будь-яких хитрощів «розв’язування задач» — він повинен продемонструвати постійну здатність до еволюції в довгостроковій зворотному зв’язку.

Чи може ШІ проводити довгострокову оптимізацію в реальних умовах?

За результатами, GPT5.4 показав найстабільніший результат, але шлях до того, щоб «пробити» Benchmark, у штучного інтелекту ще довгий.

Автоматичне дослідження

△

Auto Research входить у епоху «ітеративної оптимізації»

Дослідницька команда в статті згадала дуже цікавий момент:

Справжній високий інтелект суттєво залежить від довгострокових зворотних зв’язків.

Як і AlphaGo зміг перемогти Ли Седола, не запам’ятовуючи фіксовані шахові комбінації, а завдяки безлічі симуляцій та миттєвій зворотній зв’язку, що лежать в основі кожного його ходу.

Те ж саме стосується справжніх наукових досліджень: топові лабораторії не покладаються на один разовий вибух інспірації, а постійно формулюють гіпотези, проводять експерименти, аналізують результати, коригують схеми і продовжують спроби.

Те саме стосується і оптимізації інженерних рішень: першу версію може зробити хто завгодно, а справжня складність — це останні 1% зростання продуктивності.

Значення Frontier-Eng Bench полягає в тому, що він вперше систематично тестує «здатність AI до ітераційної оптимізації» і висвітлює дві майже жорстокі закономірності еволюції AI.

Автоматичне дослідження

△

Перше правило: чим далі, тим складніше підвищувати.

Ця стаття виявила, що частота та масштаб покращень агента підкоряються степеневому закону:

Частота покращення ∝ 1/кількість ітерацій
Ступінь покращення ∝ 1/кількість покращень

Простими словами: перші кілька раундів зростали найшвидше, а потім ставало все складніше і менше.

Це дуже схоже на реальний процес розробки: перша версія ШІ швидко видаляє велику кількість «низько висячих плодів», але чим далі, тим більше наближаєшся до обмежень — щоб витягнути ще трохи продуктивності, потрібно прикласти величезні зусилля.

Чи буде більш вигідно відкрити кілька шляхів паралельно для експериментів? Відповідь прихована у другому закономірності.

Автоматичне дослідження

△

Друге правило: ширина корисна, але глибина є незамінною.

Паралельне запускання кількох ліній може уникнути заторів, але при фіксованому бюджеті кожна додаткова ланцюжок зменшує глибину.

Багато інженерних проривів вимагають постійного накопичення та постійної корекції, щоб відбулася структурна стрибок, і це не можна досягти просто «спробувавши більше разів».

Це насправді вказує на напрямок розвитку агентів наступного покоління: не моделі, які надають відповідь за один раз, а системи, які можуть постійно ітерувати та саморозвиватися на основі довгострокових зворотних зв’язків.

Інженери з ІІ, мабуть, справді наступають

Справжній глибокий зміст цього дослідження полягає в тому, що воно вперше намітило систему ШІ, яка наближається до реального інженерного циклу.

Автоматичне дослідження

△

Уявіть, що ІІ вбудовується в промислове програмне забезпечення, середовища симуляції, системи CAD, інструменти проектування чіпів, наукові обчислювальні платформи…

Наближається велика зміна в продуктивних модальностях.

У майбутніх лабораторіях, швидше за все, з’явиться таке розподілення обов’язків:

Людські дослідники відповідають за визначення напрямків і цілей.

Наприклад, «зменшити споживання енергії цього компонента на 30%», «знизити використання GPU під час прямого проходу цієї моделі», «трохи покращити стабільність керування роботом», «продовжити наближення фіделятності квантової схеми до межі» тощо.

АІ відповідає за «постійне вдосконалення шляху», постійно оптимізуючи їх навколо цих цілей.

Наприклад, автоматичне запускання симуляцій та експериментів, автоматичне зчитування відгуків від verifier та simulator, а потім продовження модифікації та оптимізації — ітерації без зупинки протягом 24 годин.

Ця еволюційна логіка дозволила ІІ вийти за межі ролі «допоміжного інструменту» і почати вирішувати складні системні проблеми, як справжній інженерний команди, причому без втоми.

А проблеми, виявлені Benchmark Frontier-Eng, дуже прямі:

Коли ШІ почне вчитися «довгострокової оптимізації», наскільки він далеко від справжнього інженерного інтелекту?

Назва статті: Frontier-Eng: Оцінка саморозвиваючихся агентів на реальних інженерних завданнях за допомогою генеративної оптимізації

Головна сторінка проекту: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

GitHub репозиторій: https://github.com/EinsiaLab/Frontier-Engineering

Цей матеріал з іншого каналу WeChat «Quantum Bit», автор: Юньчжун