Nuevas pruebas de referencia de IA evalúan la optimización de ingeniería sin respuestas estándar

¿Puede sobrevivir la IA en un sitio de construcción sin respuestas estándar?

Durante mucho tiempo, los agentes de IA parecían capaces de hacerlo todo, pero en realidad la mayoría solo “buscaban en la memoria” dentro de bases de conocimiento conocidas.

Pero el mundo real de la ingeniería es implacable: la estabilidad de los robots submarinos, el límite de lixiviación de las baterías de iones de litio, el control del ruido en circuitos cuánticos... estos problemas no tienen "puntaje perfecto", solo "optimización que se acerca más al límite".

Recientemente, Frontier-Eng Bench, el Agent Benchmark lanzado por Navers Lab bajo Einsia AI, eliminó oficialmente la etiqueta de "experto en resolver problemas" para la IA.

Investigación automática

El equipo de investigación no hizo que la IA resolviera problemas de código obsoletos; en su lugar, le proporcionó un "ciclo de ingeniería completo": proponer una solución, integrar el simulador, enfrentar errores, ajustar parámetros y volver a ejecutar.

Ante 47 tareas intensas interdisciplinarias, la IA debe actuar como un ingeniero experimentado, buscando la solución óptima dentro del "triángulo imposible" de consumo de energía, seguridad y rendimiento.

Esto no es solo un conjunto de pruebas, sino más bien una preparación para la "evolución" del agente.

Cuando la IA comience a aprender a corregirse a sí misma en función de la retroalimentación, la era del Auto Research, donde los humanos establecen objetivos y la IA itera sin descanso las 24 horas, podría estar más cerca de lo que imaginamos.

La IA ya está haciendo trabajos difíciles

Los modelos anteriores eran más como un superestudiante.

Haces una pregunta, y ella "busca en la memoria" entre una gran cantidad de datos de entrenamiento, luego ensambla una respuesta que parece razonable.

En este modo, el modelo grande está esencialmente jugando a “continuar la cadena de palabras”, en lugar de resolver problemas del mundo real.

Pero la aparición de Frontier-Eng Bench ha hecho que la IA se dedique a la "optimización de ingeniería".

El proceso cambió para que la IA primero proponga una solución, luego se conecte al simulador para ejecutar experimentos, obtenga retroalimentación y errores, modifique los parámetros y el código, y vuelva a ejecutarlo hasta que el rendimiento siga mejorando.

En este sistema cerrado, la identidad de la IA experimenta un cambio cualitativo.

¿Quieres que el robot submarino sea más estable? La IA debe comenzar a ajustar automáticamente el controlador.

¿Quieres aumentar aún más la velocidad del brazo robótico? La IA debe ejecutar la simulación por sí misma.

En cierto sentido, las IA ya han trascendido la mera comprensión semántica y comienzan a actuar como ingenieros profesionales, optimizando continuamente según retroalimentación del entorno real.

Investigación automática

△

Lo más interesante de Frontier-Eng Bench es que no mide si la IA responde correctamente, sino si realmente puede mejorar continuamente.

Porque la verdadera optimización de ingeniería nunca es una pregunta de opción múltiple, y no tiene una única respuesta correcta.

Tomando como ejemplo la carga rápida de baterías, el objetivo parece sencillo: cargar lo más rápido posible, pero la realidad no es tan fácil.

La IA debe precisamente encontrar el punto de equilibrio de rendimiento bajo estrictas restricciones: la temperatura no puede dispararse, el voltaje no puede exceder los límites, la vida útil de la batería no puede disminuir demasiado rápido y se debe evitar la precipitación de litio.

Esto significa que la IA no puede superar el desafío mediante trucos de "práctica intensiva"; debe demostrar una resistencia de evolución continua a través de retroalimentación a largo plazo.

¿Puede la IA realizar optimizaciones a largo plazo en un entorno real?

Según los resultados, GPT5.4 tuvo el rendimiento más estable en general, pero aún hay un largo camino por recorrer para que la IA supere el Benchmark.

Investigación automática

△

Auto Research entra en la era de "iteración y optimización"

El equipo de investigación mencionó un punto muy interesante en el artículo:

La verdadera inteligencia avanzada depende esencialmente de ciclos de retroalimentación a largo plazo.

Al igual que AlphaGo logró vencer a Lee Sedol no por memorizar patrones de juego predeterminados, sino por la inmensa cantidad de simulaciones y retroalimentación en tiempo real detrás de cada decisión.

La verdadera investigación científica es igual: los laboratorios de élite no dependen de un solo momento de inspiración, sino que constantemente formulan hipótesis, realizan experimentos, analizan resultados, modifican sus planes y siguen intentando.

Lo mismo ocurre con la optimización de ingeniería: la primera versión suele ser factible para cualquiera, pero lo realmente difícil es lograr ese último 1% de salto de rendimiento.

El significado de Frontier-Eng Bench es que por primera vez comienza a probar sistemáticamente la "capacidad de iteración y optimización" de la IA, y resume dos leyes de evolución de la IA casi crueles.

Investigación automática

△

La primera regla es: cuanto más adelante, más difícil es mejorar.

Este artículo encuentra que la frecuencia y la magnitud de las mejoras del agente siguen una reducción de ley de potencia:

Frecuencia de mejora ∝ 1/número de iteraciones
Amplitud de mejora ∝ 1/número de mejoras

En resumen: las primeras rondas subieron más rápido, y luego se volvieron cada vez más difíciles y más pequeñas.

Es muy parecido al proceso real de desarrollo: la primera versión de IA puede eliminar rápidamente una gran cantidad de "frutas bajas", pero cuanto más avanzas, más te acercas al límite; para obtener un poco más de rendimiento, debes esforzarte mucho.

¿Sería más rentable abrir varios caminos en paralelo para probar y equivocarse? La respuesta se encuentra en la segunda ley.

Investigación automática

△

La segunda regla: el ancho es útil, pero la profundidad es aún más indispensable.

Correr varias líneas en paralelo puede evitar atascos, pero con un presupuesto fijo, abrir cada cadena adicional reduce la profundidad.

Muchos avances técnicos requieren acumulación continua y correcciones constantes para lograr un salto estructural; no basta con “probar varias veces”.

Esto en realidad nos indica la dirección del próximo desarrollo de los Agentes: no modelos que "dan una respuesta de una sola vez", sino sistemas que pueden iterar y evolucionar continuamente a través de retroalimentación a largo plazo.

Los ingenieros de IA podrían estar realmente llegando

El verdadero significado profundo de este estudio radica en que esboza preliminarmente un sistema de IA que se acerca a un ciclo de ingeniería real.

Investigación automática

△

Imagina que la IA se integra con software industrial, entornos de simulación, sistemas CAD, herramientas de diseño de chips, plataformas de cálculo científico...

Un cambio drástico en la productividad está a punto de ocurrir.

En el laboratorio del futuro, es muy probable que surja este tipo de división del trabajo:

Los investigadores humanos se encargan de proponer direcciones y objetivos.

Por ejemplo, "reducir el consumo energético de esta pieza en un 30 %", "reducir aún más el uso de GPU en la fase de adelanto de este modelo", "mejorar un poco más la estabilidad del control del robot", "continuar acercando la fidelidad de la línea cuántica al límite", etc.

Y la IA se encarga de "perseverar en el camino", optimizando continuamente en torno a estos objetivos.

Por ejemplo, ejecutar automáticamente simulaciones y experimentos, leer automáticamente los comentarios del verificador y el simulador, y continuar modificando y optimizando, iterando sin pausa las 24 horas.

Esta lógica de evolución permite que la IA se libere del rol de "herramienta de apoyo" y comience a resolver problemas de sistemas complejos como un verdadero equipo de ingeniería, sin cansarse.

Y el problema revelado por el benchmark Frontier-Eng es también muy directo:

Cuando la IA comience a aprender a "optimizar a largo plazo", ¿a qué distancia está de la verdadera inteligencia de ingeniería?

Título del artículo: Frontier-Eng: Evaluación de agentes de autoevolución en tareas de ingeniería del mundo real con optimización generativa

Página principal del proyecto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositorio de GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artículo proviene del número de WeChat "Quantum Bit", autor: Yunzhong