Novos testes de referência de IA avaliam otimização de engenharia sem respostas padrão

Se colocarmos a IA em um canteiro de obras sem respostas padrão, ela conseguirá sobreviver?

Por muito tempo, os Agentes de IA pareceram capazes de tudo, mas na verdade a maioria apenas “consulta memórias” em bancos de conhecimento já conhecidos.

Mas o mundo real da engenharia é cruel: estabilidade de robôs subaquáticos, limite de precipitação de lítio em baterias de alta capacidade, controle de ruído em circuitos quânticos... Esses problemas não têm "nota máxima", apenas "otimizações que se aproximam mais do limite".

Recentemente, o Agent Benchmark — Frontier-Eng Bench, lançado pelo Navers Lab sob a Einsia AI, removeu oficialmente o rótulo de “especialista em provas” da IA.

Pesquisa Automática

A equipe de pesquisa não deixou que a IA resolvesse questões de código obsoletas; em vez disso, forneceu a ela um “ciclo de engenharia” completo: propor uma solução, integrar-se ao simulador, lidar com erros, ajustar parâmetros e reexecutar.

Diante de 47 tarefas rigorosas interdisciplinares, a IA deve agir como um engenheiro experiente, buscando a solução ótima no “triângulo impossível” de consumo de energia, segurança e desempenho.

This is not just a test set; it's more like a rehearsal for the "evolution" of the Agent.

Quando a IA começar a aprender a se corrigir com base no feedback, a era do Auto Research — onde os humanos definem os objetivos e a IA itera continuamente 24 horas por dia — pode estar mais próxima do que imaginamos.

A IA começou a fazer o “trabalho pesado”

Os grandes modelos anteriores eram mais como um aluno superexcelente.

Você faz uma pergunta, ele "consulta a memória" em uma enorme quantidade de dados de treinamento e monta uma resposta que parece plausível.

Neste modo, o modelo grande está essencialmente jogando “continuação de texto”, em vez de resolver problemas reais.

Mas o surgimento do Frontier-Eng Bench fez a IA assumir tarefas de "otimização de engenharia".

O processo passou a consistir em fazer o AI propor primeiro uma solução, depois conectar-se ao simulador para executar experimentos, obter feedback e erros, ajustar parâmetros e código, e repetir o processo até que o desempenho continue melhorando.

Nesse sistema fechado, a identidade da IA sofreu uma mudança qualitativa.

Você quer tornar o robô subaquático mais estável? A IA precisa começar a ajustar automaticamente o controlador.

Você quer aumentar ainda mais a velocidade do braço mecânico? A IA precisa executar a simulação sozinha.

Em certa medida, os IA já se afastaram da simples compreensão semântica e começaram a otimizar continuamente, como um engenheiro profissional, com base no feedback de ambientes reais.

Pesquisa Automática

△

O mais interessante sobre o Frontier-Eng Bench é que ele não mede se a IA responde corretamente, mas sim se a IA consegue se tornar continuamente mais forte.

Porque a otimização de engenharia real nunca é uma questão de múltipla escolha, não há uma única resposta correta.

Por exemplo, com a recarga rápida de baterias, o objetivo parece simples — quanto mais rápido, melhor — mas a realidade não é tão fácil.

A IA deve precisamente encontrar o ponto de equilíbrio de desempenho sob restrições rigorosas: a temperatura não pode disparar, a tensão não pode exceder os limites, a vida útil da bateria não pode decair rapidamente e a precipitação de lítio deve ser evitada.

Isso significa que a IA não pode passar por meio de qualquer truque de "prática intensiva"; ela deve demonstrar resistência contínua e evolução por meio de feedback de longo prazo.

Mas o AI pode fazer otimização de longo prazo em um ambiente real?

Dos resultados, o GPT5.4 apresentou o desempenho mais estável, mas ainda há um longo caminho a percorrer para que as IA superem o Benchmark.

Pesquisa Automática

△

Auto Research entra na era de "iteração e otimização"

A equipe de pesquisa mencionou um ponto muito interessante no artigo:

A verdadeira inteligência avançada depende essencialmente de ciclos de feedback de longo prazo.

Assim como o AlphaGo conseguiu derrotar Lee Sedol, não por decorar padrões de jogadas pré-definidos, mas por trás de cada decisão haver uma profundeza imensurável de simulações e feedback em tempo real.

A verdadeira pesquisa científica é a mesma: laboratórios de ponta não dependem de um único momento de inspiração, mas sim de constantemente formular hipóteses, realizar experimentos, analisar resultados, ajustar planos e continuar tentando.

Da mesma forma, a otimização de engenharia: a primeira versão geralmente pode ser feita por qualquer um; o verdadeiramente difícil é os últimos 1% de salto de desempenho.

O significado do Frontier-Eng Bench é que, pela primeira vez, ele começa a testar sistematicamente a "capacidade de iteração e otimização" da IA e resume duas leis de evolução da IA quase cruéis.

Pesquisa Automática

△

A primeira regra é: quanto mais para a frente, mais difícil se torna o progresso.

Este artigo descobre que a frequência e a magnitude das melhorias do agente apresentam decaimento de lei de potência:

Frequência de melhoria ∝ 1/número de iterações
Grau de melhoria ∝ 1/número de melhorias

Em resumo: as primeiras rodadas subiram mais rápido; depois, ficou cada vez mais difícil e menor.

Isso é muito parecido com o processo real de desenvolvimento: a primeira versão do AI consegue eliminar rapidamente muitas "frutas baixas", mas quanto mais avança, mais se aproxima do limite — para extrair mais desempenho, é preciso se esforçar muito.

Será mais vantajoso abrir várias rotas em paralelo para testar e errar? A resposta está no segundo princípio.

Pesquisa Automática

△

Segunda regra: a largura é útil, mas a profundidade é ainda mais indispensável.

Executar várias linhas em paralelo pode evitar travamentos, mas com orçamento fixo, abrir cada cadeia adicional reduz a profundidade.

Muitas conquistas técnicas exigem acúmulo contínuo e ajustes constantes para ocorrerem saltos estruturais; não basta apenas “tentar mais vezes”.

Isso na verdade indica a direção do próximo geração de Agentes: não modelos que fornecem uma resposta única, mas sistemas que podem iterar e se autoevoluir continuamente com base em feedback de longo prazo.

Engenheiros de IA podem realmente estar chegando

O verdadeiro significado profundo deste estudo reside no fato de que ele esboça preliminarmente um sistema de IA que começa a se aproximar de um ciclo de engenharia real.

Pesquisa Automática

△

Imagine quando a IA for integrada a softwares industriais, ambientes de simulação, sistemas CAD, ferramentas de design de chips, plataformas de cálculo científico...

Uma grande transformação na modalidade de produtividade está prestes a ocorrer.

No laboratório do futuro, é muito provável que surja tal divisão de tarefas:

Pesquisadores humanos são responsáveis por propor direções e objetivos.

Por exemplo, “reduzir o consumo de energia deste componente em 30%”, “reduzir ainda mais a utilização da GPU na passagem direta deste modelo”, “melhorar um pouco mais a estabilidade do controle do robô”, “continuar aproximando a fidelidade da linha quântica do limite”, etc.

E a IA fica responsável por “perseguir o caminho”, otimizando continuamente em torno desses objetivos.

Por exemplo, executar automaticamente simulações e experimentos, ler automaticamente os feedbacks do verifier e do simulator, e continuar modificando e otimizando, iterando 24 horas por dia.

Essa lógica de evolução permite que a IA se libere da identidade de "ferramenta de auxílio" e comece a resolver problemas de sistemas complexos como uma verdadeira equipe de engenharia, sem nunca se cansar.

E o problema revelado por este benchmark, Frontier-Eng, é também muito direto:

Quão longe está a IA de alcançar a inteligência de engenharia real quando começa a aprender "otimização de longo prazo"?

Título do artigo: Frontier-Eng: Avaliação de Agentes Autoevolutivos em Tarefas de Engenharia do Mundo Real com Otimização Gerativa

Página inicial do projeto: https://lab.einsia.ai/frontier-eng/

Arxiv: https://arxiv.org/abs/2604.12290

Repositório GitHub: https://github.com/EinsiaLab/Frontier-Engineering

Este artigo é do número de assinantes do WeChat "Quantum Bit", autor: Yunzhong