Biohub lança o ESM Atlas com 11 bilhões de estruturas proteicas, desafia o AlphaFold

O trono do AlphaFold está em perigo!

Nature publica artigo: O Biohub de Zuckerberg lança um golpe poderoso, lançando de uma só vez 1,1 bilhão de previsões de estruturas proteicas, 800 milhões a mais que o banco de dados AlphaFold.

O modelo de IA por trás, ESMFold2, é anunciado como superando totalmente o AlphaFold3 em desempenho.

Mais importante ainda, totalmente de código aberto, sem restrições comerciais.

Biohub

https://www.nature.com/articles/d41586-026-01686-3

A hegemonia de longa data da Google DeepMind na IA de proteínas está sendo abalada por um concorrente de código aberto.

O cenário da corrida de IA de proteínas pode ser reescrito.

1,1 bilhão de estruturas de proteínas, servidas prontas na sua mesa

Em 27 de maio, a instituição biomédica Biohub, criada por Zuckerberg e sua esposa, lançou oficialmente o banco de dados de estruturas proteicas chamado ESM Atlas.

1,1 bilhão de estruturas de proteínas previstas, além de 6,8 bilhões de sequências de proteínas.

O banco de dados do AlphaFold acumulou mais de 200 milhões de previsões de estruturas, e o ESM Atlas adicionou mais 800 milhões logo de início.

O modelo de IA que gerou essas previsões é chamado ESMFold2, desenvolvido sob a liderança de Alex Rives, diretor científico do Biohub.

Biohub

Rives diz:

Este gráfico apresenta uma visão abrangente da biologia das proteínas, especialmente as partes mais desconhecidas.

Why is protein structure prediction important?

As proteínas são peças centrais para o funcionamento da vida; conhecer sua forma permite entender sua função, permitindo o desenvolvimento de novos medicamentos e a cura de doenças.

AlphaFold ganhou o Prêmio Nobel de Química com isso, sendo um caso marcante de como a IA está transformando a ciência.

Agora, um novo modelo surgiu com um conjunto de dados 5 vezes maior.

Como modelo de IA, em que consiste a força do ESMFold2?

ESMFold2 seguiu uma rota técnica diferente da AlphaFold.

Ele é construído com base no "modelo de linguagem de proteínas" lançado em 2024, cuja ideia central é inspirada em abordagens da área de PNL, tratando sequências de proteínas como uma "linguagem" e treinando o modelo com bilhões de dados de proteínas para que ele aprenda a prever diretamente a estrutura tridimensional a partir das sequências.

Os colegas de IA do AlphaFold devem achar isso familiar, pois segue a mesma lógica com que os grandes modelos de linguagem aprendem a linguagem humana.

A cobertura dos dados de treinamento é uma variável chave.

O ESMFold2 incorporou uma grande quantidade de dados de proteínas microbianas provenientes de ambientes como solo e oceano, que estavam em branco no banco de dados do AlphaFold.

Quanto mais abrangente a cobertura, mais completo será o "mundo das proteínas" visto pelo modelo.

A equipe do Biohub afirma que o ESMFold2 supera o AlphaFold3 na previsão de estruturas complexas de interações entre proteínas.

Mas o mais convincente não é o score, e sim a validação prática.

A equipe projetou novas proteínas usando o ESMFold2, levou-as ao laboratório para síntese e teste, e uma alta proporção dos projetos funcionou conforme esperado.

Ao conectar a cadeia de “previsão” a “design” e depois a “validação”, o valor se estende do artigo acadêmico para o mundo real.

Biohub

Totalmente de código aberto, esse é o maior trunfo

A arma mais poderosa do ESMFold2 é ser totalmente de código aberto e sem restrições comerciais.

O significado estratégico desta escolha fica mais claro no contexto de toda a indústria de IA.

Embora o AlphaFold tenha um banco de dados aberto, o AlphaFold3 impôs restrições ao uso comercial em seu lançamento inicial.

O modelo de previsão de interações proteicas lançado este ano pela Isomorphic Labs, subsidiária do Google DeepMind, é totalmente proprietário.

Leitura adicional: O Google lança o «AlphaFold 4» e não o torna mais de código aberto! Desempenho esmagador em relação à versão anterior

Ovchinnikov, biólogo computacional do MIT, destacou diretamente o valor do código aberto: "Espero que muitas pessoas fiquem entusiasmadas para testar o ESMFold2."

O efeito alavancagem da IA de código aberto já foi plenamente validado na categoria de modelos de linguagem grandes, com a série Llama da Meta sendo o melhor exemplo.

Um modelo de código aberto suficientemente poderoso para mobilizar a comunidade global a iterar, aplicar e descobrir usos que os desenvolvedores originais nem sequer imaginaram.

A situação no campo da IA para proteínas é ainda mais especial: há inúmeros laboratórios e instituições de pesquisa em todo o mundo que precisam urgentemente de uma ferramenta gratuita e ilimitada para previsão de estruturas; mesmo que modelos proprietários sejam mais fortes, seu alcance de usuários é sempre limitado.

O Biohub escolheu abrir totalmente o código, seguindo a mesma abordagem da Meta em modelos de linguagem grandes.

A estratégia do grupo Zuckerberg no campo da IA está ficando cada vez mais clara — usar código aberto como infraestrutura e ecossistema como vantagem competitiva.

Biohub

Especialistas do setor, vocês compram ou não?

A resposta da comunidade acadêmica foi positiva, mas as ressalvas também foram claras.

Gemma Atkinson, da Universidade de Lund, na Suécia, chamou o ESM Atlas de "um recurso extraordinário para a biologia".

Biohub

Christine Orengo, da University College London, reconhece seu valor, mas enfatiza que os resultados preditivos precisam ser validados independentemente.

Biohub

Uma pergunta mais aguda veio de Martin Steinegger da Universidade Nacional de Seul.

Biohub

Ele está interessado em como o ESMFold2 se comporta diante de "novas estruturas" que diferem significativamente das proteínas conhecidas.

Sua equipe anteriormente descobriu que a primeira versão do ESMFold não era excelente nesse aspecto. Esse problema permanece não resolvido para o ESMFold2.

Ovchinnikov do MIT fez o julgamento mais calmo, considerando que o ESM Atlas é mais adequado como complemento ao banco de dados AlphaFold.

Biohub

Ele também apontou que o modelo proprietário da Isomorphic Labs, bem como alguns modelos abertos do Biohub que não têm comparação direta, alcançaram resultados em níveis semelhantes.

A vantagem do ESMFold2 pode não ser tão grande quanto o artigo sugere.

Essa prudência reflete exatamente que a competição no setor de IA de proteínas já atingiu níveis intensos.

Modelos de código aberto, código fechado, acadêmicos e comerciais estão sendo atualizados em velocidade extremamente rápida.

Hoje o “mais forte” pode ser superado em seis meses. Esse ritmo já é muito semelhante à corrida armamentista na área de modelos de linguagem grandes.

Quando a IA começar a entender o código-fonte da vida

No passado, a análise da estrutura tridimensional de uma proteína poderia levar meses a anos de trabalho de laboratório.

AlphaFold provou pela primeira vez que a IA pode fazer isso em minutos.

Agora, o ESMFold2 impulsionou a escala de previsão para o nível de 1,1 bilhão, cobrindo uma grande quantidade de proteínas anteriormente nunca resolvidas.

Se continuarmos nesse caminho, quando a IA conseguir prever com precisão todas as estruturas de proteínas, projetar novas proteínas funcionais e comprovar experimentalmente sua eficácia, a implementação da IAG na área das ciências da vida pode estar mais próxima do que a maioria das pessoas imagina.

Se o ASI realmente chegar, a biologia deixará de ser uma disciplina que precisa ser "estudada" e se tornará um sistema que pode ser "engenheirado".

Projete a vida em nível molecular, personalize proteínas conforme necessário e reescreva as regras da evolução.

Isso soa como ficção científica, mas ferramentas como ESMFold2 estão transformando aos poucos a "ficção científica" em "problema de engenharia".

Hoje, 1,1 bilhão de estruturas de proteínas estão disponíveis sobre a mesa, e qualquer cientista com conexão à internet em todo o mundo pode acessá-las gratuitamente.

Isso significa que a capacidade da IA de compreender a vida deu um novo passo.

Referência: https://www.nature.com/articles/d41586-026-01686-3

Este artigo é do número oficial do WeChat "Nova Inteligência", autor: Apocalipse da ASI; editor: Marco