¡El trono de AlphaFold está en peligro!
Nature publica un artículo: Biohub, propiedad de Zuckerberg, lanza un golpe contundente, publicando de golpe 1.100 millones de predicciones de estructuras proteicas, 800 millones más que la base de datos de AlphaFold.
El modelo de IA detrás, ESMFold2, se dice que supera en rendimiento a AlphaFold3 en todos los aspectos.
Más importante aún, es completamente de código abierto y no restringe el uso comercial.

https://www.nature.com/articles/d41586-026-01686-3
La dominancia de años de Google DeepMind en la IA de proteínas está siendo cuestionada por un competidor de código abierto.
El panorama del赛道 de IA de proteínas podría reescribirse.
1.1 mil millones de estructuras proteicas, servidas directamente en la mesa
El 27 de mayo, la institución biomédica Biohub, creada por el matrimonio Zuckerberg, lanzó oficialmente la base de datos de estructuras proteicas denominada ESM Atlas.
1.1 mil millones de estructuras de proteínas predichas, además de 6.8 mil millones de secuencias de proteínas.
La base de datos de AlphaFold ha acumulado más de 200 millones de predicciones de estructuras, y ESM Atlas añade 800 millones más.
El modelo de IA que generó estas predicciones se llama ESMFold2, desarrollado bajo la dirección de Alex Rives, director científico de Biohub.

Rives dice:
This graph illustrates the entirety of protein biology, especially the most unknown parts.
¿Por qué es importante la predicción de estructuras proteicas?
Las proteínas son las piezas clave que hacen funcionar la vida; conocer su forma permite comprender su función y, en consecuencia, diseñar nuevos medicamentos y combatir enfermedades.
AlphaFold ganó el Premio Nobel de Química con esto, y es un caso emblemático de cómo la IA está transformando la ciencia.
Ahora un nuevo modelo se presenta con un conjunto de datos 5 veces más grande.
¿En qué se destaca ESMFold2 como modelo de IA?
ESMFold2 siguió una ruta técnica diferente a la de AlphaFold.
Se construyó sobre el «modelo de lenguaje de proteínas» lanzado en 2024, adoptando la idea central de la área de PNL, tratando las secuencias de proteínas como un «lenguaje» y entrenándolo con miles de millones de datos de proteínas para que el modelo aprenda a predecir directamente la estructura tridimensional a partir de la secuencia.
Los compañeros de IA de AlphaFold deberían encontrar esto familiar, ya que sigue la misma lógica que los modelos de lenguaje grande al aprender el lenguaje humano.
El alcance de los datos de entrenamiento es una variable clave.
ESMFold2 incorpora una gran cantidad de datos de proteínas microbianas provenientes de entornos como suelo y océano, que están vacíos en la base de datos de AlphaFold.
Cuanto más amplia sea la cobertura, más completa será la «estructura de proteínas» que el modelo haya visto.
El equipo de Biohub afirma que ESMFold2 supera a AlphaFold3 en la predicción de estructuras complejas de interacciones entre proteínas.
Pero lo más convincente no es la puntuación, sino la validación en la práctica.
El equipo diseñó nuevas proteínas con ESMFold2, las llevó al laboratorio para síntesis y prueba, y un alto porcentaje de los diseños funcionaron como se esperaba.
Al recorrer la cadena desde «predicción» hasta «diseño» y luego «validación», el valor se extiende desde el artículo académico hasta el mundo real.

Totalmente de código abierto, esta es la mayor ventaja competitiva
El arma de competencia más potente de ESMFold2 es que es completamente de código abierto y sin restricciones comerciales.
La significación estratégica de esta elección es más clara en el contexto de toda la industria de la IA.
Aunque AlphaFold tiene una base de datos abierta, AlphaFold3 impuso restricciones sobre el uso comercial en su lanzamiento inicial.
El modelo de predicción de interacciones proteicas lanzado este año por Isomorphic Labs, filial de Google DeepMind, es completamente propietario.
Lectura adicional: Google lanza «AlphaFold 4», ¡ya no es de código abierto! Rendimiento abrumadoramente superior a la versión anterior
El biólogo computacional del MIT, Ovchinnikov, señaló directamente el valor del código abierto: «Espero que muchas personas estén entusiasmadas por probar ESMFold2».
El efecto palanca del código abierto de IA en la categoría de modelos de lenguaje grande ya ha sido plenamente validado, y la serie Llama de Meta es el mejor ejemplo.
Un modelo de código abierto lo suficientemente potente como para movilizar a la comunidad global a iterar, aplicar y descubrir usos que los desarrolladores originales ni siquiera habían imaginado.
La situación en el campo de la inteligencia artificial para proteínas es más especial: hay numerosos laboratorios e instituciones de investigación en todo el mundo que necesitan urgentemente una herramienta gratuita y ilimitada para la predicción de estructuras; incluso los modelos de código cerrado más potentes tienen un alcance limitado de usuarios.
Biohub opta por la apertura total, siguiendo la misma estrategia que Meta en modelos de lenguaje grandes.
La estrategia de Zuckerberg en el campo de la IA se vuelve cada vez más clara: utilizar código abierto como infraestructura y ecosistema como ventaja competitiva.

¿Compran o no los expertos del sector?
La respuesta académica ha sido positiva, pero las reservas también son claras.
Gemma Atkinson de la Universidad de Lund en Suecia calificó al ESM Atlas como "un recurso extraordinario para la biología".

Christine Orengo de University College London reconoce su valor, pero enfatiza que los resultados predictivos necesitan validación independiente.

Una pregunta más aguda proviene de Martin Steinegger de la Universidad Nacional de Seúl.

Lo que le interesa es cómo se desempeña ESMFold2 frente a las "nuevas estructuras" que difieren mucho de las proteínas conocidas.
Su equipo anteriormente descubrió que la primera versión de ESMFold no era excelente en este aspecto. Este problema sigue sin resolverse para ESMFold2.
Ovchinnikov de MIT dio el juicio más sereno, considerando que ESM Atlas es más adecuado como complemento de la base de datos AlphaFold.

También señaló que los modelos propietarios de Isomorphic Labs, así como algunos modelos de Biohub sin modelos abiertos directamente comparables, también lograron resultados de nivel similar.
La ventaja de ESMFold2 podría no ser tan grande como sugiere el artículo.
Esta prudencia refleja precisamente que la competencia en la carrera de la inteligencia artificial aplicada a las proteínas se ha intensificado enormemente.
Los modelos de código abierto, cerrado, académicos y comerciales están evolucionando a una velocidad extremadamente rápida.
Hoy, el "más fuerte" podría ser superado en seis meses. Este ritmo ya es muy similar a la carrera armamentista en el sector de los modelos de lenguaje grandes.
Cuando la IA comience a leer el código fuente de la vida
Anteriormente, resolver la estructura tridimensional de una proteína podía requerir meses a años de trabajo de laboratorio.
AlphaFold demostró por primera vez que la IA puede hacerlo en minutos.
Ahora ESMFold2 ha llevado la escala de predicción a mil millones, cubriendo una gran cantidad de proteínas previamente no resueltas.
Si se sigue este camino, cuando la IA pueda predecir con precisión todas las estructuras de proteínas, diseñar nuevas proteínas funcionales y validarlas experimentalmente, la implementación de la IAG en la ciencia de la vida podría estar más cerca de lo que la mayoría imagina.
Si la ASI realmente llega, la biología ya no será una disciplina que necesite ser "estudiada", sino un sistema que puede ser "ingenierizado".
Diseñar la vida a nivel molecular, personalizar proteínas según sea necesario y reescribir las reglas de la evolución.
Suena como ciencia ficción, pero herramientas como ESMFold2 están convirtiendo poco a poco la "ciencia ficción" en un "problema de ingeniería".
Hoy, 1.100 millones de estructuras proteicas están disponibles sobre la mesa, y cualquier científico con conexión a internet en todo el mundo puede acceder a ellas gratuitamente.
Esto significa que la capacidad de la IA para comprender la vida ha dado un nuevo paso adelante.
Referencia: https://www.nature.com/articles/d41586-026-01686-3
Este artículo proviene del canal de WeChat "Nueva Inteligencia", autor: Apocalipsis ASI; editor: Marco
