Biohub lance l'ESM Atlas avec 11 milliards de structures protéiques, défie AlphaFold

icon MarsBit
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Biohub, un institut de recherche fondé par Mark Zuckerberg, a lancé ESM Atlas, une base de données protéiques contenant 11 milliards de structures prédites et 68 milliards de séquences. Le modèle d'IA ESMFold2 affirme une meilleure performance qu'AlphaFold3 et est open-source pour un usage commercial. Ce développement pourrait bouleverser le domaine de l'IA protéique. Cette initiative a déclenché des discussions dans les cercles d'actualité IA + crypto sur les applications sur chaîne et les nouvelles possibilités d'intégration de données.

Le trône d'AlphaFold est en danger !

Nature publie un article : Biohub, dirigé par Zuckerberg, lance une bombe en publiant 1,1 milliard de prédictions de structures protéiques, soit 800 millions de plus que la base de données AlphaFold.

Le modèle AI à l'origine, ESMFold2, est réputé pour surpasser AlphaFold3 sur tous les plans.

Plus important encore, entièrement open source et sans restriction commerciale.

Biohub

https://www.nature.com/articles/d41586-026-01686-3

La position dominante de Google DeepMind sur l'IA pour les protéines, qu'elle a construite pendant des années, est en train d'être remise en question par un concurrent open source.

Le paysage du secteur des protéines AI pourrait être réécrit.

1,1 milliard de structures protéiques, servies sur un plateau.

Le 27 mai, la biohub, l'institution biomédicale créée par Mark Zuckerberg et sa femme, a officiellement lancé la base de données de structures protéiques appelée ESM Atlas.

1,1 milliard de structures protéiques prédites, plus 6,8 milliards de séquences protéiques.

La base de données d'AlphaFold a accumulé plus de 200 millions de prédictions de structures, et l'ESM Atlas en ajoute 800 millions dès le départ.

Le modèle AI qui a généré ces prédictions s'appelle ESMFold2, développé sous la direction d'Alex Rives, responsable scientifique de Biohub.

Biohub

Rives dit :

This graph illustrates the entirety of protein biology, particularly the most unknown aspects.

Why is protein structure prediction important?

Les protéines sont les pièces essentielles au fonctionnement de la vie ; comprendre leur forme permet de comprendre leur fonction, et ainsi de concevoir de nouveaux médicaments et de lutter contre les maladies.

AlphaFold a remporté le prix Nobel de chimie grâce à cela, c'est un cas emblématique de l'IA transformant la science.

Un nouveau modèle vient de se présenter avec un ensemble de données 5 fois plus grand.

En tant que modèle d'IA, quels sont les atouts d'ESMFold2 ?

ESMFold2 a emprunté une voie technique différente de celle d'AlphaFold.

Il est construit sur le « modèle de langage des protéines » publié en 2024, s'inspirant des approches du domaine du NLP en traitant les séquences de protéines comme un « langage ». Il a été entraîné sur des milliards de données protéiques pour apprendre à prédire directement la structure tridimensionnelle à partir des séquences.

Les pairs d'AlphaFold en IA devraient trouver cela familier, car cela suit la même logique que les grands modèles linguistiques qui apprennent le langage humain.

La couverture des données d'entraînement est une variable clé.

ESMFold2 intègre de nombreuses données sur les protéines microbiennes provenant d'environnements tels que les sols et les océans, qui sont absentes de la base de données d'AlphaFold.

Plus la couverture est large, plus le modèle a vu de « monde des protéines » complet.

L'équipe de Biohub affirme que ESMFold2 surpasse AlphaFold3 dans la prédiction des structures complexes d'interactions entre protéines.

Mais ce qui est le plus convaincant, ce n'est pas le score, c'est la validation sur le terrain.

L'équipe a conçu de nouvelles protéines avec ESMFold2, les a fait synthétiser et tester en laboratoire, et un pourcentage élevé des conceptions ont fonctionné comme prévu.

En passant de la « prédiction » à la « conception » puis à la « validation », cette chaîne de valeur s'étend des articles académiques au monde réel.

Biohub

Entièrement open source, c'est la meilleure arme

L'arme de concurrence la plus puissante d'ESMFold2 est qu'elle est entièrement open source et autorise l'utilisation commerciale sans restriction.

La signification stratégique de ce choix est plus claire dans le contexte de l'ensemble de l'industrie de l'IA.

Bien qu'AlphaFold dispose d'une base de données ouverte, AlphaFold3 a imposé des restrictions sur l'utilisation commerciale lors de son lancement.

Le modèle de prédiction des interactions protéiques lancé cette année par Isomorphic Labs, une filiale de Google DeepMind, est entièrement propriétaire.

Lecture complémentaire : Google lance « AlphaFold 4 » et ne le rend plus open source ! Des performances qui écrasent la version précédente

Le biologiste computationnel du MIT, Ovchinnikov, a directement souligné la valeur de l'open source : « Je m'attends à ce que beaucoup de personnes soient enthousiastes à l'idée d'essayer ESMFold2. »

L'effet de levier de l'IA open source a été pleinement démontré dans la course aux grands modèles linguistiques, avec la série Llama de Meta comme meilleur exemple.

Un modèle open source suffisamment puissant pour mobiliser la communauté mondiale à l'itérer, l'appliquer et découvrir des utilisations que les développeurs originaux n'avaient même pas envisagées.

Le domaine de l'IA pour les protéines est encore plus particulier : de nombreux laboratoires et institutions de recherche à travers le monde ont un besoin urgent d'un outil gratuit et illimité pour la prédiction de structures ; même les modèles propriétaires les plus puissants ne peuvent atteindre qu'un nombre limité d'utilisateurs.

Biohub a choisi une approche entièrement open source, en ligne avec la stratégie de Meta sur les grands modèles linguistiques.

La stratégie de Zuckerberg dans le domaine de l'IA devient de plus en plus claire : utiliser l'open source comme infrastructure et l'écosystème comme avant compétitif.

Biohub

Les experts du secteur, est-ce que vous achetez ?

La communauté académique a réagi positivement, mais les réserves sont également claires.

Gemma Atkinson de l'Université de Lund en Suède a déclaré que l'ESM Atlas « devrait devenir une ressource exceptionnelle en biologie ».

Biohub

Christine Orengo de University College London reconnaît sa valeur, mais souligne que les résultats prédictifs doivent être vérifiés indépendamment.

Biohub

Une question plus aiguë provient de Martin Steinegger de l'Université nationale de Séoul.

Biohub

Il s'intéresse à la performance d'ESMFold2 face à de « nouvelles structures » très différentes des protéines connues.

Son équipe avait précédemment constaté que la première version d'ESMFold n'était pas performante à cet égard. Ce problème reste non résolu pour ESMFold2.

Ovchinnikov du MIT a fourni le jugement le plus calme, estimant que l'ESM Atlas est mieux positionné comme un complément à la base de données AlphaFold.

Biohub

Il a également souligné que les modèles propriétaires d'Isomorphic Labs, ainsi que certains modèles open source de Biohub qui ne peuvent pas être directement comparés, ont obtenu des résultats de niveau similaire.

L'avance d'ESMFold2 pourrait ne pas être aussi importante que le suggère l'article.

Cette prudence reflète précisément la concurrence féroce sur le segment de l'IA pour les protéines.

Les modèles open-source, closed-source, académiques et commerciaux évoluent tous à un rythme extrêmement rapide.

Le « meilleur » d'aujourd'hui pourrait être dépassé dans six mois. Ce rythme ressemble déjà fortement à la course aux armements dans le domaine des grands modèles linguistiques.

Lorsque l'IA commence à déchiffrer le code source de la vie

Par le passé, la résolution de la structure tridimensionnelle d'une protéine pouvait prendre plusieurs mois à plusieurs années de travail en laboratoire.

AlphaFold a prouvé pour la première fois que l'IA peut le faire en quelques minutes.

ESMFold2 pousse maintenant la prédiction à une échelle de 1,1 milliard, couvrant un grand nombre de protéines jamais auparavant résolues.

En poursuivant cette logique, lorsque l’IA pourra prédire avec précision toutes les structures protéiques, concevoir de nouvelles protéines fonctionnelles et que ces conceptions seront validées expérimentalement, la mise en œuvre de l’AGI dans les sciences de la vie pourrait être plus proche que la plupart des gens ne le pensent.

Si l'ASI arrive véritablement, la biologie ne sera plus pour elle une discipline à « étudier », mais un système à « ingénieriser ».

Concevoir la vie au niveau moléculaire, personnaliser les protéines selon les besoins, réécrire les règles de l'évolution.

Cela semble être de la science-fiction, mais des outils comme ESMFold2 transforment progressivement la « science-fiction » en « problème d'ingénierie ».

Aujourd'hui, 1,1 milliard de structures protéiques sont mises à disposition sur la table, accessibles gratuitement à tout scientifique disposant d'une connexion Internet dans le monde.

Cela signifie que la capacité de l'IA à comprendre la vie a atteint un nouveau niveau.

Références : https://www.nature.com/articles/d41586-026-01686-3

Cet article provient du compte officiel WeChat « Nouvelle Intelligence », auteur : Apocalypses de l'ASI ; éditeur : Marco

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.