Claude Opus 4.7 d'Anthropic égale le logiciel NMR dans les tâches de chimie

Un modèle linguistique à usage général vient d’entrer dans le laboratoire de chimie et a fait preuve d’une compétence équivalente à celle de logiciels spécifiquement conçus pour l’analyse moléculaire. Anthropic a publié un rapport de recherche le 5 juin intitulé « Making Claude a chemist », démontrant que Claude Opus 4.7 peut effectuer des tâches de spectroscopie par résonance magnétique nucléaire à un niveau qui correspond, et dans certains cas dépasse, des outils dédiés à la RMN tels que ChemDraw 25.0.2 et MestReNova 17.0.0.

Les chiffres racontent l'histoire

L'étude d'Anthropic a testé Opus 4.7 sur 20 composés issus de prépublications récentes en chimie synthétique, en évaluant à la fois la prédiction directe (simuler l'apparence d'un spectre à partir d'une structure moléculaire) et l'élucidation inverse de la structure (remonter à partir des données spectrales pour déterminer la molécule).

Sur les décalages RMN de l'hydrogène, Opus 4.7 a affiché la plus faible erreur moyenne à ± 0,079 ppm. Pour les décalages du carbone, il est à égalité avec MestReNova à ± 1,37 ppm. Pour le traduire en termes significatifs : les parties par million sont l'unité standard pour mesurer les décalages chimiques en RMN, et des erreurs inférieures à 0,1 ppm sur les données d'hydrogène représentent des prédictions de haute qualité.

Le modèle a également surpassé les performances en termes de cohérence lors de la prédiction des motifs de fractionnement des pics et des valeurs de couplage J, deux caractéristiques sur lesquelles les chimistes s'appuient fortement pour distinguer entre des structures moléculaires similaires.

Sur le plan inverse, où le modèle devait déduire des structures à partir de données de RMN 1D et de spectrométrie de masse à haute résolution, Opus 4.7 a réussi à reconstituer toutes les structures cibles plus simples à chaque essai. Lorsque l'équipe a ajouté des indices provenant des matières premières pour des cibles plus complexes, le modèle a réussi sur quatre des sept structures plus denses sur l'ensemble des essais.

Pourquoi cela diffère des benchmarks AI classiques

Ce qui rend le résultat d'Anthropic inhabituel, c'est qu'Opus 4.7 n'a pas été affiné sur des données spécifiques à la chimie pour cette tâche. Il fonctionne avec des lectures collées par des chimistes ordinaires, sans configuration spécialisée requise. En anglais : un chimiste peut copier ses données RMN dans une fenêtre de discussion et recevoir une proposition structurale en retour, sans licence de logiciel propriétaire nécessaire.

L'étude n'a pas non plus exigé de données RMN 2D, généralement considérées comme essentielles pour l'élucidation de structures complexes. Les expériences RMN bidimensionnelles prennent plus de temps à réaliser et génèrent davantage de données à interpréter. Contourner cette exigence, même pour des composés plus simples, rationalise un processus qui est resté largement inchangé pendant des décennies.