Demis Hassabis sur la trajectoire de l'IA générale, les percées scientifiques et l'avenir de DeepMind

Organisé et compilé par Shenchao TechFlow

Invité : Demis Hassabis (fondateur de DeepMind, lauréat du prix Nobel de chimie 2024, responsable de Google DeepMind)

Animateur : Gary Tan

Source du podcast : Y Combinator

Demis Hassabis : Agents, AGI et la prochaine grande percée scientifique

Date de diffusion : 29 avril 2026

Éditer l'introduction

Le PDG de Google DeepMind et lauréat du prix Nobel de chimie, Demis Hassabis, a été invité par Y Combinator pour discuter des avancées clés restantes vers l'AGI, des conseils pour les entrepreneurs sur la manière de maintenir un avantage concurrentiel, ainsi que de l'endroit où le prochain grand progrès scientifique pourrait se produire. Le jugement le plus pratique pour les entrepreneurs en deep tech est que si vous lancez aujourd'hui un projet de deep tech sur dix ans, vous devez intégrer l'apparition de l'AGI dans votre planification. Il a également révélé qu'Isomorphic Labs (la société d'IA pharmaceutique issue de DeepMind) va bientôt annoncer une grande nouvelle.

Citations sélectionnées

AGI roadmap and timeline

Ces composants technologiques existants deviendront presque certainement une partie intégrante de l'architecture finale de l'IGA.
Les problèmes liés à l'apprentissage continu, au raisonnement à long terme et à certains aspects de la mémoire ne sont pas encore résolus ; l'IA générale doit les résoudre tous.
Si votre timeline pour l'AGI est autour de 2030, comme la mienne, et que vous commencez aujourd'hui un projet de haute technologie, vous devez prendre en compte le fait que l'AGI apparaîtra en cours de route.

Mémoire et fenêtre de contexte

La fenêtre de contexte équivaut大致 à la mémoire de travail. La mémoire de travail humaine ne peut retenir en moyenne que sept chiffres, alors que nous avons des fenêtres de contexte de plusieurs millions ou dizaines de millions de tokens. Mais le problème est que nous y introduisons tout, y compris des informations insignifiantes ou erronées ; cette approche est actuellement assez brutale.
Si vous devez traiter un flux vidéo en temps réel et stocker tous les tokens, un million de tokens ne suffit qu’environ pour 20 minutes.

Défauts de raisonnement

J’aime jouer aux échecs avec Gemini. Parfois, il reconnaît qu’un coup est mauvais, mais ne trouve pas de meilleure option, et finit par jouer ce mauvais coup après avoir fait le tour. Un système de raisonnement précis ne devrait pas connaître une telle situation.
Il peut résoudre des problèmes de niveau médaille d'or IMO, mais commet des erreurs d'arithmétique élémentaire si on reformule la question. Il semble manquer quelque chose dans sa capacité d'auto-réflexion.

Agent et créativité

Pour atteindre l'AGI, vous devez avoir un système qui peut résoudre activement des problèmes pour vous. Les agents sont la voie à suivre ; je pense que nous venons à peine de commencer.
Je n'ai pas encore vu quelqu'un créer un jeu AAA qui atteigne le sommet des classements des boutiques d'applications en utilisant le vibe coding. Avec les efforts actuellement déployés, cela devrait être possible, mais cela n'a pas encore eu lieu. Cela indique qu'il manque quelque chose dans les outils ou les processus.

Distillation and small models

Notre hypothèse est que, six à douze mois après la sortie d’un modèle Pro de pointe, ses capacités peuvent être compressées dans des modèles très compacts pouvant fonctionner sur des appareils périphériques. Nous n’avons pas encore atteint la limite théorique de densité d’information.

Découvertes scientifiques et « test d'Einstein »

Je l'appelle parfois le « test d'Einstein » : peut-on former un système avec les connaissances de 1901, puis lui permettre de déduire indépendamment les découvertes d'Einstein en 1905, notamment la relativité restreinte ? Dès qu'un système y parviendra, il sera proche de véritablement inventer quelque chose de nouveau.
Résoudre un problème des prix du millénaire est déjà remarquable. Mais encore plus difficile est de proposer un nouvel ensemble de problèmes des prix du millénaire, que les meilleurs mathématiciens considèrent comme tout aussi profonds et dignes d'être étudiés toute une vie.

Conseils pour les startups en technologies avancées

Poser des questions difficiles ou des questions simples, c’est en réalité assez similaire ; la seule différence réside dans la manière dont elles sont difficiles. La vie est courte, alors autant consacrer son énergie à ce que personne d’autre ne fera si vous ne le faites pas.

Chemin d'implémentation de l'AGI

Gary Tan : Vous réfléchissez à l'AGI depuis presque plus longtemps que quiconque. En regardant le paradigme actuel, pensez-vous que nous possédons déjà une grande partie de l'architecture finale de l'AGI ? Qu'est-ce qui fait défaut fondamentalement aujourd'hui ?

Demis Hassabis : Le pré-entraînement à grande échelle, le RLHF, les chaînes de pensée, etc. Je suis certain qu’ils feront partie de l’architecture finale de l’IGA. Ces technologies ont déjà prouvé tant de choses. Il est difficile pour moi d’imaginer que dans deux ans, nous découvrirons que c’est une impasse — cela n’a pas de sens pour moi. Mais au-dessus des éléments existants, il manque peut-être une ou deux choses : l’apprentissage continu, le raisonnement à long terme, certains aspects de la mémoire — certains problèmes restent non résolus. L’IGA doit tout résoudre. Peut-être que les technologies actuelles, combinées à quelques innovations progressives, suffiront à atteindre ce niveau ; mais il se peut aussi qu’il reste un ou deux points clés majeurs à franchir. Je ne pense pas que ce soit plus de un ou deux. Personnellement, je juge à peu près à 50/50 la probabilité qu’il existe de tels points clés non résolus. C’est pourquoi, chez Google DeepMind, nous poursuivons les deux voies simultanément.

Gary Tan : J'interagis avec de nombreux systèmes d'agents, et ce qui m'a le plus surpris, c'est que, en fondement, il ne s'agit toujours que des mêmes poids. Ainsi, le concept d'apprentissage continu est particulièrement intéressant, car nous utilisons actuellement essentiellement du ruban adhésif pour réparer temporairement des éléments comme ces « cycles de rêves nocturnes ».

Demis Hassabis : Oui, ces cycles de rêves sont assez fascinants. Nous avons déjà réfléchi à cette question en ce qui concerne l'intégration de la mémoire épisodique. Mon doctorat portait sur la façon dont l'hippocampe intègre élégamment de nouvelles connaissances dans les systèmes de connaissances existants. Le cerveau fait cela extrêmement bien. Il accompli ce processus pendant le sommeil, en particulier pendant le sommeil paradoxal (REM), en rejouant les expériences importantes pour en tirer des apprentissages. Notre tout premier programme Atari, DQN (Deep Q-Network développé par DeepMind en 2013, le premier à atteindre un niveau humain sur les jeux Atari grâce à l'apprentissage par renforcement profond), a pu maîtriser les jeux Atari grâce à une méthode clé : le replay d'expérience. Cette approche est inspirée des neurosciences, consistant à rejouer en boucle les chemins réussis. C'était en 2013, ce qui, dans le domaine de l'IA, revient à l'ère préhistorique, mais à l'époque, cela était essentiel.

Je suis d'accord avec toi, nous utilisons actuellement du ruban adhésif pour tout forcer dans la fenêtre de contexte. Cela ne semble pas correct. Même si nous créons des machines, et non des cerveaux biologiques, et que théoriquement, on pourrait avoir des fenêtres de contexte de plusieurs millions ou dizaines de millions, avec une mémoire parfaite, les coûts de recherche et de récupération persistent toujours. En ce moment précis, où des décisions concrètes sont nécessaires, trouver les informations véritablement pertinentes n'est pas simple, même si tu peux tout stocker. Je pense donc qu'il reste un énorme potentiel d'innovation dans le domaine de la mémoire.

Gary Tan : Honnêtement, une fenêtre de contexte de un million de tokens dépasse largement mes attentes et permet de faire beaucoup de choses.

Demis Hassabis : Il est suffisamment grand pour la plupart des scénarios prévus. Mais réfléchissez : la fenêtre de contexte équivaut approximativement à la mémoire de travail. La mémoire de travail humaine ne retient en moyenne que sept chiffres, alors que nous avons des fenêtres de contexte de plusieurs millions, voire dizaines de millions. Le problème, c’est que nous y introduisons tout — y compris des informations inutiles ou erronées — et cette approche est actuellement assez brutale. De plus, si vous devez traiter un flux vidéo en temps réel et que vous enregistrez naïvement tous les tokens, un million de tokens ne suffit qu’à environ 20 minutes. Mais si vous voulez que le système comprenne votre vie sur une période de un à deux mois, ce n’est tout simplement pas suffisant.

Gary Tan : DeepMind a toujours fortement investi dans l'apprentissage par renforcement et la recherche ; cette philosophie est-elle profondément intégrée dans le développement actuel de Gemini ? L'apprentissage par renforcement est-il encore sous-estimé ?

Demis Hassabis : Il est probablement effectivement sous-estimé. L'attention portée à ce domaine varie. Nous travaillons sur des systèmes d'agents depuis le premier jour de DeepMind. Tous les travaux sur Atari et AlphaGo relèvent fondamentalement d'agents d'apprentissage par renforcement, des systèmes capables d'accomplir des objectifs, de prendre des décisions et de planifier de manière autonome. Bien sûr, nous avons choisi au départ le domaine des jeux, car la complexité y était maîtrisable, puis nous avons progressivement abordé des jeux plus complexes : après AlphaGo, nous avons développé AlphaStar, et nous avons essentiellement réalisé tous les jeux possibles.

La question suivante est de savoir si ces modèles peuvent être généralisés en modèles du monde ou modèles linguistiques, et non seulement en modèles de jeux. Ces dernières années, nous avons travaillé sur cela. Le mode de réflexion et le raisonnement par chaînes de pensée des modèles les plus avancés d’aujourd’hui sont essentiellement un retour aux innovations introduites par AlphaGo à l’époque. Je pense que beaucoup de nos travaux d’alors sont hautement pertinents aujourd’hui ; nous réexaminons ces anciennes idées en les appliquant à une échelle plus grande et de manière plus générale, y compris des méthodes d’apprentissage par renforcement telles que la recherche par arbre de Monte Carlo. Les idées derrière AlphaGo et AlphaZero sont extrêmement pertinentes pour les modèles fondamentaux d’aujourd’hui, et je pense qu’une grande partie des progrès des prochaines années proviendront de cela.

Distillation and small models

Gary Tan : Pour être plus intelligent aujourd'hui, il faut des modèles plus grands, mais les techniques de distillation progressent également, permettant aux petits modèles de devenir assez rapides. Votre modèle Flash est très puissant et atteint presque 95 % des performances des modèles de pointe, tout en coûtant seulement un dixième. C'est bien cela ?

Demis Hassabis : Je pense que c'est l'une de nos forces fondamentales. Vous devez d'abord construire les modèles les plus grands pour acquérir des capacités de pointe. L'une de nos principales forces est la capacité à distiller et compresser rapidement ces capacités dans des modèles de plus en plus petits. La méthode de distillation, nous l'avons inventée, et nous restons les meilleurs au monde. De plus, nous avons une forte motivation commerciale pour le faire. Nous sommes probablement la plus grande plateforme d'applications d'IA au monde. Avec les Aperçus IA, le Mode IA et Gemini, chaque produit Google, y compris Maps et YouTube, intègre Gemini ou des technologies associées. Cela concerne des milliards d'utilisateurs et une dizaine de produits avec des milliards d'utilisateurs chacun. Ils doivent être extrêmement rapides, très efficaces, à faible coût et avec une latence minimale. Cela nous pousse fortement à rendre les modèles Flash et Flash-Lite aussi efficaces que possible, et j'espère que cela servira finalement efficacement les diverses tâches des utilisateurs.

Gary Tan : Je me demande à quel point ces petits modèles peuvent être intelligents. Y a-t-il une limite à la distillation ? Des modèles de 50 Go ou 400 Go peuvent-ils être aussi intelligents que les plus grands modèles de pointe d'aujourd'hui ?

Demis Hassabis : Je ne pense pas que nous ayons atteint les limites de la théorie de l'information ; personne ne sait pour l'instant si nous les avons atteintes. Il se pourrait qu'un jour nous rencontrions un plafond en termes de densité d'information, mais notre hypothèse actuelle est que, après le lancement d'un modèle Pro de pointe, ses capacités pourront être compressées en l'espace de six mois à un an dans des modèles très compacts, presque exécutables sur des appareils périphériques. Vous pouvez observer cela avec les modèles Gemma : notre modèle Gemma 4 affiche des performances très puissantes à taille équivalente. Tout cela repose sur d'importantes techniques de distillation et d'optimisation de l'efficacité des petits modèles. Je ne vois donc vraiment aucune limite théorique ; je pense que nous sommes encore très loin de cette limite.

Gary Tan : Il y a actuellement un phénomène absurde selon lequel les ingénieurs peuvent accomplir environ 500 à 1000 fois plus de travail qu'il y a six mois. Certains d'entre vous dans cette salle effectuent probablement un volume de travail équivalent à 1000 fois celui d'un ingénieur Google des années 2000. Steve Yegge en a parlé.

Demis Hassabis : Je suis très enthousiaste. Les petits modèles ont de nombreuses utilisations. L'un d'eux est le faible coût, et la vitesse rapide apporte également des avantages. Lors de l'écriture de code ou d'autres tâches, vous pouvez itérer plus rapidement, surtout en collaboration avec le système. Un système rapide, même s'il n'est pas à la pointe, par exemple à 90 % ou 95 % de la pointe, est tout à fait suffisant, et ce que vous gagnez en vitesse d'itération dépasse largement ces 10 %.

Un autre grand axe consiste à exécuter ces modèles sur des appareils périphériques, non seulement pour l’efficacité, mais aussi pour la confidentialité et la sécurité. Pensez à divers appareils traitant des informations très privées, ainsi qu’aux robots : pour un robot chez vous, vous souhaiteriez qu’un modèle efficace et puissant s’exécute localement, et que seules certaines tâches spécifiques soient déléguées à un grand modèle cloud. Le traitement des flux audio et vidéo se fait localement, et les données restent sur place — je peux imaginer que cela constitue un état final idéal.

Mémoire et raisonnement

Gary Tan : Revenons au contexte et à la mémoire. Le modèle est actuellement sans état ; quelle serait l'expérience des développeurs s'il possédait une capacité d'apprentissage continu ? Comment orienteriez-vous un tel modèle ?

Demis Hassabis : Cette question est très intéressante. Le manque d'apprentissage continu constitue un goulot d'étranglement clé empêchant les agents actuels d'accomplir des tâches complètes. Les agents actuels sont utiles pour des parties locales de tâches ; vous pouvez les combiner pour accomplir des choses très intéressantes, mais ils ne s'adaptent pas bien à votre environnement spécifique. C'est pourquoi ils ne peuvent pas encore fonctionner de manière « lancés et oubliés » — ils doivent être capables d'apprendre votre contexte précis. Pour atteindre une intelligence générale complète, ce problème doit être résolu.

Gary Tan : Jusqu'où en êtes-vous en matière de raisonnement ? La chaîne de pensée du modèle est maintenant très solide, mais il commet encore des erreurs que des étudiants en licence brillants ne feraient pas. Que faut-il modifier précisément ? Quelles avancées attendez-vous en matière de raisonnement ?

Demis Hassabis : Il existe encore de nombreuses opportunités d'innovation en matière de paradigmes de réflexion. Ce que nous faisons reste assez rudimentaire et assez brut. Il existe de nombreux axes d'amélioration, comme surveiller le processus de chaîne de pensée et intervenir en cours de réflexion. Je sens souvent que, que ce soit notre système ou ceux de nos concurrents, ils ont tendance, d'une certaine manière, à trop réfléchir et à entrer en boucle.

J’aime parfois observer les parties d’échecs jouées par Gemini. Il est intéressant de constater que tous les modèles de base en tête sont en réalité assez mauvais aux échecs. Analyser leurs trajectoires de réflexion est précieux, car les échecs sont un domaine bien compris, ce qui me permet de déterminer rapidement si une idée s’éloigne du bon chemin ou si le raisonnement est valide. Ce que nous observons, c’est qu’il considère parfois un coup, reconnaît que c’est un mauvais coup, mais ne trouve pas de meilleure alternative, et finit par revenir à ce même coup mauvais. Un système de raisonnement précis ne devrait pas présenter ce type de comportement.

Ce grand écart persiste, mais le corriger ne nécessite peut-être qu’un ou deux ajustements. C’est pourquoi vous observez ce qu’on appelle une « intelligence dentelée » : elle peut résoudre des problèmes du niveau d’une médaille d’or à l’IMO, mais commet des erreurs d’arithmétique élémentaire si la question est reformulée. Il semble manquer quelque chose dans l’introspection de ses propres processus de pensée.

Les véritables capacités de l'agent

Gary Tan : Les agents sont un sujet majeur. Certains disent que c'est de la surenchère. Personnellement, je pense que nous en sommes juste au début. Quelle est la véritable évaluation interne de DeepMind sur les capacités des agents, et quel est l'écart avec les publicités extérieures ?

Demis Hassabis : Je suis d'accord avec vous, nous venons à peine de commencer. Pour atteindre l'AGI, vous devez avoir un système capable de résoudre activement des problèmes pour vous. Cela a toujours été clair pour nous. Les agents représentent ce chemin, et je pense que nous en sommes encore aux débuts. Tout le monde cherche encore à faire mieux collaborer les agents, et nous avons effectué de nombreuses expérimentations personnelles, tout comme beaucoup d'entre vous ici. Comment intégrer les agents dans les flux de travail pour qu'ils ne soient pas simplement un ajout, mais qu'ils accomplissent véritablement des tâches fondamentales ? Nous sommes encore en phase expérimentale. Ce n'est peut-être que ces deux ou trois derniers mois que nous avons commencé à identifier des scénarios particulièrement précieux. La technologie est tout juste arrivée à ce stade : ce n'est plus une démonstration jouet, mais elle apporte réellement de la valeur à votre temps et à votre efficacité.

Je vois souvent des gens lancer des dizaines d'agents pour les faire fonctionner pendant des dizaines d'heures, mais je ne suis pas encore sûr que le rendement corresponde à cet investissement.

Nous n'avons pas encore vu quelqu'un créer un jeu AAA qui atteigne le sommet des classements des magasins d'applications en utilisant le vibe coding. J'ai moi-même écrit des jeux, et beaucoup d'entre vous ont également créé de bons petits démos. Aujourd'hui, je peux créer un prototype de Theme Park en une demi-heure, alors qu'à 17 ans, cela m'avait pris six mois. J'ai le sentiment que si vous consacrez tout un été à ce projet, vous pourriez créer quelque chose d'incroyable. Mais cela nécessite toujours du savoir-faire, de l'âme humaine et du goût : vous devez vous assurer d'incorporer ces éléments dans tout produit que vous créez. En réalité, aucun enfant n'a encore créé un jeu qui a vendu dix millions d'exemplaires, alors qu'avec les outils actuels, cela devrait être possible. Il manque donc quelque chose — peut-être lié au processus, peut-être aux outils. Je m'attends à voir un tel résultat dans les six à douze prochains mois.

Gary Tan : Dans quelle mesure cela sera-t-il entièrement automatisé ? Je ne pense pas que ce sera entièrement automatisé dès le départ. Le chemin le plus probable est que les personnes présentes atteignent d'abord un gain d'efficacité de 1000 fois, puis que quelqu'un utilise ces outils pour créer des applications ou des jeux à succès, après quoi davantage d'étapes seront automatisées.

Demis Hassabis : Oui, c'est ce que vous devriez voir en premier.

Gary Tan : Une partie de la raison est que certaines personnes le font effectivement, mais elles ne veulent pas révéler l'aide apportée par l'agent.

Demis Hassabis : Peut-être. Mais je voudrais parler de la créativité. Je cite souvent l'exemple d'AlphaGo, tout le monde connaît le coup 37 de la deuxième partie. Pour moi, j'attendais constamment un tel moment ; dès qu'il est survenu, j'ai lancé des projets scientifiques comme AlphaFold. Nous avons commencé AlphaFold le lendemain de notre retour de Séoul, il y a dix ans. Je suis venu en Corée pour célébrer le dixième anniversaire d'AlphaGo.

Mais sortir uniquement du Move 37 ne suffit pas. C’est impressionnant et utile. Mais ce système peut-il inventer le jeu de go lui-même ? Si vous lui fournissez une description de haut niveau, comme « un jeu dont les règles peuvent être apprises en cinq minutes, mais qu’il est impossible de maîtriser complètement même en y consacrant toute une vie, esthétiquement élégant, et dont une partie peut être jouée en une après-midi », et que le système vous renvoie le jeu de go, alors les systèmes d’aujourd’hui ne sont pas capables de cela. La question est : pourquoi ?

Gary Tan : L'une des personnes présentes pourrait y arriver.

Demis Hassabis : Si quelqu’un y est parvenu, la réponse n’est pas que le système manque de quelque chose, mais que notre manière de l’utiliser est problématique. Cela pourrait bien être la bonne réponse. Peut-être que les systèmes d’aujourd’hui ont déjà cette capacité, mais ils nécessitent un créateur suffisamment génial pour les piloter, apporter l’âme de ce projet, tout en étant profondément fusionné avec l’outil, presque un avec lui. Si vous passez jour et nuit avec ces outils et que vous possédez une créativité profonde, vous pourriez peut-être créer quelque chose d’inimaginable.

Open source et modèles multimodaux

Gary Tan : Changeons de sujet et parlons de l'open source. La récente sortie de Gemma permet d'exécuter des modèles très puissants localement. Qu'en pensez-vous ? L'IA va-t-elle devenir un outil maîtrisé par les utilisateurs eux-mêmes, plutôt que principalement hébergé dans le cloud ? Cela modifiera-t-il qui peut utiliser ces modèles pour construire des produits ?

Demis Hassabis : Nous sommes de fervents partisans de l'open source et de la science ouverte. Vous avez mentionné AlphaFold ; nous l'avons entièrement rendu gratuit. Nos travaux scientifiques continuent d'être publiés dans les revues les plus prestigieuses. Concernant Gemma, nous souhaitons créer des modèles de premier plan pour une échelle équivalente. Jusqu'à présent, Gemma a déjà été téléchargée environ 40 millions de fois, alors qu'elle n'a été publiée que depuis deux semaines et demie.

Je pense également qu'il est important qu'il existe une pile technologique occidentale dans le domaine de l'open source. Les modèles open source chinois sont excellents et actuellement en tête dans le domaine de l'open source, mais nous considérons que Gemma est très compétitif à taille équivalente.

Nous avons également un problème de ressources : personne n’a suffisamment de puissance de calcul supplémentaire pour développer deux modèles de pointe à pleine échelle. Notre décision actuelle est donc la suivante : les modèles d’edge sont destinés aux appareils Android, aux lunettes, aux robots, etc., et il est préférable de les rendre ouverts, car une fois déployés sur les appareils, ils sont déjà exposés — autant les ouvrir complètement dès le départ. Nous avons unifié notre stratégie d’ouverture au niveau nanométrique, ce qui présente également un sens stratégique.

Gary Tan : Avant de monter sur scène, je vous ai montré le système d'exploitation AI que j'ai créé ; je peux interagir directement avec Gemini par la voix. Je suis assez nerveux quand il s'agit de vous démontrer des choses, mais ça a fonctionné. Gemini a été conçu dès le départ comme un modèle multimodal. J'ai utilisé de nombreux modèles, mais aucune autre solution ne peut rivaliser avec Gemini en termes de profondeur d'interaction voix-modèle, de capacité d'appel d'outils et de compréhension du contexte.

Demis Hassabis : Oui. Un avantage du série Gemini qui n’a pas encore été suffisamment reconnu, c’est que nous l’avons conçu dès le départ comme un modèle multimodal. Cela a rendu le démarrage plus difficile que pour un modèle textuel uniquement, mais nous croyons que nous en tirerons des bénéfices à long terme, et ces avantages commencent déjà à se concrétiser. Par exemple, en matière de modèles du monde, nous avons construit Genie (un modèle génératif d’environnements interactifs développé par DeepMind) sur la base de Gemini. Il en va de même dans le domaine de la robotique : Gemini Robotics sera fondé sur un modèle de base multimodal, et notre avantage en multimodalité constituera un avantage concurrentiel durable. Nous utilisons également de plus en plus Gemini au sein de Waymo (l’entreprise de conduite autonome appartenant à Alphabet).

Imagine un assistant numérique qui vous accompagne dans le monde réel, sur votre téléphone ou vos lunettes, et qui doit comprendre le monde physique et l'environnement qui vous entourent. Notre système est extrêmement performant dans ce domaine. Nous continuerons à investir dans cette direction, et je pense que notre avance sur ce type de problématiques est considérable.

Gary Tan : Le coût d'inférence diminue rapidement. Que devient-il possible lorsque l'inférence est essentiellement gratuite ? Votre équipe va-t-elle modifier ses orientations d'optimisation en conséquence ?

Demis Hassabis : Je ne suis pas sûr que le raisonnement sera vraiment gratuit ; le paradoxe de Jevons est là. Je pense que tout le monde finira par utiliser toute la puissance de calcul disponible. On peut imaginer des millions d'agents travaillant ensemble de manière coordonnée, ou un petit groupe d'agents réfléchissant simultanément selon plusieurs axes puis intégrant les résultats. Nous expérimentons tous ces axes, et tout cela consommera les ressources de raisonnement disponibles.

En ce qui concerne l’énergie, si nous résolvons quelques-uns des problèmes tels que la fusion nucléaire contrôlée, la supraconductivité à température ambiante ou les batteries optimales — ce que je pense possible grâce aux sciences des matériaux — le coût de l’énergie pourrait tendre vers zéro. Cependant, des goulets d’étranglement persistent dans les étapes de fabrication physique des puces, du moins pour les décennies à venir. Ainsi, les limites de quota resteront en place pour les infrastructures d’inférence, et il sera toujours nécessaire de les utiliser de manière efficace.

La prochaine percée scientifique

Gary Tan : Heureusement, les petits modèles deviennent de plus en plus intelligents. Beaucoup d'entre vous sont des fondateurs dans les domaines de la biologie et de la biotechnologie. AlphaFold 3 a dépassé les protéines pour s'étendre à un éventail plus large de molécules biologiques. À quelle distance sommes-nous de la modélisation de systèmes cellulaires complets ? Est-ce une question d'une tout autre difficulté ?

Demis Hassabis : Isomorphic Labs progresse très bien. AlphaFold n'est qu'une étape du processus de découverte de médicaments ; nous menons des recherches en biochimie connexes, concevons des composés aux propriétés appropriées, et de grandes annonces arriveront bientôt.

Notre objectif final est de créer une cellule virtuelle complète, un simulateur de cellule entièrement fonctionnel sur lequel vous pouvez appliquer des perturbations, dont les sorties sont suffisamment proches des résultats expérimentaux et présentent un intérêt pratique. Vous pouvez sauter de nombreuses étapes de recherche, générer une grande quantité de données synthétiques pour entraîner d'autres modèles afin qu'ils prédisent le comportement des cellules réelles.

Je pense qu’il reste environ dix ans avant d’atteindre une cellule virtuelle complète. Chez DeepMind, nous commençons du côté scientifique par le noyau cellulaire, car le noyau est relativement autonome. La clé de ce type de problème réside dans la capacité à isoler une tranche de complexité appropriée, suffisamment autonome pour pouvoir approximer raisonnablement ses entrées et sorties, puis se concentrer sur ce sous-système. Le noyau cellulaire est très bien adapté à cette approche.

Un autre problème est le manque de données. J'ai discuté avec les meilleurs scientifiques travaillant en microscopie électronique et d'autres techniques d'imagerie. Ce serait révolutionnaire de pouvoir imager des cellules vivantes sans les tuer, car cela permettrait de transformer le problème en une question visuelle, et nous savons déjà résoudre les problèmes visuels. Mais, selon mes connaissances, aucune technologie actuelle ne permet d'obtenir une imagerie de cellules dynamiques vivantes à une résolution nanométrique sans les endommager. On peut déjà obtenir des images statiques à cette résolution, ce qui est extrêmement impressionnant et passionnant, mais ce n'est pas suffisant pour transformer directement cela en un problème visuel.

Il y a donc deux chemins : l’un est une approche pilotée par le matériel et les données ; l’autre consiste à construire de meilleurs simulateurs apprenants pour modéliser ces systèmes dynamiques.

Gary Tan : Vous ne regardez pas seulement la biologie. Sciences des matériaux, découverte de médicaments, modélisation climatique, mathématiques — si vous deviez classer ces domaines, lequel sera le plus profondément transformé au cours des cinq prochaines années ?

Demis Hassabis : Chaque domaine est passionnant, c'est pourquoi cela a toujours été ma plus grande passion et la raison pour laquelle je travaille dans l'IA depuis plus de 30 ans. J'ai toujours pensé que l'IA serait l'outil ultime pour la science, afin de faire progresser la compréhension scientifique, la découverte scientifique, la médecine et notre connaissance de l'univers.

Au départ, nous avons exprimé notre mission en deux étapes : premièrement, résoudre l’intelligence, c’est-à-dire construire une AGI ; deuxièmement, l’utiliser pour résoudre tous les autres problèmes. Nous avons ensuite dû ajuster notre formulation, car certaines personnes demandaient : « Vous voulez vraiment dire résoudre tous les problèmes ? » — Et oui, c’est exactement ce que nous voulons dire. Aujourd’hui, les gens commencent à comprendre ce que cela signifie. Plus précisément, je fais référence aux domaines scientifiques que j’appelle les « problèmes racines » : ceux dont la résolution débloque de nouvelles branches de découvertes. AlphaFold est le prototype de ce que nous cherchons à accomplir. Plus de trois millions de chercheurs dans le monde, presque tous les chercheurs en biologie, utilisent désormais AlphaFold. J’ai appris de certains dirigeants d’entreprises pharmaceutiques que presque tous les médicaments découverts à l’avenir intégreront AlphaFold à un moment ou un autre du processus de découverte de médicaments. Nous en sommes fiers, et c’est précisément le type d’impact que nous souhaitons que l’IA produise. Mais je pense que ce n’est que le début.

Je ne peux pas penser à un seul domaine scientifique ou d'ingénierie où l'IA ne pourrait pas aider. Les domaines que vous avez mentionnés se situent, à mon avis, à peu près au « moment AlphaFold 1 » : les résultats sont déjà prometteurs, mais les grands défis de ces domaines n'ont pas encore été résolus. Au cours des deux prochaines années, nous aurons beaucoup de progrès à discuter dans tous ces domaines, de la science des matériaux à la mathématique.

Gary Tan : Cela ressemble à une capacité entièrement nouvelle offerte à l'humanité, à la manière de Prométhée.

Demis Hassabis : Oui. Tout comme le message de la légende de Prométhée, nous devons faire preuve de prudence quant à la manière dont cette capacité est utilisée, où elle est appliquée, et aux risques de mauvaise utilisation des mêmes outils.

Expérience réussie

Gary Tan : Beaucoup d'entre vous tentent de créer des entreprises qui appliquent l'IA à la science. À votre avis, quelle est la différence entre les entreprises véritablement à l'avant-garde et celles qui se contentent d'ajouter une API à des modèles de base et se qualifient ensuite de « IA pour la science » ?

Demis Hassabis : Je me demande ce que je ferais si, aujourd'hui, j'étais assis à votre place, à Y Combinator, en évaluant des projets. Une chose est certaine : vous devez anticiper l'évolution de l'IA, ce qui est déjà difficile en soi. Mais je pense vraiment qu'il existe d'énormes opportunités à croiser l'évolution de l'IA avec un autre domaine de technologie avancée. Ce point de convergence — que ce soit les matériaux, la médecine ou d'autres domaines scientifiques réellement complexes, en particulier ceux impliquant le monde atomique — ne connaîtra pas de raccourci dans un avenir prévisible. Ces domaines ne seront pas balayés par la prochaine mise à jour du modèle de base. Mais si vous cherchez des directions bien défendues, c'est celle que je recommanderais.

J’ai toujours été attiré par les technologies profondes. Les choses véritablement durables et précieuses ne viennent pas facilement. J’ai toujours été fasciné par les technologies profondes. En 2010, lorsque nous avons commencé, l’IA était une technologie profonde — les investisseurs me disaient : « Nous savons déjà que ça ne marchera pas », et la communauté académique considérait cela comme une direction marginale essayée dans les années 90 et ayant échoué. Mais si vous avez confiance en votre idée — pourquoi cette fois-ci serait-elle différente, quelles sont les combinaisons uniques de votre parcours — idéalement, si vous êtes vous-même expert en apprentissage automatique et en applications, ou si vous pouvez constituer une équipe fondatrice de ce type — alors il existe un énorme potentiel d’impact et de valeur à créer.

Gary Tan : Cette information est importante. Une fois qu'une chose est accomplie, elle semble évidente, mais avant de la réaliser, tout le monde s'oppose à vous.

Demis Hassabis : Bien sûr, vous devez faire ce qui vous passionne vraiment. Pour moi, quoi qu'il arrive, je ferais de l'IA. J'ai décidé, étant très jeune, que c'était la chose la plus influente que je pouvais imaginer. Et cela s'est avéré vrai, mais cela pourrait aussi ne pas l'être, peut-être sommes-nous arrivés 50 ans trop tôt. C'est aussi la chose la plus intéressante que je puisse imaginer. Même si aujourd'hui nous étions encore dans un petit garage, sans avoir encore développé l'IA, je trouverais un moyen de continuer. Peut-être retournerais-je dans le monde académique, mais je trouverais un moyen d'avancer.

Gary Tan : AlphaFold est un exemple de direction que vous avez suivie et qui s'est avérée gagnante. Qu'est-ce qui rend un domaine scientifique propice à des percées du type AlphaFold ? Existe-t-il des règles, comme une certaine fonction objectif ?

Demis Hassabis : Je devrais vraiment prendre le temps d'écrire cela. Ce que j'ai appris de tous les projets Alpha, comme AlphaGo et AlphaFold, c'est que nos technologies actuelles fonctionnent le mieux dans les cas suivants. Premièrement, le problème possède un espace de recherche combinatoire énorme, plus grand c'est mieux, au point qu'aucune méthode exhaustive ou algorithme spécialisé ne puisse le résoudre. L'espace des coups au go et l'espace des conformations des protéines dépassent largement le nombre d'atomes dans l'univers. Deuxièmement, vous pouvez définir clairement la fonction objectif, comme la minimisation de l'énergie libre des protéines ou la victoire au go, ce qui permet au système d'effectuer une ascension de gradient. Troisièmement, vous disposez de suffisamment de données, ou d'un simulateur capable de générer un grand nombre de données synthétiques dans la distribution.

Si ces trois conditions sont remplies, la méthode d'aujourd'hui permet de progresser considérablement pour trouver l'aiguille dans la botte de foin dont vous avez besoin. La découverte de médicaments suit le même raisonnement : il existe un composé capable de traiter cette maladie sans effets secondaires ; tant que les lois de la physique permettent son existence, la seule question est de savoir comment le trouver de manière efficace et réalisable. Je pense qu'AlphaFold a démontré pour la première fois que ce type de système est capable de trouver cette aiguille dans un espace de recherche immense.

Gary Tan : Je veux passer à un autre niveau. Nous parlons de la façon dont les humains ont utilisé ces méthodes pour créer AlphaFold, mais il existe aussi un niveau méta : les humains utilisent l'IA pour explorer l'espace des hypothèses possibles. Jusqu'où sommes-nous de parvenir à des systèmes d'IA capables de réaliser un raisonnement scientifique véritable (et non seulement une correspondance de motifs sur les données) ?

Demis Hassabis : Je pense que nous y sommes très proches. Nous développons ce type de système général. Nous avons un système appelé AI co-scientist, ainsi que des algorithmes comme AlphaEvolve, capables d'aller au-delà de Gemini de base. Tous les laboratoires de pointe explorent cette direction.

Mais jusqu'à présent, je n'ai personnellement pas vu de véritable découverte scientifique majeure réalisée par ces systèmes. Je sens qu'elle arrive bientôt. Elle pourrait être liée à la créativité dont nous avons discuté précédemment, une véritable percée au-delà des frontières connues. À ce niveau, ce n'est plus une correspondance de motifs, car il n'existe aucun motif à associer. Ce n'est pas non plus tout à fait une extrapolation, mais plutôt un type de raisonnement analogique, que je pense que ces systèmes ne possèdent pas encore, ou que nous n'utilisons pas encore de la bonne manière.

Dans le domaine scientifique, je dis souvent qu'un bon critère est de savoir s'il peut formuler une hypothèse véritablement intéressante, et non se limiter à la vérifier. Car vérifier une hypothèse peut aussi être un événement majeur, comme démontrer la conjecture de Riemann ou résoudre l'un des problèmes du prix du millénaire, mais nous ne sommes peut-être plus qu'à quelques années d'y parvenir.

Mais encore plus difficile est la question de savoir si l'on peut proposer un nouvel ensemble de problèmes du prix du millénaire, jugés tout aussi profonds et dignes d'être étudiés toute une vie par les meilleurs mathématiciens. Je pense que cela représente un ordre de grandeur de difficulté supplémentaire, et nous ne savons pas encore comment y parvenir. Mais je ne crois pas que ce soit de la magie ; je suis convaincu que ces systèmes y parviendront un jour, il ne manque peut-être qu'une ou deux choses.

La manière dont nous pouvons le tester, que j'appelle parfois le « test d'Einstein », consiste à voir si l'on peut former un système avec des connaissances de 1901, puis lui permettre de déduire indépendamment les résultats obtenus par Einstein en 1905, notamment la relativité restreinte et ses autres articles de cette année-là. Je pense que nous devrions vraiment exécuter ce test, le répéter plusieurs fois, et voir quand nous y parviendrons. Dès que nous y arriverons, ces systèmes seront à un pas de véritablement inventer quelque chose de totalement nouveau.

Conseils pour entreprendre

Gary Tan : Dernière question. Beaucoup d'entre vous ont un fort arrière-plan technique et souhaitent accomplir quelque chose de l'ampleur de la vôtre ; vous êtes l'un des plus grands organismes de recherche en IA au monde. Vous avez évolué à la pointe de la recherche en AGI : quel est un fait que vous connaissez aujourd'hui et que vous auriez aimé savoir à 25 ans ?

Demis Hassabis : Nous avons déjà abordé une partie de cela. Vous constaterez que les problèmes difficiles et les problèmes simples présentent à peu près la même difficulté, simplement sous des formes différentes. Chose différente, difficulté différente. Mais la vie est courte et l'énergie limitée ; mieux vaut consacrer votre énergie à des choses que personne d'autre ne fera si vous ne le faites pas. Utilisez ce critère pour choisir.

En outre, je pense que dans les années à venir, les combinaisons interdisciplinaires deviendront plus courantes, et l'IA rendra les croisements interdisciplinaires plus faciles.

Le dernier point dépend de votre calendrier pour l'AGI. Le mien est vers 2030. Si vous commencez un projet de deep tech aujourd'hui, cela signifie généralement un parcours de dix ans. Vous devez donc intégrer dans votre planification la possibilité que l'AGI apparaisse en cours de route. Que signifie cela ? Ce n'est pas nécessairement une mauvaise chose, mais vous devez le prendre en compte. Votre projet peut-il exploiter l'AGI ? Comment les systèmes d'AGI interagiront-ils avec votre projet ?

En revenant à la relation entre AlphaFold et les systèmes d’IA générale, je prévois une situation dans laquelle des systèmes généraux comme Gemini, Claude ou similaires appellent des systèmes spécialisés comme AlphaFold comme des outils. Je ne pense pas que nous allons tout intégrer dans un unique « cerveau » gigantesque ; il n’aurait aucun sens d’alimenter Gemini avec toutes les données protéiques, car Gemini n’a pas besoin de plier les protéines. En revenant à votre point sur l’efficacité informationnelle, ces données protéiques ralentiraient certainement ses capacités linguistiques. La meilleure approche consiste à avoir des modèles généraux très performants capables d’appeler, voire d’entraîner, ces outils spécialisés, tout en gardant ces derniers comme des systèmes indépendants.

Cette idée mérite d'être réfléchie en profondeur : elle influence ce que vous construisez aujourd'hui, y compris le type d'usine et le système financier que vous souhaitez créer. Vous devez prendre au sérieux les échéances de l'AGI, imaginer à quoi ressemblera ce monde, puis construire quelque chose qui restera utile lorsque ce monde arrivera.