Demis Hassabis sobre la línea de tiempo de la IAG, los avances científicos y el futuro de DeepMind

Organizado y compilado por Shenchao TechFlow

Invitado: Demis Hassabis (fundador de DeepMind, ganador del Premio Nobel de Química 2024, director de Google DeepMind)

Presentador: Gary Tan

Fuente del podcast: Y Combinator

Demis Hassabis: Agentes, AGI y el próximo gran avance científico

Hora de transmisión: 29 de abril de 2026

Editar la introducción

El CEO de Google DeepMind y ganador del Premio Nobel de Química, Demis Hassabis, visitó Y Combinator para hablar sobre los avances clave que quedan por lograr hacia la AGI, ofrecer consejos a los emprendedores sobre cómo mantenerse a la vanguardia y especular sobre dónde podría ocurrir el próximo gran descubrimiento científico. El juicio más práctico para los emprendedores de deep tech es que, si hoy inicias un proyecto de deep tech de diez años, debes incluir la aparición de la AGI en tu planificación. Además, reveló que Isomorphic Labs (la empresa de inteligencia artificial para la farmacéutica derivada de DeepMind) pronto anunciará importantes novedades.

Frase clave

AGI roadmap and timeline

Los componentes tecnológicos actuales casi seguramente formarán parte de la arquitectura final de la AGI.
Los problemas de aprendizaje continuo, razonamiento a largo plazo y algunos aspectos de la memoria aún no se han resuelto; la IAG necesita solucionarlos todos.
Si tu línea de tiempo para la AGI es alrededor de 2030, igual que la mía, y hoy comenzaste un proyecto de alta tecnología, entonces debes considerar que la AGI aparecerá en el camino.

Memoria y ventana de contexto

La ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedio solo puede contener siete números, pero nosotros tenemos ventanas de contexto de millones o incluso decenas de millones de tokens. Sin embargo, el problema es que llenamos todo dentro, incluyendo información irrelevante o incorrecta; actualmente, este enfoque es bastante brusco.
Si necesitas procesar un flujo de video en tiempo real y almacenar todos los tokens, un millón de tokens solo alcanza para aproximadamente 20 minutos.

Defectos en el razonamiento

Me gusta jugar al ajedrez con Gemini. A veces se da cuenta de que es un mal movimiento, pero no encuentra uno mejor, así que termina dando la vuelta y haciendo ese mal movimiento. Pero un sistema de razonamiento preciso no debería presentar esta situación.
Por un lado, puede resolver problemas del nivel de medallas de oro de la IMO, pero por otro, si se le hace una pregunta de otra manera, comete errores de matemáticas de primaria. En la introspección de su propio proceso de pensamiento, parece faltar algo.

Agente y creatividad

Para alcanzar la AGI, debes tener un sistema que resuelva problemas activamente por ti. Los agentes son el camino, y creo que apenas estamos comenzando.
Aún no he visto a nadie crear un juego AAA que alcance el primer lugar en las listas de aplicaciones usando vibe coding. Con la cantidad de esfuerzo que se está invirtiendo actualmente, debería ser posible, pero aún no ha sucedido. Esto indica que faltan algo en las herramientas o en el proceso.

Distillation and small models

Nuestra suposición es que, seis meses a un año después del lanzamiento de un modelo Pro de vanguardia, su capacidad podrá comprimirse en modelos muy pequeños que puedan ejecutarse en dispositivos de borde. Actualmente, no hemos encontrado ningún límite teórico de densidad de información.

Descubrimientos científicos y la "Prueba de Einstein"

A veces lo llamo la «prueba de Einstein», es decir, si se puede entrenar un sistema con conocimientos de 1901 y luego hacer que derive independientemente los descubrimientos de Einstein en 1905, incluida la relatividad especial. Una vez que logren hacerlo, esos sistemas estarán cerca de inventar realmente cosas nuevas.
Resolver un problema del Premio del Milenio ya es impresionante. Pero lo más difícil es poder proponer un nuevo conjunto de problemas del Premio del Milenio, que los matemáticos más destacados consideren igualmente profundos y dignos de ser estudiados durante toda una vida.

Sugerencias para emprendimientos de alta tecnología

Plantear preguntas difíciles y preguntas fáciles es en realidad casi lo mismo, solo difieren en la forma en que son difíciles. La vida es corta; mejor dedica tu energía a cosas que nadie más hará si tú no lo haces.

Ruta de implementación de AGI

Gary Tan: Has pensado en la IAG más tiempo que casi cualquier otra persona. Según el paradigma actual, ¿cuánto de la arquitectura final de la IAG crees que ya tenemos? ¿Qué falta fundamentalmente ahora?

Demis Hassabis: El preentrenamiento a gran escala, el RLHF, las cadenas de pensamiento, estoy seguro de que se convertirán en parte de la arquitectura final de la AGI. Estas tecnologías ya han demostrado demasiado para llegar hasta aquí. No puedo imaginar que dentro de dos años descubramos que este camino es un callejón sin salida; eso no tiene sentido para mí. Pero sobre lo que ya tenemos, probablemente aún falten una o dos piezas: el aprendizaje continuo, el razonamiento a largo plazo, algunos aspectos de la memoria, y aún quedan problemas sin resolver. La AGI necesita resolverlos todos. Tal vez las tecnologías actuales, combinadas con algunos avances progresivos, puedan escalar hasta ese nivel, pero también podrían faltar uno o dos puntos clave importantes que aún deben superarse. No creo que sean más de uno o dos. Personalmente, considero que la probabilidad de que existan estos puntos clave pendientes es del 50 %. Por eso, en Google DeepMind, estamos avanzando en ambas vías.

Gary Tan: Estoy trabajando con un montón de sistemas de agentes, y lo que más me sorprende es que, en el fondo, siempre se trata de los mismos pesos. Por eso el concepto de aprendizaje continuo es especialmente interesante, porque actualmente básicamente estamos usando cinta adhesiva temporal, como esas cosas del «ciclo de sueños nocturnos».

Demis Hassabis: Sí, esos ciclos de sueño son bastante interesantes. Ya habíamos reflexionado sobre esto en relación con la integración de la memoria episódica. Mi tesis doctoral se centró en cómo el hipocampo integra elegantemente nuevos conocimientos en el sistema de conocimientos existente. El cerebro lo hace de manera excelente. Completa este proceso durante el sueño, especialmente durante el sueño con movimientos oculares rápidos (REM), reproduciendo experiencias importantes para aprender de ellas. Nuestro primer programa Atari, DQN (Rede de Q Profunda, publicada por DeepMind en 2013, que alcanzó por primera vez el nivel humano en juegos Atari mediante aprendizaje por refuerzo profundo), logró dominar los juegos Atari gracias en gran parte a la reexperiencia (experience replay). Este enfoque se inspiró en la neurociencia: repetir una y otra vez las rutas exitosas. Fue en 2013, una época casi prehistórica en el ámbito de la IA, pero en ese momento fue fundamental.

Estoy de acuerdo contigo; ahora realmente estamos usando cinta adhesiva para pegar todo dentro de la ventana de contexto. Esto no parece correcto. Incluso si estamos trabajando con máquinas en lugar de cerebros biológicos, teóricamente podríamos tener ventanas de contexto de millones o miles de millones, y la memoria podría ser perfecta, pero aún existen costos asociados con la búsqueda y recuperación. En este momento, donde se requieren decisiones concretas, encontrar la información verdaderamente relevante no es sencillo, incluso si puedes almacenar todo. Por lo tanto, creo que hay un gran espacio para la innovación en el ámbito de la memoria.

Gary Tan: Honestamente, una ventana de contexto de un millón de tokens es mucho más de lo que esperaba y permite hacer muchas cosas.

Demis Hassabis: Es lo suficientemente grande para la mayoría de los escenarios para los que está diseñado. Pero piensa en esto: la ventana de contexto es aproximadamente equivalente a la memoria de trabajo. La memoria de trabajo humana promedio solo puede retener siete números, y nosotros tenemos ventanas de contexto de millones o incluso decenas de millones. El problema es que llenamos todo dentro, incluyendo información irrelevante o incorrecta, y actualmente este enfoque es bastante brusco. Además, si ahora intentas procesar un flujo de video en tiempo real y simplemente registras todos los tokens, un millón de tokens solo alcanza para aproximadamente 20 minutos. Pero si quieres que el sistema comprenda tu vida durante uno o dos meses, eso está lejos de ser suficiente.

Gary Tan: DeepMind siempre ha invertido profundamente en el aprendizaje por refuerzo y la búsqueda; ¿qué tan profundamente se ha integrado esta filosofía en el desarrollo actual de Gemini? ¿Sigue subestimándose el aprendizaje por refuerzo?

Demis Hassabis: Posiblemente haya sido subestimado. El interés en este ámbito ha fluctuado. Desde el primer día de DeepMind hemos estado trabajando en sistemas de Agentes. Todo el trabajo realizado en Atari y AlphaGo es esencialmente parte de Agentes de aprendizaje por refuerzo, sistemas capaces de completar objetivos, tomar decisiones y planificar de forma autónoma. Claro está que inicialmente elegimos el ámbito de los juegos, ya que la complejidad era controlable, y luego avanzamos gradualmente hacia juegos más complejos: tras AlphaGo, desarrollamos AlphaStar, y básicamente hemos realizado todos los juegos posibles.

La siguiente pregunta es si se pueden generalizar estos modelos como modelos del mundo o modelos de lenguaje, y no solo como modelos de juegos. Durante los últimos años hemos estado haciendo exactly esto. El patrón de pensamiento y el razonamiento por cadenas de pensamiento en todos los modelos líderes de hoy es esencialmente un regreso a lo que AlphaGo introdujo en su momento. Creo que gran parte del trabajo que hicimos entonces está altamente relevante hoy en día; estamos reexaminando esas ideas antiguas, aplicándolas a una escala mayor y de manera más general, incluyendo métodos de aprendizaje por refuerzo como la búsqueda de árbol de Monte Carlo. Las ideas detrás de AlphaGo y AlphaZero son extremadamente relevantes para los modelos base actuales, y creo que gran parte del progreso en los próximos años provendrá de esto.

Distillation and small models

Gary Tan: Ahora se necesitan modelos más grandes para ser más inteligentes, pero al mismo tiempo, las técnicas de distilación también están avanzando, y los modelos pequeños pueden volverse bastante rápidos. Sus modelos Flash son muy potentes, alcanzan básicamente el 95% del rendimiento de los modelos de vanguardia, pero con un precio solo una décima parte. ¿Es así?

Demis Hassabis: Creo que esta es una de nuestras ventajas clave. Primero debes construir los modelos más grandes para obtener capacidades de vanguardia. Una de nuestras mayores ventajas es la capacidad de destilar y comprimir rápidamente esas capacidades en modelos cada vez más pequeños. El método de destilación lo inventamos nosotros, y aún somos los mejores del mundo en esto. Además, tenemos una fuerte motivación comercial para hacerlo. Somos probablemente la plataforma de aplicación de IA más grande del mundo. Contamos con AI Overviews y AI Mode, así como Gemini, y ahora cada producto de Google, incluyendo Maps, YouTube, etc., está integrando Gemini o tecnologías relacionadas. Esto involucra miles de millones de usuarios y docenas de productos con miles de millones de usuarios cada uno. Deben ser extremadamente rápidos, altamente eficientes, de bajo costo y con latencia mínima. Esto nos impulsa enormemente a optimizar al máximo los modelos Flash y Flash-Lite, y espero que, finalmente, también sirvan eficazmente para una variedad de tareas de los usuarios.

Gary Tan: Me pregunto hasta qué punto pueden llegar a ser inteligentes estos modelos pequeños. ¿Existe un límite en la destilación? ¿Pueden los modelos de 50B o 400B ser tan inteligentes como los modelos de vanguardia más grandes de hoy?

Demis Hassabis: No creo que hayamos alcanzado los límites de la teoría de la información; al menos, nadie sabe si los hemos alcanzado hasta ahora. Tal vez algún día nos encontremos con un techo en la densidad de información, pero actualmente asumimos que, tras el lanzamiento de un modelo Pro de vanguardia, su capacidad se podrá comprimir en un modelo muy pequeño, casi capaz de ejecutarse en dispositivos periféricos, dentro de seis meses a un año. También pueden ver esto en los modelos Gemma; nuestro modelo Gemma 4 tiene un rendimiento muy fuerte en comparación con su mismo tamaño. Todo esto se logra mediante técnicas avanzadas de destilación y optimización de la eficiencia de modelos pequeños. Por lo tanto, realmente no veo ningún límite teórico; creo que estamos muy lejos de alcanzar ese límite.

Gary Tan: Actualmente hay un fenómeno absurdo: la cantidad de trabajo que pueden hacer los ingenieros es aproximadamente 500 a 1000 veces mayor que hace seis meses. Algunas personas en esta sala están realizando un volumen de trabajo equivalente a 1000 veces el de un ingeniero de Google en la década de 2000. Steve Yegge habló sobre esto.

Demis Hassabis: Me entusiasma mucho. Los modelos pequeños tienen muchos usos. Uno es el bajo costo, y la velocidad rápida también trae beneficios. Al escribir código u otras tareas, puedes iterar más rápido, especialmente cuando colaboras con el sistema. Un sistema rápido, aunque no sea de vanguardia, por ejemplo, solo del 90% al 95% de la vanguardia, es completamente suficiente, y lo que ganas en velocidad de iteración supera con creces ese 10%.

Otra dirección importante es ejecutar estos modelos en dispositivos de borde, no solo por eficiencia, sino también por privacidad y seguridad. Piensa en diversos dispositivos que procesan información muy privada, así como robots: para un robot en tu hogar, desearías ejecutar localmente un modelo eficiente y potente, delegando tareas al modelo grande en la nube solo en escenarios específicos. Los flujos de audio y video se procesan localmente y los datos permanecen en el dispositivo; puedo imaginar que este sería un excelente estado final.

Memoria y razonamiento

Gary Tan: Volviendo al contexto y la memoria. El modelo actual es sin estado; ¿cómo sería la experiencia del desarrollador si tuviera capacidad de aprendizaje continuo? ¿Cómo guiarías a un modelo así?

Demis Hassabis: Esta es una pregunta muy interesante. La falta de aprendizaje continuo es una limitación clave que impide que los agentes actuales completen tareas completas. Los agentes actuales son útiles para partes locales de las tareas; puedes combinarlos para hacer cosas muy interesantes, pero no pueden adaptarse bien a tu entorno específico. Esa es la razón por la que aún no pueden funcionar realmente de forma "lanzar y olvidar"; necesitan poder aprender tu escenario concreto. Para lograr una inteligencia general completa, este problema debe resolverse.

Gary Tan: ¿Dónde estamos en cuanto a razonamiento? El modelo actual tiene una cadena de pensamiento muy fuerte, pero aún así comete errores que un estudiante universitario inteligente no cometería. ¿Qué se necesita cambiar específicamente? ¿Qué avances esperas en el razonamiento?

Demis Hassabis: Aún existe un gran espacio para la innovación en los paradigmas de pensamiento. Lo que hacemos sigue siendo bastante rudimentario y bastante brusco. Hay muchas direcciones posibles para mejorar, como monitorear el proceso de la cadena de pensamiento e intervenir en el medio. A menudo siento que, ya sea nuestro sistema o el de nuestros competidores, en cierta medida tienden a sobrepensar y caer en bucles.

A veces me gusta observar a Gemini jugando al ajedrez. Es interesante que todos los modelos base líderes son realmente malos jugando al ajedrez. Observar sus trayectorias de pensamiento es valioso, ya que el ajedrez es un dominio bien comprendido, y puedo determinar rápidamente si se ha desviado o si su razonamiento es válido. Lo que vemos es que, a veces, considera un movimiento, se da cuenta de que es un mal movimiento, pero no encuentra uno mejor, y al final termina haciendo precisamente ese mal movimiento. Un sistema de razonamiento preciso no debería presentar este tipo de comportamiento.

Esta gran disparidad aún persiste, pero su corrección podría requerir solo uno o dos ajustes. Por eso ves lo que se llama «inteligencia dentada»: por un lado, resuelve problemas del nivel de una medalla de oro en la IMO, pero por otro, al formular la pregunta de otra manera, comete errores de matemáticas de primaria. En la introspección de su propio proceso de pensamiento, parece faltar algo.

La verdadera capacidad del agente

Gary Tan: Los agentes son un tema grande. Algunos dicen que es solo una burbuja. Personalmente, creo que apenas está comenzando. ¿Cuál es la evaluación real de las capacidades de los agentes dentro de DeepMind y cuán grande es la diferencia con la promoción externa?

Demis Hassabis: Estoy de acuerdo contigo, apenas estamos comenzando. Para alcanzar la AGI, debes tener un sistema que pueda actuar activamente para resolver problemas en tu nombre. Esto siempre ha estado claro para nosotros. Los agentes son el camino, y creo que apenas estamos empezando. Todos estamos explorando cómo hacer que los agentes trabajen mejor juntos; hemos realizado muchas investigaciones personales, y muchos de los presentes probablemente también lo hayan hecho. Cómo integrar los agentes en los flujos de trabajo, para que no sean solo un complemento, sino que realmente realicen tareas fundamentales. Actualmente aún estamos en fase experimental. Quizás solo en los últimos dos o tres meses hemos comenzado a identificar escenarios verdaderamente valiosos. La tecnología apenas ha alcanzado ese nivel: ya no son demostraciones juguetonas, sino que realmente aportan valor a tu tiempo y eficiencia.

A menudo veo a personas que inician decenas de agentes para que funcionen durante decenas de horas, pero aún no estoy seguro de que la salida justifique esta inversión.

Aún no hemos visto a nadie crear un juego AAA que alcance lo más alto de las listas de aplicaciones usando vibe coding. Yo mismo he escrito algunos, y muchos de ustedes también han hecho pequeños demos decentes. Ahora puedo crear un prototipo de Theme Park en media hora; cuando tenía 17 años, me llevó seis meses. Tengo la sensación de que, si dedicaras todo un verano a ello, podrías crear algo verdaderamente increíble. Pero aún así requiere arte y el alma y el gusto humanos; debes asegurarte de incorporar estos elementos en cualquier producto que construyas. De hecho, aún ningún niño ha creado un juego viral que haya vendido diez millones de copias, y con las herramientas actuales, debería ser posible. Por lo tanto, algo falta, quizás relacionado con el proceso o con las herramientas. Espero ver ese logro en los próximos 6 a 12 meses.

Gary Tan: ¿En qué medida será completamente automático? Creo que no será completamente automático desde el principio. La trayectoria más probable es que las personas presentes primero logren una eficiencia de 1000 veces, luego surjan aplicaciones y juegos populares creados con estas herramientas, y después se automatizarán más etapas.

Demis Hassabis: Sí, esto es lo que deberías ver primero.

Gary Tan: También hay una parte de la razón por la cual algunas personas realmente lo hacen, pero no quieren decir públicamente cuánto ayudó el agente.

Demis Hassabis: Quizás. Pero me gustaría hablar sobre la creatividad. Suelo citar el ejemplo de AlphaGo, todos conocen el movimiento 37 del segundo juego. Para mí, siempre estuve esperando ese momento; una vez que ocurrió, lancé proyectos científicos como AlphaFold. Empezamos AlphaFold al día siguiente de regresar de Seúl, hace diez años. Vine a Corea para celebrar el décimo aniversario de AlphaGo.

Pero solo salir del Move 37 no es suficiente. Es genial y útil. ¿Pero puede este sistema inventar el juego de Go en sí? Si le das al sistema una descripción de alto nivel, como «un juego cuyas reglas se pueden aprender en cinco minutos, pero que lleva toda una vida dominar, elegantemente estético, y que se puede jugar en una tarde», y el sistema te devuelve Go como resultado, entonces el sistema de hoy no puede hacerlo. La pregunta es: ¿por qué?

Gary Tan: Alguien aquí presente podría hacerlo.

Demis Hassabis: Si alguien lo logró, la respuesta no es que el sistema carezca de algo, sino que nuestro modo de usarlo es el problema. Quizás esta sea la respuesta correcta. Tal vez el sistema actual ya tiene esta capacidad, pero necesita un creador lo suficientemente genial para impulsarlo, aportar el alma de ese proyecto, y al mismo tiempo estar profundamente fusionado con la herramienta, casi como si se convirtiera en una sola entidad con ella. Si te sumerges día y noche en estas herramientas y posees una creatividad profunda, quizás puedas crear cosas más allá de lo imaginable.

Código abierto y modelos multimodales

Gary Tan: Cambiemos de tema y hablemos de código abierto. Recientemente, el lanzamiento de Gemma ha permitido que modelos muy potentes se ejecuten localmente. ¿Qué opinas? ¿Se convertirá la IA en algo que los usuarios puedan controlar por sí mismos, en lugar de permanecer principalmente en la nube? ¿Esto cambiará quién puede usar estos modelos para construir productos?

Demis Hassabis: Somos firmes defensores del código abierto y la ciencia abierta. AlphaFold, que mencionaste, lo hemos puesto completamente disponible de forma gratuita. Nuestro trabajo científico sigue publicándose en las revistas más prestigiosas. En cuanto a Gemma, queremos crear modelos de primer nivel mundial para un tamaño equivalente. Hasta ahora, Gemma ha sido descargada aproximadamente 40 millones de veces, y solo han pasado dos semanas y media desde su lanzamiento.

También considero importante la presencia de pilas tecnológicas occidentales en el ámbito de código abierto. Los modelos de código abierto chinos son excelentes y actualmente lideran el campo de código abierto, pero creemos que Gemma es muy competitivo en comparación con modelos de su mismo tamaño.

También tenemos un problema de recursos: nadie tiene capacidad de cómputo sobrante para ejecutar dos modelos de vanguardia a escala completa. Por lo tanto, nuestra decisión actual es: utilizar modelos de borde para Android, gafas, robots, etc., y hacerlos lo mejor posible abiertos, ya que una vez desplegados en los dispositivos, ya están expuestos; por lo tanto, es mejor abrirlos por completo desde el principio. Hemos unificado nuestra estrategia de apertura a nivel nanométrico, lo cual también tiene sentido estratégicamente.

Gary Tan: Antes de subir al escenario, te mostré el sistema operativo de IA que desarrollé; puedo interactuar directamente con Gemini mediante voz. Aún me pongo nervioso al mostrar cosas, pero logré que funcionara. Gemini fue diseñado desde el inicio como un modelo multimodal. He usado muchos modelos, pero ninguna otra herramienta puede igualar la profundidad de la interacción voz-a-modelo, la capacidad de llamada a herramientas y la comprensión del contexto de Gemini.

Demis Hassabis: Sí. Una ventaja del serie Gemini que aún no se ha reconocido suficientemente es que lo construimos desde el principio como multimodal. Esto hizo que el arranque fuera más difícil que solo hacer texto, pero creemos que a largo plazo nos beneficiará, y ya estamos viendo esos beneficios. Por ejemplo, en modelos del mundo, construimos Genie (el modelo generativo de entornos interactivos desarrollado por DeepMind) sobre Gemini. Lo mismo ocurre en robótica: Gemini Robotics se basará en modelos base multimodales, y nuestra ventaja en multimodalidad se convertirá en una ventaja competitiva. También estamos utilizando cada vez más Gemini en Waymo (la empresa de conducción autónoma de Alphabet).

Imagina un asistente digital que te acompaña al mundo real, posiblemente en tu teléfono o gafas, que necesita comprender el mundo físico y el entorno que te rodea. Nuestro sistema es extremadamente fuerte en esto. Seguiremos invirtiendo en esta dirección, y creo que nuestra ventaja líder en este tipo de problemas es muy grande.

Gary Tan: El costo de la inferencia está disminuyendo rápidamente. ¿Qué se vuelve posible cuando la inferencia es básicamente gratuita? ¿Cambiará la dirección de optimización de su equipo por esto?

Demis Hassabis: No estoy seguro de que la inferencia sea realmente gratuita; el paradoja de Jevons está ahí. Creo que eventualmente todos utilizarán toda la capacidad de cómputo disponible. Se puede imaginar a millones de agentes trabajando en colaboración, o un pequeño grupo de agentes que piensan simultáneamente en múltiples direcciones y luego integran los resultados. Todos estamos experimentando con estas direcciones, y todo esto consumirá los recursos de inferencia disponibles.

En cuanto a la energía, si resolvemos algunos de los problemas como la fusión nuclear controlada, la superconductividad a temperatura ambiente o las baterías óptimas —creo que lo lograremos mediante la ciencia de los materiales—, el costo de la energía podría acercarse a cero. Sin embargo, aún existen cuellos de botella en etapas como la fabricación física de los chips, al menos durante las próximas décadas. Por lo tanto, en el lado de inferencia seguirán existiendo límites de cuota y será necesario seguir utilizándolos de manera eficiente.

El próximo avance científico

Gary Tan: Es bueno que los modelos pequeños se vuelvan cada vez más inteligentes. Muchos de los presentes son fundadores en los campos de la biología y la biotecnología. AlphaFold 3 ya ha superado las proteínas y se ha expandido a una gama más amplia de moléculas biológicas. ¿A qué distancia estamos de modelar sistemas celulares completos? ¿Es este un problema de una dificultad completamente diferente?

Demis Hassabis: Isomorphic Labs está teniendo un excelente progreso. AlphaFold es solo una parte del proceso de descubrimiento de fármacos; estamos realizando investigaciones de bioquímica adyacentes, diseñando compuestos con las propiedades correctas, etc., y pronto habrá grandes anuncios.

Nuestro objetivo final es crear una célula virtual completa, un simulador de célula funcional en el que puedas aplicar perturbaciones, cuyas salidas sean lo suficientemente cercanas a los resultados experimentales y tengan utilidad práctica. Puedes omitir numerosos pasos de búsqueda y generar grandes cantidades de datos sintéticos para entrenar otros modelos que predigan el comportamiento de células reales.

Estimo que faltan aproximadamente diez años para lograr una célula virtual completa. En el lado científico de DeepMind, comenzamos con el núcleo celular virtual, ya que el núcleo es relativamente autónomo. La clave en este tipo de problemas es poder separar un fragmento con la complejidad adecuada, que sea lo suficientemente autocontenida como para poder aproximar razonablemente sus entradas y salidas, y concentrarse luego en este subsistema. Desde este punto de vista, el núcleo celular es muy adecuado.

Otro problema es la falta de datos. He hablado con los científicos líderes en microscopía electrónica y otras técnicas de imagen. Sería revolucionario poder imagear células vivas sin matarlas, porque entonces se podría convertir en un problema visual, y sabemos cómo resolver problemas visuales. Pero, según tengo entendido, actualmente no existe ninguna tecnología que pueda imagear células dinámicas y vivas a resolución nanométrica sin destruirlas. Ya se pueden tomar imágenes estáticas a esa resolución, lo cual es extremadamente sofisticado y emocionante, pero no es suficiente para convertirlo directamente en un problema visual.

Entonces hay dos caminos: uno es una solución impulsada por hardware y datos; el otro es construir simuladores más avanzados y aprendibles para simular estos sistemas dinámicos.

Gary Tan: No solo miras la biología. ¿Ciencia de materiales, descubrimiento de fármacos, modelado climático, matemáticas? Si tuvieras que ordenarlos, ¿qué campo científico se transformará más profundamente en los próximos cinco años?

Demis Hassabis: Cada campo es emocionante, y por eso ha sido siempre mi mayor pasión y la razón por la que he trabajado en IA durante más de 30 años. Siempre he creído que la IA será la herramienta definitiva para la ciencia, para avanzar en la comprensión científica, el descubrimiento científico, la medicina y nuestra comprensión del universo.

Originalmente, expresamos nuestra misión en dos pasos. El primer paso es resolver la inteligencia, es decir, construir la AGI; el segundo paso es usarla para resolver todos los demás problemas. Más tarde, tuvimos que ajustar la redacción porque algunas personas preguntaban: «¿En serio quieren decir resolver todos los problemas?». Sí, es exactamente eso lo que queremos decir. Ahora la gente está empezando a comprender qué significa esto. En concreto, me refiero a resolver los campos científicos que llamo «problemas de nodo raíz», aquellos que, una vez superados, desbloquean nuevas ramas de descubrimientos. AlphaFold es el prototipo de lo que queremos lograr. Más de tres millones de investigadores en todo el mundo, casi todos los investigadores en biología, ahora usan AlphaFold. He escuchado de algunos directivos de empresas farmacéuticas que casi todos los medicamentos descubiertos en el futuro utilizarán AlphaFold en algún punto del proceso de descubrimiento de fármacos. Nos sentimos orgullosos de esto, y es exactamente el tipo de impacto que queremos que tenga la IA. Pero creo que esto es solo el comienzo.

No puedo pensar en ningún campo científico o de ingeniería en el que la IA no pueda ayudar. Los campos que mencionaste creo que están aproximadamente en el «momento AlphaFold 1»: los resultados ya son muy prometedores, pero aún no se han resuelto los desafíos principales de esos campos. En los próximos dos años, tendremos mucho de qué hablar en todos estos campos, desde la ciencia de materiales hasta las matemáticas.

Gary Tan: Siente como una capacidad completamente nueva otorgada a la humanidad, de estilo prometeico.

Demis Hassabis: Sí. Como la moraleja del mito de Prometeo, también debemos tener cuidado con cómo se utiliza esta capacidad, en qué lugares y con el riesgo de mal uso de las mismas herramientas.

Experiencia exitosa

Gary Tan: Muchos de los presentes están intentando crear empresas que apliquen la IA a la ciencia. En tu opinión, ¿cuál es la diferencia entre las empresas de emprendimiento que realmente impulsan la frontera y aquellas que simplemente colocan una API sobre modelos básicos y luego se autodenominan «IA para la ciencia»?

Demis Hassabis: Estoy pensando en qué haría si hoy estuviera sentado en su lugar, evaluando proyectos en Y Combinator. Una cosa es que debes anticipar la dirección de la tecnología de IA, lo cual ya es difícil por sí mismo. Pero realmente creo que hay una gran oportunidad al combinar la dirección de la IA con otro campo de tecnología profunda. Este punto de intersección, ya sea en materiales, medicina u otros campos científicos realmente difíciles, especialmente aquellos que involucran el mundo atómico, no tendrá atajos en un futuro previsible. Estos campos no serán barridos por la próxima actualización del modelo base. Pero si buscas direcciones con fuerte defensa, esta es la que recomendaría.

Siempre he tenido una preferencia por la tecnología profunda. Las cosas verdaderamente duraderas y valiosas no son fáciles. Siempre me ha atraído la tecnología profunda. En 2010, cuando comenzamos, la IA ya era tecnología profunda: los inversores me decían: «Ya sabemos que esto no funciona», y la comunidad académica consideraba que era una dirección marginal que se había probado en los 90 y había fracasado. Pero si tienes fe en tu idea —por qué esta vez es diferente, qué combinación única tienes en tu trasfondo— idealmente, tú mismo eres experto en aprendizaje automático y en aplicaciones, o puedes formar un equipo fundador así —ahí hay un enorme impacto y valor por crear.

Gary Tan: Esta información es importante. Una vez que se logra algo, parece obvio, pero antes de lograrlo, todos te oponen.

Demis Hassabis: Por supuesto, debes hacer algo en lo que realmente tengas pasión. Para mí, independientemente de lo que suceda, haré IA. Desde muy joven decidí que era lo más influyente que podía imaginar. Y así ha resultado ser, aunque también podría no haberlo sido, tal vez nos adelantamos 50 años. Además, es lo más interesante que puedo imaginar. Incluso si hoy todavía estuviéramos en un pequeño garaje y la IA aún no se hubiera logrado, encontraría alguna manera de seguir adelante. Quizás volvería a la academia, pero encontraría alguna forma de continuar.

Gary Tan: AlphaFold es un ejemplo de que seguiste una dirección y acertaste. ¿Qué hace que un campo científico sea adecuado para producir un avance del tipo AlphaFold? ¿Existen patrones, como alguna función objetivo?

Demis Hassabis: Realmente debería tomar un momento para escribir esto. La lección que aprendí de todos los proyectos Alpha, como AlphaGo y AlphaFold, es que nuestras tecnologías actuales funcionan mejor en las siguientes condiciones: primero, el problema tiene un enorme espacio de búsqueda combinatoria, cuanto mayor sea mejor, hasta el punto de que ningún enfoque de fuerza bruta o algoritmo especial pueda resolverlo. El espacio de movimientos del Go y el espacio de configuraciones de proteínas superan con creces el número de átomos en el universo. Segundo, puedes definir claramente la función objetivo, como la minimización de la energía libre de una proteína o ganar en el Go, lo que permite que el sistema realice ascenso por gradiente. Tercero, hay suficientes datos, o un simulador que pueda generar una gran cantidad de datos sintéticos dentro de la distribución.

Si se cumplen estas tres condiciones, el método actual puede llevarnos muy lejos para encontrar la «aguja en el pajar» que necesitas. Lo mismo aplica para el descubrimiento de fármacos: existe algún compuesto que puede tratar esta enfermedad sin efectos secundarios; siempre que las leyes de la física permitan su existencia, el único problema es cómo encontrarlo de manera eficiente y viable. Creo que AlphaFold demostró por primera vez que este tipo de sistemas tienen la capacidad de encontrar esta aguja en un espacio de búsqueda masivo.

Gary Tan: Quiero dar un paso más allá. Hablamos de cómo los humanos han utilizado estos métodos para crear AlphaFold, pero hay un nivel meta: los humanos usan la IA para explorar el espacio de hipótesis posibles. ¿Qué tan lejos estamos de que los sistemas de IA realicen razonamiento científico verdadero (y no solo coincidencias de patrones en los datos)?

Demis Hassabis: Creo que estamos muy cerca. Estamos desarrollando este tipo de sistemas generales. Tenemos un sistema llamado AI co-scientist y algoritmos como AlphaEvolve, que pueden lograr cosas más allá de Gemini básico. Todos los laboratorios de vanguardia están explorando esta dirección.

Pero hasta ahora, personalmente no he visto ningún descubrimiento científico real y significativo realizado por estos sistemas. Creo que está a punto de ocurrir. Podría estar relacionado con la creatividad de la que hablamos antes, un verdadero avance más allá de los límites conocidos. A ese nivel, ya no se trata de emparejamiento de patrones, porque no hay patrones con los que emparejar. Tampoco es completamente extrapolación, sino algún tipo de razonamiento analógico, que creo que estos sistemas aún no poseen, o al menos no los hemos utilizado de la manera correcta.

En el ámbito científico, a menudo digo que el estándar es si puede plantear una hipótesis verdaderamente interesante, y no solo verificar una. Porque verificar una hipótesis también podría ser un descubrimiento monumental, como demostrar la conjetura de Riemann o resolver algún problema del Premio Milenio, pero quizás nos queden solo unos años para lograrlo.

Pero aún más difícil que eso es si se puede proponer un nuevo conjunto de problemas del Premio Milenio que los matemáticos más destacados consideren igual de profundos y dignos de ser estudiados durante toda una vida. Creo que esto es un orden de magnitud más difícil, y actualmente no sabemos cómo lograrlo. Pero no creo que sea algo mágico; creo que estos sistemas finalmente podrán lograrlo, tal vez solo les falten una o dos cosas.

Una forma de probarlo es lo que a veces llamo la “prueba de Einstein”: ¿puedes entrenar un sistema con conocimientos de 1901 y hacer que derive independientemente los descubrimientos de Einstein en 1905, incluyendo la relatividad especial y sus otros artículos de ese año? Creo que deberíamos realmente ejecutar esta prueba, repetidamente, para ver cuándo logramos hacerlo. Una vez que lo logremos, esos sistemas estarán cerca de inventar cosas completamente nuevas.

Consejos para emprendedores

Gary Tan: Última pregunta. Muchos de los presentes tienen un fuerte trasfondo técnico y desean hacer algo a la escala de ustedes, uno de los mayores organismos de investigación de IA del mundo. Como alguien que ha estado en la vanguardia de la investigación de la AGI, ¿qué cosa sabes ahora que deseabas saber a los 25 años?

Demis Hassabis: En realidad ya hemos tocado parte de esto. Descubrirás que perseguir problemas difíciles y perseguir problemas simples tienen una dificultad similar, solo que de formas distintas. Las diferentes cosas tienen diferentes tipos de dificultades. Pero la vida es corta y la energía es limitada; mejor invierte tu vitalidad en cosas que, si tú no las haces, nadie más lo hará realmente. Elige con este criterio.

Además, creo que en los próximos años las combinaciones interdisciplinarias serán más comunes, y la IA hará que las combinaciones interdisciplinarias sean más fáciles.

Lo último depende de tu línea de tiempo para la AGI. La mía es alrededor de 2030. Si comienzas un proyecto de deep tech hoy, generalmente implica un viaje de una década. Entonces, debes incluir en tu planificación la posibilidad de que la AGI aparezca en el camino. ¿Qué significa esto? No necesariamente es algo malo, pero debes considerarlo. ¿Puede tu proyecto aprovechar la AGI? ¿Cómo interactuará el sistema de AGI con tu proyecto?

Volviendo a la relación entre AlphaFold y los sistemas de IA general, puedo prever una situación en la que sistemas generales como Gemini, Claude o similares utilicen sistemas especializados como AlphaFold como herramientas. No creo que vayamos a integrar todo en un solo «cerebro» enorme; no tendría sentido cargar a Gemini con todos los datos de proteínas, ya que Gemini no necesita realizar el plegamiento de proteínas. Volviendo a tu punto sobre la eficiencia de la información, esos datos de proteínas sin duda ralentizarían su capacidad lingüística. El enfoque más adecuado es tener modelos generales muy potentes que puedan invocar e incluso entrenar esos sistemas especializados, pero que estos últimos sigan siendo sistemas independientes.

Esta idea merece una profunda reflexión: ¿cómo afecta lo que estás construyendo hoy, incluyendo el tipo de fábrica o sistema financiero que deseas crear? Debes tomar en serio la hoja de ruta de la AGI, imaginar cómo será ese mundo y luego construir algo que aún sea útil cuando ese mundo llegue.