Demis Hassabis sobre o cronograma da IAG, avanços científicos e o futuro do DeepMind

Organização e compilação: Shenchao TechFlow

Convidado: Demis Hassabis (fundador da DeepMind, ganhador do Prêmio Nobel de Química de 2024, responsável pela Google DeepMind)

Apresentador: Gary Tan

Fonte do podcast: Y Combinator

Título original: Demis Hassabis: Agentes, AGI e a Próxima Grande Descoberta Científica

Horário de transmissão: 29 de abril de 2026

Editar a introdução

O CEO do Google DeepMind e ganhador do Prêmio Nobel de Química, Demis Hassabis, participou do Y Combinator, discutindo quais são os avanços-chave ainda necessários para alcançar a AGI, conselhos para empreendedores sobre como manter a liderança e onde poderá ocorrer a próxima grande descoberta científica. O julgamento mais prático para empreendedores de deep tech é que, se você iniciar hoje um projeto de deep tech de dez anos, deve incluir a chegada da AGI em seu planejamento. Além disso, ele revelou que a Isomorphic Labs (a empresa de farmacêutica baseada em IA separada do DeepMind) em breve divulgará uma grande novidade.

Citações selecionadas

AGI roadmap and timeline

Esses componentes tecnológicos atuais quase certamente farão parte da arquitetura final da AGI.
Problemas relacionados à aprendizagem contínua, raciocínio de longo prazo e alguns aspectos da memória ainda não foram resolvidos; a AGI precisa resolver todos eles.
Se sua linha do tempo para a AGI for por volta de 2030, como a minha, e você começou um projeto de alta tecnologia hoje, então você precisa considerar que a AGI surgirá no caminho.

Memória e janela de contexto

A janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana tem, em média, apenas sete números, enquanto nós temos janelas de contexto de milhões ou até dezenas de milhões de tokens. Mas o problema é que estamos colocando tudo dentro dela, incluindo informações irrelevantes e incorretas — atualmente, esse método é bastante bruto.
Se você precisar processar um fluxo de vídeo ao vivo e armazenar todos os tokens, um milhão de tokens só é suficiente para cerca de 20 minutos.

Defeitos no raciocínio

Eu gosto de jogar xadrez com o Gemini. Às vezes, ele percebe que é um movimento ruim, mas não consegue encontrar um melhor, acabando por dar a volta e ainda assim fazer esse movimento ruim. Mas um sistema de raciocínio preciso não deveria apresentar essa situação.
Ele consegue resolver problemas de nível medalha de ouro da IMO, mas, se perguntado de outra forma, comete erros de matemática do ensino fundamental. Parece faltar algo em sua auto-reflexão sobre o processo de pensamento.

Agente e criatividade

Para alcançar a AGI, você precisa de um sistema que possa ativamente resolver problemas para você. Agent é o caminho, e acho que acabamos de começar.
Ainda não vi ninguém criar um jogo AAA que chegue ao topo das listas da loja usando vibe coding. Com o nível de esforço investido atualmente, isso deveria ser possível, mas ainda não aconteceu. Isso indica que algo ainda está faltando nas ferramentas ou no processo.

Distilação e modelos pequenos

Nossa suposição é que, seis a doze meses após o lançamento de um modelo Pro de ponta, sua capacidade poderá ser comprimida em modelos muito pequenos, capazes de rodar em dispositivos de borda. Até agora, não encontramos nenhum limite teórico de densidade de informação.

Descobertas científicas e o "Teste de Einstein"

Às vezes, eu o chamo de "teste de Einstein": conseguir treinar um sistema com conhecimentos de 1901 e deixá-lo derivar independentemente os resultados que Einstein obteve em 1905, incluindo a relatividade restrita. Assim que isso for possível, esses sistemas estarão próximos de realmente inventar coisas completamente novas.
Resolver um problema dos Prêmios do Milênio já é algo notável. Mas ainda mais difícil é propor um novo conjunto de problemas dos Prêmios do Milênio, que sejam considerados igualmente profundos e dignos de serem estudados por toda a vida pelos principais matemáticos.

Sugestões para startups de tecnologia avançada

Perseguir problemas difíceis e perseguir problemas simples são na verdade parecidos, apenas diferem na forma como são difíceis. A vida é curta; melhor dedicar sua energia ao que só você pode fazer.

Caminhos para a implementação da AGI

Gary Tan: Você pensou sobre a AGI por mais tempo do que quase todos. Olhando para o paradigma atual, você acha que já temos quantas partes da arquitetura final da AGI? O que está fundamentalmente faltando agora?

Demis Hassabis: Treinamento em larga escala, RLHF, cadeias de pensamento, tenho certeza de que se tornarão parte da arquitetura final da AGI. Essas tecnologias já demonstraram muita coisa até aqui. É difícil imaginar que, daqui a dois anos, descobriremos que esse caminho é um beco sem saída — isso não faz sentido para mim. Mas, sobre o que já temos, ainda podem faltar uma ou duas peças: aprendizado contínuo, raciocínio de longo prazo, alguns aspectos da memória — ainda há questões não resolvidas. A AGI precisa resolver todas elas. Talvez tecnologias atuais mais algumas inovações progressivas sejam suficientes para alcançar esse nível, mas também pode haver ainda um ou dois grandes pontos-chave por serem superados. Não acho que sejam mais de um ou dois. Pessoalmente, acho que a probabilidade de existir algum ponto-chave ainda não resolvido é de 50%. Por isso, no Google DeepMind, estamos avançando em ambas as frentes.

Gary Tan: Estou lidando com um monte de sistemas de agentes, e o que mais me surpreende é que, por baixo, é sempre o mesmo conjunto de pesos. Por isso, o conceito de aprendizado contínuo é particularmente interessante, porque atualmente estamos basicamente usando fita adesiva temporária, coisas como "ciclos de sonhos noturnos".

Demis Hassabis: Sim, esses ciclos de sonho são bem legais. Já tínhamos refletido sobre isso no contexto da integração da memória episódica. Minha pesquisa de doutorado foi sobre como o hipocampo integra elegantemente novos conhecimentos ao sistema de conhecimento existente. O cérebro faz isso extremamente bem. Ele realiza esse processo durante o sono, especialmente durante o sono REM, reexpondo experiências importantes para aprender com elas. Nosso primeiro programa Atari, o DQN (Rede Q Profunda, publicada pela DeepMind em 2013, que alcançou nível humano em jogos Atari pela primeira vez usando aprendizado por reforço profundo), conseguiu dominar os jogos Atari por meio de uma técnica-chave: replay de experiência. Isso foi inspirado na neurociência — reexpor repetidamente caminhos bem-sucedidos. Isso aconteceu em 2013, uma época quase pré-histórica na área de IA, mas na época foi fundamental.

Concordo com você; agora realmente estamos usando fita adesiva para colar tudo dentro da janela de contexto. Isso parece errado. Mesmo que estejamos lidando com máquinas, e não cérebros biológicos, e teoricamente pudéssemos ter janelas de contexto de milhões ou bilhões de tokens, com memória perfeita, ainda existem custos associados à busca e recuperação. Neste momento, quando precisamos tomar decisões específicas, encontrar as informações verdadeiramente relevantes não é simples, mesmo que você consiga armazenar tudo. Por isso, acho que há muito espaço para inovação no campo da memória.

Gary Tan: Para ser honesto, uma janela de contexto de um milhão de tokens já é muito maior do que eu esperava e pode fazer muitas coisas.

Demis Hassabis: É suficiente para a maioria dos cenários em que deveria ser usado. Mas pense bem: a janela de contexto é aproximadamente equivalente à memória de trabalho. A memória de trabalho humana média consegue apenas sete números, e nós temos janelas de contexto de milhões ou até dezenas de milhões. O problema é que estamos colocando tudo dentro dela — incluindo informações irrelevantes e incorretas — e atualmente esse método é bastante bruto. Além disso, se você quiser processar um fluxo de vídeo em tempo real e simplesmente registrar todos os tokens, um milhão de tokens só cobre cerca de 20 minutos. Mas se você quiser que o sistema compreenda sua vida nos últimos um ou dois meses, isso ainda está longe de ser suficiente.

Gary Tan: A DeepMind sempre se dedicou profundamente ao aprendizado por reforço e à busca; essa filosofia está quão profundamente incorporada no processo de construção do Gemini hoje? O aprendizado por reforço ainda está subestimado?

Demis Hassabis: Provavelmente foi subestimado. O interesse nessa área tem variado. Desde o primeiro dia da DeepMind, estamos trabalhando em sistemas de Agentes. Todo o trabalho feito no Atari e no AlphaGo é, essencialmente, sobre Agentes de aprendizado por reforço — sistemas capazes de completar objetivos, tomar decisões e planejar de forma autônoma. Claro que, inicialmente, escolhemos o domínio dos jogos, pois a complexidade era controlável, e depois avançamos para jogos mais complexos; após o AlphaGo, desenvolvemos o AlphaStar, e basicamente fizemos todos os jogos que podíamos.

A próxima pergunta é se é possível generalizar esses modelos como modelos do mundo ou modelos de linguagem, e não apenas modelos de jogos. Nos últimos anos, temos estado a fazer exatamente isso. O padrão de pensamento e o raciocínio por cadeias de pensamento em todos os modelos líderes de hoje são, essencialmente, um retorno ao que o AlphaGo introduziu na época. Acho que muito do trabalho que fizemos naquela época está altamente relevante hoje; estamos revisando essas antigas ideias, aplicando-as em maior escala e de forma mais geral, incluindo métodos de aprendizado por reforço como a busca em árvore de Monte Carlo (Monte Carlo tree search). As ideias do AlphaGo e do AlphaZero são extremamente relevantes para os modelos base de hoje, e acredito que grande parte dos avanços nos próximos anos virá disso.

Distilação e modelos pequenos

Gary Tan: Para ser mais inteligente agora, precisamos de modelos maiores, mas ao mesmo tempo as técnicas de distilação também estão avançando, permitindo que modelos menores se tornem bastante rápidos. Seu modelo Flash é muito forte, alcançando basicamente 95% do desempenho dos modelos de ponta, mas com apenas um décimo do custo. É isso?

Demis Hassabis: Acho que essa é uma das nossas principais vantagens. Você precisa primeiro construir os maiores modelos para obter capacidades de ponta. Uma das nossas maiores vantagens é a capacidade de rapidamente destilar e comprimir essas capacidades em modelos cada vez menores. A técnica de destilação foi originalmente desenvolvida por nós, e ainda somos os melhores do mundo nisso. Além disso, temos uma forte motivação comercial para fazer isso. Somos provavelmente a maior plataforma de aplicativos de IA do mundo. Com AI Overviews e AI Mode, além do Gemini, todos os produtos do Google — incluindo Maps, YouTube e outros — estão integrando o Gemini ou tecnologias relacionadas. Isso envolve bilhões de usuários e dezenas de produtos com bilhões de usuários cada um. Eles precisam ser extremamente rápidos, eficientes, de baixo custo e com latência mínima. Isso nos dá uma grande motivação para tornar os modelos Flash e Flash-Lite extremamente eficientes, e espero que, no final, isso também sirva bem às diversas tarefas dos usuários.

Gary Tan: Estou curioso para saber até que ponto esses pequenos modelos podem ser inteligentes. Existe um limite para a distilação? Modelos de 50B ou 400B conseguem ser tão inteligentes quanto os maiores modelos de ponta de hoje?

Demis Hassabis: Não acho que já tenhamos atingido os limites da teoria da informação; pelo menos, ninguém sabe até agora se já atingimos. Talvez um dia encontremos um teto de densidade de informação, mas atualmente nossa suposição é que, após o lançamento de um modelo Pro de ponta, sua capacidade poderá ser comprimida em um modelo muito pequeno, quase capaz de rodar em dispositivos de borda, dentro de seis meses a um ano. Vocês também podem ver isso nos modelos Gemma; nosso modelo Gemma 4 apresenta desempenho muito forte no mesmo tamanho. Tudo isso utiliza grandes quantidades de técnicas de distilação e otimização de eficiência para modelos pequenos. Portanto, realmente não vejo nenhum limite teórico; acho que estamos muito longe desse limite.

Gary Tan: Há agora um fenômeno absurdo em que a quantidade de trabalho que um engenheiro pode realizar é cerca de 500 a 1000 vezes maior do que há seis meses. Alguns nesta sala provavelmente estão realizando um volume de trabalho equivalente a 1000 vezes o de um engenheiro do Google na década de 2000. Steve Yegge já falou sobre isso.

Demis Hassabis: Acho muito empolgante. Pequenos modelos têm muitos usos. Um deles é o baixo custo e a velocidade, que também trazem benefícios. Ao escrever código ou realizar outras tarefas, você pode iterar mais rapidamente, especialmente ao colaborar com o sistema. Um sistema rápido, mesmo que não seja o mais avançado — por exemplo, apenas 90% a 95% do estado da arte — é totalmente suficiente, e o que você ganha em velocidade de iteração supera amplamente esses 10%.

Outra grande direção é executar esses modelos em dispositivos de borda, não apenas por eficiência, mas também por privacidade e segurança. Pense em diversos dispositivos que processam informações muito privadas, bem como robôs — para um robô em sua casa, você gostaria de ter um modelo eficiente e poderoso rodando localmente, delegando tarefas ao modelo em nuvem apenas em cenários específicos. Fluxos de áudio e vídeo são processados localmente, e os dados permanecem no local. Consigo imaginar que esse seria um ótimo estado final.

Memória e raciocínio

Gary Tan: Voltando ao contexto e à memória. O modelo atual é sem estado; se tivesse capacidade de aprendizado contínuo, como seria a experiência do desenvolvedor? Como você orientaria esse tipo de modelo?

Demis Hassabis: Essa é uma pergunta muito interessante. A falta de aprendizado contínuo é um gargalo chave que impede os Agentes atuais de completar tarefas inteiras. Os Agentes atuais são úteis para partes locais das tarefas; você pode combiná-los para fazer coisas muito legais, mas eles não conseguem se adaptar bem ao seu ambiente específico. É por isso que ainda não podem realmente funcionar de forma "lançar e esquecer" — eles precisam ser capazes de aprender seu cenário específico. Para alcançar inteligência geral completa, esse problema precisa ser resolvido.

Gary Tan: Onde estamos no que diz respeito ao raciocínio? O chain of thought do modelo agora é muito forte, mas ainda assim erra em erros que um estudante de graduação inteligente não cometeria. O que exatamente precisa ser ajustado? Que avanços você espera no raciocínio?

Demis Hassabis: Ainda há muito espaço para inovação nos paradigmas de pensamento. O que fazemos ainda é bastante rudimentar e bastante bruto. Existem muitas direções para melhoria, como monitorar o processo da cadeia de pensamento e fazer intervenções no meio do raciocínio. Muitas vezes sinto que, seja nosso sistema ou o dos concorrentes, eles em certa medida superam o pensamento e entram em ciclos.

Às vezes, gosto de observar o Gemini jogando xadrez. É interessante que todos os modelos básicos líderes são relativamente ruins no xadrez. Observar suas trajetórias de pensamento é valioso, pois o xadrez é um domínio bem compreendido, e consigo rapidamente determinar se ele está se desviando ou se seu raciocínio é válido. O que vemos é que, às vezes, ele considera um movimento, percebe que é um mau lance, mas não consegue encontrar um melhor, acabando por voltar e fazer exatamente aquele mau lance. Um sistema de raciocínio preciso não deveria apresentar esse tipo de comportamento.

Essa enorme discrepância ainda existe, mas corrigi-la pode exigir apenas um ou dois ajustes. É por isso que você vê o chamado "inteligência serrilhada" — capaz de resolver problemas do nível de medalha de ouro da IMO, mas que comete erros de matemática do ensino fundamental quando a pergunta é feita de outra forma. Parece haver algo faltando na introspecção do próprio processo de pensamento.

A verdadeira capacidade do agente

Gary Tan: Agent é um grande tema. Alguns dizem que é apenas hype. Pessoalmente, acho que acabou de começar. Qual é a avaliação interna da DeepMind sobre a capacidade real dos Agentes, e qual é a diferença em relação à divulgação externa?

Demis Hassabis: Concordo com você, acabamos de começar. Para alcançar a AGI, você precisa de um sistema que possa ativamente resolver problemas por você. Isso sempre foi claro para nós. Agentes são o caminho, e acho que acabamos de começar. Todos estão tentando descobrir como fazer os agentes trabalharem melhor juntos; fizemos muitas explorações em experimentos pessoais, e muitos de vocês aqui também devem ter feito. Como integrar agentes aos fluxos de trabalho, para que eles não sejam apenas um acréscimo, mas realmente realizem coisas fundamentais. Ainda estamos na fase experimental. Talvez apenas nos últimos dois ou três meses tenhamos começado a encontrar cenários verdadeiramente valiosos. A tecnologia simplesmente chegou ao ponto em que não é mais uma demonstração de brinquedo, mas realmente traz valor para o seu tempo e eficiência.

Vejo muitas pessoas iniciando dezenas de Agentes para que eles operem por dezenas de horas, mas ainda não tenho certeza se o retorno justifica esse investimento.

Ainda não vimos ninguém criar um jogo AAA que chegue ao topo das lojas de aplicativos usando vibe coding. Eu mesmo já escrevi, e muitos de vocês aqui também fizeram alguns bons pequenos demos. Hoje consigo criar um protótipo de Theme Park em meia hora — quando tinha 17 anos, levei seis meses. Tenho a sensação de que, se você dedicar todo um verão a isso, pode criar algo verdadeiramente incrível. Mas ainda assim, é necessário arte e alma humana, gosto — você precisa garantir que esses elementos estejam presentes em qualquer produto que construa. Na verdade, ainda nenhuma criança criou um jogo de sucesso que vendeu dez milhões de cópias, e, com as ferramentas atuais, isso deveria ser possível. Então, algo ainda está faltando — talvez relacionado ao processo, talvez às ferramentas. Prevejo que, nos próximos 6 a 12 meses, veremos esse tipo de resultado.

Gary Tan: Em que grau isso será totalmente automático? Acho que não será totalmente automático desde o início. O caminho mais provável é que as pessoas presentes aqui primeiro alcancem uma eficiência de 1000 vezes, depois surjam aplicações e jogos de sucesso criados com essas ferramentas, e somente após isso mais etapas serão automatizadas.

Demis Hassabis: Sim, esse é o primeiro que você deve ver.

Gary Tan: Também há uma parte da razão de que algumas pessoas realmente estão fazendo isso, mas não querem revelar quanto o Agente ajudou.

Demis Hassabis: Talvez. Mas gostaria de falar sobre o tema da criatividade. Frequentemente uso o exemplo do AlphaGo, todos conhecem o movimento 37 do segundo jogo. Para mim, eu estava esperando por um momento como esse; assim que ele ocorreu, iniciei projetos científicos como o AlphaFold. Começamos o AlphaFold no dia seguinte à nossa volta de Seul, há dez anos. Fui à Coreia agora para celebrar o décimo aniversário do AlphaGo.

Mas sair apenas do Move 37 não é suficiente. É legal e útil. Mas esse sistema consegue inventar o próprio jogo de Go? Se você der a ele uma descrição de alto nível, como “um jogo cujas regras podem ser aprendidas em cinco minutos, mas que leva uma vida inteira para dominar, esteticamente elegante, com uma partida podendo ser concluída em uma tarde”, e o sistema retornar o jogo de Go como resultado, os sistemas de hoje não conseguem fazer isso. A questão é: por quê?

Gary Tan: Talvez alguém aqui consiga fazer isso.

Demis Hassabis: Se alguém conseguiu, então a resposta não é que o sistema esteja faltando algo, mas sim que nosso modo de usar o sistema está errado. Talvez essa seja a resposta correta. Talvez os sistemas de hoje já tenham essa capacidade, mas precisem de um criador suficientemente genial para impulsioná-los, fornecer a alma desse projeto, ao mesmo tempo em que essa pessoa se funde profundamente com a ferramenta, quase se tornando um com ela. Se você passar dia e noite imerso nessas ferramentas e possuir criatividade profunda, talvez consiga criar coisas além da imaginação.

Código aberto e modelos multimodais

Gary Tan: Vamos mudar de assunto e falar sobre código aberto. O lançamento recente do Gemma permite que modelos muito poderosos sejam executados localmente. Qual é a sua opinião? A IA se tornará algo controlado pelos próprios usuários, em vez de permanecer principalmente na nuvem? Isso mudará quem pode usar esses modelos para construir produtos?

Demis Hassabis: Somos fortes defensores do código aberto e da ciência aberta. O AlphaFold, mencionado por você, foi totalmente disponibilizado gratuitamente. Nosso trabalho científico continua sendo publicado em revistas de alto nível. Em relação ao Gemma, queremos criar modelos de liderança mundial com o mesmo nível de escala. Até agora, o Gemma já foi baixado cerca de 40 milhões de vezes, e foi lançado há apenas duas semanas e meia.

Ainda acredito que é importante haver uma pilha de tecnologia ocidental no espaço de código aberto. Os modelos de código aberto chineses são excelentes e atualmente lideram o campo de código aberto, mas acreditamos que o Gemma é muito competitivo em comparação com modelos do mesmo tamanho.

Também temos um problema de recursos: ninguém tem capacidade de processamento ociosa para executar dois modelos de ponta de tamanho completo. Portanto, nossa decisão atual é: usar modelos de borda para Android, óculos, robôs etc., e torná-los abertos, pois, uma vez implantados nos dispositivos, já estão expostos — então é melhor abri-los completamente desde o início. Unificamos nossa estratégia de abertura a nível nanométrico, o que também faz sentido estrategicamente.

Gary Tan: Antes de subir ao palco, eu mostrei a você o sistema operacional de IA que desenvolvi; consigo interagir diretamente com o Gemini por voz. Ainda fiquei um pouco nervoso ao demonstrar, mas consegui fazer funcionar. O Gemini foi construído desde o início como multimodal. Já usei muitos modelos, mas nenhuma outra solução até agora consegue comparar-se ao Gemini em termos de profundidade na interação voz-para-modelo, capacidade de chamada de ferramentas e compreensão de contexto.

Demis Hassabis: Sim. Uma vantagem do Gemini que ainda não foi plenamente reconhecida é que o construímos desde o início como multimodal. Isso tornou o início mais difícil do que se fosse apenas textual, mas acreditamos que nos beneficiaremos a longo prazo, e já estamos colhendo esses benefícios. Por exemplo, em modelos de mundo, construímos o Genie (um modelo gerativo de ambiente interativo desenvolvido pelo DeepMind) sobre o Gemini. No campo da robótica, o Gemini Robotics também será baseado em modelos multimodais fundamentais, e nossa vantagem multimodal se tornará uma barreira competitiva. Também estamos aumentando cada vez mais o uso do Gemini na Waymo (empresa de automação autônoma da Alphabet).

Imaginem um assistente digital que os acompanha no mundo real, possivelmente em seus celulares ou óculos, que precisa compreender o mundo físico e o ambiente ao redor. Nosso sistema é extremamente forte nisso. Continuaremos investindo nessa direção, e acredito que nossa vantagem de liderança nesse tipo de problema é muito grande.

Gary Tan: O custo de inferência está caindo rapidamente. O que se torna possível quando a inferência for basicamente gratuita? A direção de otimização da vossa equipa mudará por causa disso?

Demis Hassabis: Não tenho certeza de que a inferência será realmente gratuita; o paradoxo de Jevons está aí. Acho que todos acabarão usando toda a capacidade de processamento disponível. É possível imaginar milhões de agentes trabalhando em conjunto ou um pequeno grupo de agentes pensando simultaneamente em várias direções e depois integrando os resultados. Estamos todos experimentando essas abordagens, e tudo isso consumirá os recursos de inferência disponíveis.

No que diz respeito à energia, se resolvermos alguns dos problemas como fusão nuclear controlada, supercondutividade em temperatura ambiente e baterias ideais — acredito que conseguiremos por meio da ciência dos materiais — o custo da energia pode se aproximar de zero. No entanto, etapas como a fabricação física de chips ainda apresentam gargalos, pelo menos nas próximas décadas. Portanto, ainda haverá limites de quota para a inferência, e será necessário continuar usando os recursos de forma eficiente.

Próxima descoberta científica

Gary Tan: É bom que os modelos menores estejam ficando cada vez mais inteligentes. Muitos aqui são fundadores de áreas biológicas e de biotecnologia. O AlphaFold 3 já ultrapassou as proteínas e se expandiu para uma gama mais ampla de moléculas biológicas. Ainda estamos a quantos passos de modelar sistemas celulares completos? Este é um problema de uma dificuldade completamente diferente?

Demis Hassabis: O Isomorphic Labs está avançando muito bem. O AlphaFold é apenas uma etapa no processo de descoberta de fármacos; estamos realizando pesquisas em bioquímica adjacentes, projetando compostos com as propriedades corretas, entre outros, e haverá grandes anúncios em breve.

Nosso objetivo final é criar uma célula virtual completa, um simulador de célula funcional em que você pode aplicar perturbações, cuja saída seja suficientemente próxima dos resultados experimentais e tenha utilidade prática. Você pode pular inúmeros passos de busca, gerar grandes quantidades de dados sintéticos para treinar outros modelos, permitindo que eles prevejam o comportamento de células reais.

Estimo que ainda faltam cerca de dez anos para um vírus celular completo. Na equipe científica do DeepMind, estamos começando com o núcleo celular virtual, pois o núcleo é relativamente autossuficiente. A chave para esse tipo de problema é conseguir isolar um pedaço com complexidade adequada, que seja suficientemente autocontido, permitindo que você faça aproximações razoáveis de suas entradas e saídas, e se concentre nesse subsistema. Do ponto de vista, o núcleo celular é muito adequado.

Outro problema é a falta de dados. Eu conversei com os principais cientistas que trabalham com microscopia eletrônica e outras técnicas de imagem. Se fosse possível imagear células vivas sem matá-las, seria revolucionário, pois isso transformaria o problema em um problema visual, e sabemos como resolver problemas visuais. Mas, até onde sei, atualmente não existe tecnologia capaz de imagear células dinâmicas e vivas em resolução nanométrica sem danificá-las. Você pode obter imagens estáticas nessa resolução, o que já é extremamente sofisticado e emocionante, mas não é suficiente para transformá-lo diretamente em um problema visual.

Então há dois caminhos: um baseado em hardware e dados; outro é construir simuladores mais eficazes e aprendizáveis para simular esses sistemas dinâmicos.

Gary Tan: Você não olha apenas para a biologia. Ciência dos materiais, descoberta de fármacos, modelagem climática, matemática — se fosse preciso ordenar, qual campo científico será mais profundamente transformado nos próximos cinco anos?

Demis Hassabis: Cada área é emocionante, e é por isso que isso sempre foi minha maior paixão e a razão pela qual estou envolvido com IA há mais de 30 anos. Sempre acreditei que a IA seria a ferramenta final para a ciência, impulsionando o entendimento científico, a descoberta científica, a medicina e nossa compreensão do universo.

Originalmente, expressamos nossa missão em duas etapas. Primeiro, resolver a inteligência, ou seja, construir a AGI; segundo, usá-la para resolver todos os outros problemas. Mais tarde, tivemos que ajustar a redação, porque algumas pessoas perguntavam: “Vocês realmente querem dizer resolver todos os problemas?” Sim, é exatamente isso que queremos dizer. Agora as pessoas estão começando a entender o que isso significa. Especificamente, refiro-me a resolver áreas científicas que chamo de “problemas raiz”, aqueles que, quando superados, desbloqueiam novas ramificações de descobertas. O AlphaFold é o protótipo do que queremos fazer. Mais de três milhões de pesquisadores em todo o mundo, quase todos os pesquisadores em biologia, agora usam o AlphaFold. Ouvi de alguns amigos executivos de empresas farmacêuticas que quase todos os medicamentos descobertos no futuro usarão o AlphaFold em algum estágio do processo de descoberta de fármacos. Ficamos orgulhosos com isso, e é exatamente esse tipo de impacto que esperamos que a IA produza. Mas acho que isso é apenas o começo.

Não consigo pensar em nenhuma área da ciência ou engenharia em que a IA não possa ajudar. Os campos que você mencionou estão, acredito eu, no momento do “AlphaFold 1” — os resultados já são promissores, mas ainda não resolveram os grandes desafios dessas áreas. Nos próximos dois anos, teremos muito a discutir sobre avanços em todos esses campos, desde a ciência dos materiais até a matemática.

Gary Tan: Parece algo prometeico, dando à humanidade uma nova capacidade.

Demis Hassabis: Sim. Como a lição da história de Prometeu, também devemos ser cautelosos sobre como essa capacidade é usada, onde é aplicada e os riscos de abuso do mesmo conjunto de ferramentas.

Experiência de sucesso

Gary Tan: Muitos aqui estão tentando criar empresas que aplicam IA à ciência. Na sua opinião, qual é a diferença entre empresas verdadeiramente avançadas e aquelas que simplesmente colocam uma API sobre modelos básicos e se autodenominam “IA para a ciência”?

Demis Hassabis: Estou pensando no que eu faria se hoje estivesse sentado no lugar de vocês, analisando projetos na Y Combinator. Uma coisa é que você precisa antecipar a direção da tecnologia de IA, o que já é difícil por si só. Mas realmente acredito que há uma enorme oportunidade em combinar a direção da IA com outro campo de tecnologia avançada. Esse ponto de interseção — seja em materiais, medicina ou outros campos científicos realmente desafiadores, especialmente aqueles envolvendo o mundo atômico — não terá atalhos no futuro previsível. Esses campos não serão varridos pela próxima atualização do modelo básico. Mas se você estiver procurando por direções com forte defesa, esse é o caminho que eu recomendaria.

Sempre preferi tecnologias profundas. Coisas verdadeiramente duradouras e valiosas não são fáceis. Sempre fui atraído por tecnologias profundas. Em 2010, quando começamos, a IA era uma tecnologia profunda — investidores me diziam: “Já sabemos que isso não funciona”, e a comunidade acadêmica considerava isso uma área marginal que havia sido tentada nos anos 90 e fracassado. Mas se você tem convicção em sua ideia — por que desta vez será diferente, qual combinação única você traz em sua experiência — idealmente, você mesmo é especialista em aprendizado de máquina e aplicações, ou consegue montar uma equipe fundadora assim — há um enorme impacto e valor a ser criado.

Gary Tan: Esta informação é muito importante. Depois que algo é feito, parece óbvio, mas antes de ser feito, todos estão se opondo a você.

Demis Hassabis: Claro, então você precisa fazer algo em que realmente tenha paixão. Para mim, independentemente do que aconteça, eu farei IA. Decidi isso quando era muito jovem, pois era a coisa mais impactante que conseguia imaginar. E isso se provou verdadeiro, mas também pode não ter sido — talvez tenhamos sido 50 anos adiantados. E também é a coisa mais interessante que consigo imaginar. Mesmo que hoje ainda estivéssemos em um pequeno galpão, sem ter criado a IA, eu ainda encontraria uma maneira de continuar. Talvez voltasse à academia, mas encontraria alguma forma de seguir em frente.

Gary Tan: O AlphaFold é um exemplo de você perseguir uma direção e acertar a aposta. O que torna um campo científico adequado para produzir uma ruptura do tipo AlphaFold? Existe alguma regra, como uma certa função objetivo?

Demis Hassabis: Eu realmente deveria encontrar um momento para escrever isso. A lição que aprendi com todos os projetos Alpha, como AlphaGo e AlphaFold, é que nossas tecnologias atuais funcionam melhor quando: primeiro, o problema possui um espaço de busca combinatória enorme, quanto maior melhor, tão grande que nenhum método de força bruta ou algoritmo especial consegue resolvê-lo. O espaço de movimentos do Go e o espaço de configurações de proteínas excedem em muito o número de átomos no universo. Segundo, você consegue definir claramente a função objetivo, como a minimização da energia livre de proteínas ou vencer no Go, permitindo que o sistema realize ascensão por gradiente. Terceiro, há dados suficientes ou um simulador capaz de gerar grandes quantidades de dados sintéticos dentro da distribuição.

Se essas três condições forem atendidas, o método atual hoje pode levar muito longe para encontrar a agulha no palheiro que você precisa. A descoberta de fármacos segue o mesmo raciocínio: existe algum composto capaz de tratar essa doença sem efeitos colaterais; desde que as leis da física permitam sua existência, a única questão é como encontrá-lo de forma eficiente e viável. Acredito que o AlphaFold provou, pela primeira vez, que sistemas desse tipo têm a capacidade de encontrar essa agulha em um espaço de busca massivo.

Gary Tan: Quero subir para um nível superior. Estamos falando sobre como os humanos usaram esses métodos para criar o AlphaFold, mas há também um nível meta: os humanos usando IA para explorar o espaço de hipóteses possível. A que distância estamos de sistemas de IA capazes de realizar raciocínio científico verdadeiro (e não apenas correspondência de padrões nos dados)?

Demis Hassabis: Acho que estamos muito próximos. Estamos desenvolvendo esse tipo de sistema geral. Temos um sistema chamado AI co-scientist e algoritmos como o AlphaEvolve, que conseguem ir além do Gemini básico. Todos os laboratórios de ponta estão explorando essa direção.

Mas até agora, pessoalmente, ainda não vi nenhuma descoberta científica real e significativa feita por esses sistemas. Acho que ela está prestes a acontecer. Pode estar relacionada à criatividade de que discutimos anteriormente, uma verdadeira ruptura com os limites conhecidos. Nesse nível, já não se trata de correspondência de padrões, pois não há padrões para corresponder. Também não é exatamente extrapolação, mas sim algum tipo de raciocínio analógico, que acho que esses sistemas ainda não possuem, ou pelo menos ainda não os estamos utilizando da maneira correta.

Um padrão que costumo mencionar na área científica é se ele consegue formular uma hipótese verdadeiramente interessante, e não apenas verificar uma. Pois verificar uma hipótese também pode ser um grande feito, como provar a hipótese de Riemann ou resolver algum problema do Prêmio Milênio, mas talvez nos faltem apenas alguns anos para alcançar esse nível.

Mas ainda mais difícil do que isso é conseguir propor um novo conjunto de problemas do Millennium Prize que sejam considerados igualmente profundos e dignos de serem estudados por toda a vida pelos principais matemáticos. Acho que isso é uma ordem de magnitude mais difícil, e atualmente não sabemos como fazer isso. Mas não acho que seja alguma magia; acredito que esses sistemas eventualmente conseguirão, talvez apenas faltem uma ou duas coisas.

Uma maneira de testar isso é o que às vezes chamo de “teste de Einstein”: você consegue treinar um sistema com conhecimento de 1901 e fazê-lo derivar independentemente os resultados obtidos por Einstein em 1905, incluindo a relatividade restrita e seus outros artigos daquele ano? Acho que deveríamos realmente executar esse teste, repetidamente, para ver quando conseguiremos. Assim que conseguirmos, esses sistemas estarão próximos de realmente inventar coisas completamente novas.

Dicas para empreendedores

Gary Tan: Última pergunta. Muitas pessoas aqui têm um forte background técnico e desejam fazer algo da escala de vocês — vocês são um dos maiores organismos de pesquisa em IA do mundo. Vocês vieram da linha de frente da pesquisa em AGI. Qual é uma coisa que você sabe agora, mas gostaria de saber aos 25 anos?

Demis Hassabis: Na verdade, já tocamos nisso um pouco. Você vai perceber que resolver problemas difíceis e resolver problemas simples tem dificuldades semelhantes, apenas de formas diferentes. Coisas diferentes têm dificuldades distintas. Mas a vida é curta e a energia é limitada; melhor investir sua energia em algo que, se você não fizer, realmente ninguém mais fará. Use esse critério para escolher.

Além disso, acho que nos próximos anos combinações interdisciplinares se tornarão mais comuns, e a IA tornará mais fácil a integração entre áreas.

O último ponto depende da sua linha do tempo para a AGI. A minha é por volta de 2030. Se você começar um projeto de deep tech hoje, geralmente significa uma jornada de dez anos. Então, você precisa incorporar na sua planejamento a possibilidade de a AGI surgir no meio do caminho. O que isso significa? Não necessariamente é algo ruim, mas você precisa considerá-lo. Seu projeto pode aproveitar a AGI? Como os sistemas de AGI interagirão com o seu projeto?

Voltando à relação entre o AlphaFold e os sistemas de IA geral, um cenário que posso prever é que sistemas gerais como Gemini, Claude ou similares usem sistemas especializados como o AlphaFold como ferramentas a serem chamadas. Não acho que vamos colocar tudo dentro de um único e enorme “cérebro”; se colocarmos todos os dados de proteínas dentro do Gemini, não faz sentido, pois o Gemini não precisa fazer o dobramento de proteínas. Retomando sua observação sobre eficiência de informação, esses dados de proteínas certamente prejudicariam sua capacidade linguística. Uma abordagem melhor é ter modelos gerais muito fortes em uso de ferramentas, que possam chamar e até treinar essas ferramentas especializadas, mas que as ferramentas especializadas sejam sistemas independentes.

Essa ideia merece ser profundamente refletida: como ela afeta o que você está construindo hoje, incluindo o tipo de fábrica e o tipo de sistema financeiro que você deseja criar. Você precisa levar a sério a tabela de tempo da AGI, imaginar como será esse mundo e construir algo que ainda seja útil quando esse mundo chegar.