Andrej Karpathy prevê que a interação com IA evoluirá para "vídeo neural interativo"

De acordo com o monitoramento da Beating, Andrej Karpathy, membro fundador da OpenAI e proponente do conceito de “vibe coding”, publicou hoje um artigo apoiando fortemente a abordagem do time do Claude Code de substituir o Markdown pelo HTML. Ele não apenas concorda veementemente com essa mudança, como também esboça um mapa de evolução para interfaces de interação com IA, prevendo que, após múltiplas iterações de forma, o resultado final gerado por grandes modelos será um “vídeo neural interativo”. Karpathy acredita que a evolução dos formatos de saída da IA passou do texto puro, extremamente difícil de ler, para o Markdown atual, e agora está gradualmente adotando o HTML, que oferece alta flexibilidade de formatação e se torna o novo padrão. No futuro, ainda haverá várias gerações intermediárias (4, 5, 6 etc.) até se alcançar o estágio final (n): um vídeo neural interativo gerado diretamente por modelos de difusão. Para ilustrar como esse estágio final se parecerá, ele mencionou diretamente o protótipo de renderização em nível de pixel sem código recentemente lançado pelo ex-pesquisador da OpenAI, chamado Flipbook. A lógica subjacente a essa tendência de evolução reside na largura de banda física do cérebro humano. Karpathy aponta que cerca de um terço do cérebro humano é dedicado a processadores paralelos para tratamento de sinais visuais — uma “rodovia de dez faixas” para entrada de informações no cérebro humano. Isso determina a melhor solução para a interação homem-máquina: a forma mais eficiente para o ser humano enviar instruções à IA (Input) é por meio da voz, enquanto a melhor forma para a IA retornar resultados ao ser humano (Output) é por meio de imagens visuais de alta largura de banda (imagens, animações ou vídeos). Além disso, ele ressalta que ainda existem pontos dolorosos claros na entrada: atualmente, apenas voz ou texto ainda não são suficientes, e é urgente incorporar a capacidade de indicação espacial — como apontar e gestos em áreas específicas da tela quando duas pessoas estão lado a lado olhando para um computador. Como um atalho imediato para melhorar a experiência, ele recomenda fortemente aos usuários que adicionem ao final de seus prompts: “estruture a resposta em HTML”.