Andrej Karpathy prevê que a interação com IA evoluirá para "vídeo neural interativo"

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Andrej Karpathy, co-fundador da OpenAI, compartilhou sua visão sobre o futuro da interação entre IA e humanos, prevendo que "vídeo neural interativo" se tornará o formato de saída dominante. Ele argumenta que mídias visuais se alinham melhor com o processamento do cérebro humano do que o texto. Seus comentários, cobertos nas notícias de IA + cripto, destacam uma mudança do Markdown para o HTML e além. Veículos de notícias cripto estão acompanhando de perto suas insights à medida que a IA e a blockchain continuam a se intersectar.

De acordo com o monitoramento da Beating, Andrej Karpathy, membro fundador da OpenAI e proponente do conceito de “vibe coding”, publicou hoje um artigo apoiando fortemente a abordagem do time do Claude Code de substituir o Markdown pelo HTML. Ele não apenas concorda veementemente com essa mudança, como também esboça um mapa de evolução para interfaces de interação com IA, prevendo que, após múltiplas iterações de forma, o resultado final gerado por grandes modelos será um “vídeo neural interativo”. Karpathy acredita que a evolução dos formatos de saída da IA passou do texto puro, extremamente difícil de ler, para o Markdown atual, e agora está gradualmente adotando o HTML, que oferece alta flexibilidade de formatação e se torna o novo padrão. No futuro, ainda haverá várias gerações intermediárias (4, 5, 6 etc.) até se alcançar o estágio final (n): um vídeo neural interativo gerado diretamente por modelos de difusão. Para ilustrar como esse estágio final se parecerá, ele mencionou diretamente o protótipo de renderização em nível de pixel sem código recentemente lançado pelo ex-pesquisador da OpenAI, chamado Flipbook. A lógica subjacente a essa tendência de evolução reside na largura de banda física do cérebro humano. Karpathy aponta que cerca de um terço do cérebro humano é dedicado a processadores paralelos para tratamento de sinais visuais — uma “rodovia de dez faixas” para entrada de informações no cérebro humano. Isso determina a melhor solução para a interação homem-máquina: a forma mais eficiente para o ser humano enviar instruções à IA (Input) é por meio da voz, enquanto a melhor forma para a IA retornar resultados ao ser humano (Output) é por meio de imagens visuais de alta largura de banda (imagens, animações ou vídeos). Além disso, ele ressalta que ainda existem pontos dolorosos claros na entrada: atualmente, apenas voz ou texto ainda não são suficientes, e é urgente incorporar a capacidade de indicação espacial — como apontar e gestos em áreas específicas da tela quando duas pessoas estão lado a lado olhando para um computador. Como um atalho imediato para melhorar a experiência, ele recomenda fortemente aos usuários que adicionem ao final de seus prompts: “estruture a resposta em HTML”.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.