O co-fundador do ethereum, Vitalik Buterin, deixou completamente os serviços de IA em nuvem e detalhou seu ambiente de inteligência artificial (IA) totalmente local e isolado em uma postagem no blog publicada esta semana.
Principais conclusões:
- O co-fundador do Ethereum, Vitalik Buterin, abandonou a IA em nuvem em abril de 2026, executando o Qwen3.5:35B localmente em um laptop Nvidia 5090 a 90 tokens por segundo.
- Buterin descobriu que cerca de 15% das habilidades de agentes de IA contêm instruções maliciosas, citando dados da empresa de segurança Hiddenlayer.
- O daemon de mensagens de código aberto dele exige uma regra de confirmação 2-de-2, envolvendo humano + LLM, para todas as ações de saída de Signal e e-mail para terceiros.
Como Vitalik Buterin executa um sistema de IA autossuficiente sem acesso à nuvem
Buterin descreveu o sistema como “auto-soberano / local / privado / seguro” e disse que foi desenvolvido em resposta direta ao que ele considera falhas sérias de segurança e privacidade se espalhando pelo espaço dos agentes de IA. Ele citou pesquisas que mostram que cerca de 15% das habilidades dos agentes, ou ferramentas de plug-in, contêm instruções maliciosas. A empresa de segurança Hiddenlayer demonstrou que analisar uma única página web maliciosa pode comprometer totalmente uma instância do Openclaw, permitindo que ela faça download e execute scripts de shell sem o conhecimento do usuário.
“Venho de uma mentalidade de grande medo de que, assim como finalmente estávamos dando um passo adiante na privacidade com a adoção em massa da criptografia ponta a ponta e cada vez mais software primeiro local, estamos à beira de dar dez passos para trás,” escreveu Buterin.
Seu hardware escolhido é um laptop com uma GPU Nvidia 5090 com 24 GB de memória de vídeo. Ao executar o modelo Qwen3.5:35B de pesos abertos da Alibaba por meio do llama-server, o sistema alcança 90 tokens por segundo, o que Buterin considera o alvo para uso diário confortável. Ele testou o AMD Ryzen AI Max Pro com 128 GB de memória unificada, que atingiu 51 tokens por segundo, e o DGX Spark, que alcançou 60 tokens por segundo.
Ele disse que o DGX Spark, comercializado como um supercomputador de IA para desktop, foi pouco impressionante dado seu custo e menor desempenho em comparação com uma boa GPU de laptop. Para seu sistema operacional, Buterin mudou do Arch Linux para o NixOS, que permite aos usuários definir toda a configuração do sistema em um único arquivo declarativo. Ele usa o llama-server como um daemon em segundo plano que expõe uma porta local que qualquer aplicativo pode conectar.
Claude Code, ele observou, pode ser apontado para uma instância local do llama-server em vez dos servidores da Anthropic. A sandboxing é central ao seu modelo de segurança. Ele usa o bubblewrap para criar ambientes isolados a partir de qualquer diretório com um único comando. Os processos executados dentro dessas sandboxes só podem acessar arquivos explicitamente permitidos e portas de rede controladas. Buterin abriu o código de um daemon de mensagens em github.com/vbuterin/messaging-daemon que envolve o signal-cli e e-mail.
Ele observou que o daemon pode ler mensagens livremente e enviar mensagens para si mesmo sem confirmação. Qualquer mensagem externa para um terceiro exige aprovação humana explícita. Ele chamou isso de modelo “humano + LLM 2-de-2” e disse que a mesma lógica se aplica às carteiras Ethereum. Ele aconselhou equipes que desenvolvem ferramentas de carteira conectadas a IA a limitar transações autônomas em $100 por dia e exigir confirmação humana para qualquer valor superior ou qualquer transação que contenha calldata capaz de exfiltrar dados.
Inferência Remota, nos termos de Buterin
Para tarefas de pesquisa, Buterin comparou a ferramenta local Local Deep Research com sua própria configuração usando o framework pi agent combinado com o SearXNG, um mecanismo de busca meta auto-hospedado focado em privacidade. Ele disse que o pi mais o SearXNG produziu respostas de melhor qualidade. Ele armazena um dump local da Wikipedia de aproximadamente 1 terabyte junto com documentação técnica para reduzir sua dependência de consultas de busca externas, que ele considera uma violação de privacidade.
Ele também publicou um daemon de transcrição de áudio local em github.com/vbuterin/stt-daemon. A ferramenta funciona sem GPU para uso básico e envia a saída para o LLM para correção e resumo. Sobre a integração com Ethereum, Buterin disse que agentes de IA nunca devem ter acesso irrestrito ao wallet. Ele recomendou tratar o ser humano e o LLM como dois fatores de confirmação distintos, cada um capaz de detectar diferentes modos de falha.
Para casos em que os modelos locais não são suficientes, Buterin descreveu uma abordagem que preserva a privacidade para inferência remota. Ele mencionou sua própria proposta ZK-API com o pesquisador Davide, o Openanonymity project, e o uso de mixnets para impedir que servidores vinculem solicitações sucessivas por endereço IP. Ele também citou ambientes de execução confiáveis como uma forma de reduzir vazamentos de dados na inferência remota no curto prazo, observando que a criptografia totalmente homomórfica para inferência em nuvem privada ainda é muito lenta para ser prática hoje.
Buterin encerrou com uma observação de que o post descreve um ponto de partida, não um produto final, e alertou os leitores contra a cópia de suas ferramentas exatas e a suposição de que são seguras.

