Le cofondateur d'Ethereum, Vitalik Buterin, a complètement abandonné les services cloud d'IA et a détaillé son installation d'intelligence artificielle (IA) entièrement locale et isolée dans un article de blog publié cette semaine.
Points clés :
- Le cofondateur d'Ethereum, Vitalik Buterin, a abandonné l'IA cloud en avril 2026, en exécutant Qwen3.5:35B localement sur un ordinateur portable Nvidia 5090 à 90 tokens par seconde.
- Buterin a constaté qu'environ 15 % des compétences des agents IA contiennent des instructions malveillantes, en se basant sur des données de l'entreprise de sécurité Hiddenlayer.
- Son démon de messagerie open-source impose une règle de confirmation 2 sur 2, impliquant un humain et un LLM, pour toutes les actions sortantes vers des tiers via Signal et e-mail.
Comment Vitalik Buterin gère un système d'IA souveraine sans accès au cloud
Buterin has décrit le système comme « auto-souverain / local / privé / sécurisé » et a déclaré qu’il avait été développé en réponse directe aux graves défaillances de sécurité et de confidentialité qui se répandent dans l’espace des agents IA. Il a cité des recherches montrant qu’environ 15 % des compétences des agents, ou des outils de plug-in, contiennent des instructions malveillantes. La société de sécurité Hiddenlayer a démontré qu’analyser une seule page web malveillante pouvait compromettre entièrement une instance d’Openclaw, lui permettant de télécharger et d’exécuter des scripts shell sans que l’utilisateur en soit conscient.
« Je viens d’une mentalité profondement effrayée par le fait que, juste au moment où nous faisions enfin un pas en avant en matière de confidentialité avec la généralisation du chiffrement de bout en bout et de plus en plus de logiciels centrés sur l’appareil local, nous sommes sur le point de faire dix pas en arrière », a écrit Buterin.
Son matériel de prédilection est un ordinateur portable équipée d'une GPU Nvidia 5090 avec 24 Go de mémoire vidéo. En exécutant le modèle Qwen3.5:35B à poids ouverts d'Alibaba via llama-server, cette configuration atteint 90 tokens par seconde, ce que Buterin qualifie d'objectif pour une utilisation quotidienne confortable. Il a testé le AMD Ryzen AI Max Pro avec 128 Go de mémoire unifiée, qui a atteint 51 tokens par seconde, ainsi que le DGX Spark, qui a atteint 60 tokens par seconde.
Il a déclaré que le DGX Spark, commercialisé comme un superordinateur IA de bureau, était peu impressionnant compte tenu de son coût et de son débit inférieur par rapport à une bonne GPU de laptop. Pour son système d'exploitation, Buterin est passé d'Arch Linux à NixOS, qui permet aux utilisateurs de définir l'ensemble de leur configuration système dans un seul fichier déclaratif. Il utilise llama-server comme démon en arrière-plan qui expose un port local auquel toute application peut se connecter.
Claude Code, a-t-il noté, peut être pointé vers une instance locale de llama-server au lieu des serveurs d'Anthropic. L'isolation est au cœur de son modèle de sécurité. Il utilise bubblewrap pour créer des environnements isolés à partir de n'importe quel répertoire avec une seule commande. Les processus s'exécutant dans ces environnements isolés ne peuvent accéder qu'aux fichiers explicitement autorisés et aux ports réseau contrôlés. Buterin a open-sourcé un démon de messagerie sur github.com/vbuterin/messaging-daemon qui enveloppe signal-cli et email.
Il a souligné que le démon peut lire les messages librement et envoyer des messages à lui-même sans confirmation. Tout message sortant vers un tiers nécessite une approbation humaine explicite. Il a appelé cela le modèle « humain + LLM 2 sur 2 » et a indiqué que la même logique s'applique aux Ethereum wallets. Il a conseillé aux équipes développant des outils de wallet connectés à l'IA de limiter les transactions autonomes à 100 $ par jour et de requérir une confirmation humaine pour tout montant supérieur ou toute transaction comportant des calldata pouvant exfiltrer des données.
Inference à distance, selon les termes de Buterin
Pour les tâches de recherche, Buterin a comparé l'outil local Local Deep Research à son propre ensemble configuré avec le framework pi agent associé à SearXNG, un moteur de recherche méta hébergé localement et axé sur la vie privée. Il a déclaré que pi associé à SearXNG produisait des réponses de meilleure qualité. Il stocke une copie locale de Wikipedia d'environ 1 téraoctet ainsi que des documents techniques pour réduire sa dépendance aux requêtes de recherche externes, qu'il considère comme une fuite de vie privée.
Il a également publié un démon de transcription audio local sur github.com/vbuterin/stt-daemon. L'outil fonctionne sans GPU pour une utilisation de base et envoie la sortie à l'LLM pour correction et résumé. Concernant l'intégration avec Ethereum, Buterin a déclaré que les agents IA ne devraient jamais avoir un accès illimité au wallet. Il a recommandé de considérer l'humain et l'LLM comme deux facteurs de confirmation distincts, chacun capables de détecter des modes d'échec différents.
Pour les cas où les modèles locaux sont insuffisants, Buterin a décrit une approche préservant la vie privée pour l'inférence à distance. Il a mentionné sa propre proposition ZK-API avec le chercheur Davide, le projet Openanonymity, ainsi que l'utilisation de mixnets pour empêcher les serveurs de relier les requêtes successives par adresse IP. Il a également cité les environnements d'exécution fiables comme une méthode pour réduire les fuites de données issues de l'inférence à distance à court terme, tout en notant que le chiffrement entièrement homomorphe pour l'inférence privée dans le cloud reste trop lent pour être pratique aujourd'hui.
Buterin a conclu en notant que le post décrit un point de départ, et non un produit fini, et a averti les lecteurs de ne pas copier ses outils exacts et d'assumer qu'ils sont sécurisés.

