Tether lance TurboQuant pour permettre des modèles d'IA plus volumineux sur les appareils

Tether’s TurboQuant réduit l'utilisation de la mémoire IA jusqu'à 5 fois, aidant les appareils à gérer des tâches plus longues localement.
QVAC 0.12.0 permet aux développeurs d'exécuter des charges de travail IA plus importantes sur des ordinateurs portables et des téléphones avec moins de pression sur la mémoire.
TurboQuant résout le goulot d'étranglement de mémoire de l'IA, permettant des discussions plus longues, des fichiers plus volumineux et des projets de code plus importants.

Tether a ajouté un nouvel outil d'optimisation de la mémoire à QVAC SDK 0.12.0, une initiative qui pourrait permettre aux ordinateurs portables, aux smartphones et autres appareils de gérer des charges de travail plus importantes localement. En annonçant cette mise à jour sur X, le PDG Paolo Ardoino a déclaré que cette version inclut TurboQuant, une technologie qui réduit les besoins mémoire de l'IA jusqu'à cinq fois tout en conservant une qualité de sortie presque identique.

La mise à jour se concentre sur une limitation clé des modèles de langage à grande échelle : la mémoire. À mesure que les conversations et les tâches deviennent plus longues, la demande en mémoire augmente fortement. TurboQuant réduit cette charge, permettant aux appareils de traiter des documents plus volumineux, des conversations plus longues et plus d'informations simultanément.

🚨🤖 Tether AI intègre la quantification TurboQuant KV-Cache dans le QVAC SDK 0.12.0, réduisant les besoins mémoire du cache KV jusqu’à 5 fois, avec une perte quasi nulle.

Une IA locale de haute qualité est désormais à un pas de plus ! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

La version ajoute également la génération texte-vidéo, des fonctionnalités de contrôle de robot, le support d'assistant de codage, des améliorations du traitement vocal et des outils de classification d'images plus rapides.

TurboQuant cible le goulot d'étranglement mémoire de l'IA

TurboQuant se trouve au cœur de la version 0.12.0 du SDK QVAC. Cette technologie compresse le cache KV, un type de mémoire de travail que les modèles d'IA utilisent pour suivre les conversations, les documents et autres informations pendant une session.

La mémoire requise augmente à mesure que les utilisateurs fournissent davantage d'informations à un modèle. Tether a indiqué qu'un modèle de 4 milliards de paramètres traitant environ 262 000 jetons peut nécessiter environ 8 Go de mémoire uniquement pour le cache. Exécuter plusieurs sessions à cette échelle peut rapidement dépasser les limites de nombreux ordinateurs portables et appareils grand public.

TurboQuant vise à réduire cette pression. Selon Tether, cette technologie peut réduire les besoins en mémoire KV cache jusqu’à cinq fois tout en préservant une qualité de sortie presque identique. En conséquence, les utilisateurs peuvent travailler avec des conversations plus longues, des documents plus volumineux et des bases de code plus importantes sans dépendre autant des ressources de calcul distantes.

QVAC s'étend au-delà des modèles linguistiques

La mise à jour inclut bien plus que des améliorations mémoire. QVAC SDK 0.12.0 introduit plusieurs nouveaux outils visant à élargir ce que les développeurs peuvent exécuter sur les appareils locaux.

Parmi les ajouts figure la prise en charge de la génération texte-vidéo via le modèle Wan2.1. La plateforme introduit également une fonctionnalité vision-langage-action qui permet aux développeurs de créer des applications pour la commande robotique.

La version ajoute également un outil léger de classification d'images conçu pour les tâches qui n'exigent pas de grands modèles de vision. En même temps, QVAC a migré ses systèmes de synthèse vocale et de transcription vers son moteur GGML, un changement qui élargit la prise en charge sur les principaux systèmes d'exploitation de bureau et mobiles.

Les développeurs ont également obtenu de nouvelles options pour les assistants de codage. QVAC s'intègre désormais à OpenCode et OpenClaw via un package fournisseur qui simplifie la gestion et le déploiement des modèles.

Connexe : Le cofondateur de Multicoin déclare que « Web3 est mort » au milieu de la crise d’identité du crypto

Les IA open-source se rapprochent de la périphérie

La version montre que Tether se concentre sur l'exécution de davantage de tâches informatiques directement sur les appareils des utilisateurs, plutôt que de compter entièrement sur des centres de données centralisés. L'entreprise s'est de plus en plus concentrée sur des logiciels capables de fonctionner sur des appareils personnels, des réseaux locaux et des systèmes décentralisés.

« La recherche de Google a montré que la mémoire de l'IA pouvait être compressée bien plus efficacement que la plupart des gens ne le pensaient. Notre travail permet de transférer cette percée dans des logiciels de production que les développeurs, les startups et les utilisateurs peuvent réellement construire », a déclaré Ardoino.

Il a ajouté : « Les gens devraient pouvoir demander à un assistant IA de lire un long document, de se souvenir d’un projet, d’aider avec du code ou de traiter des informations privées sans que chaque tâche soit obligatoirement transmise à un centre de données distant. »

Le lancement intervient alors que Tether élargit ses efforts au-delà des outils d'optimisation de la mémoire. Ardoino a récemment révélé que l'entreprise développe un moteur de recherche peer-to-peer open-source et a partagé une démonstration d'un système de recherche Wikipedia décentralisé.

Connexe : Michael Burry qualifie l'opération GPU de 5,4 milliards de dollars de Nvidia de « fugazi »

Avertissement : Les informations présentées dans cet article sont uniquement à des fins informatives et éducatives. Cet article ne constitue pas un conseil financier ou tout autre type de conseil. Coin Edition ne peut être tenu responsable des pertes subies suite à l'utilisation du contenu, des produits ou des services mentionnés. Les lecteurs sont invités à faire preuve de prudence avant de prendre toute action liée à l'entreprise.