Tether AI open-source TurboQuant, réduit l'utilisation de la mémoire du cache KV des LLM par 5

Tether AI vient de publier TurboQuant en logiciel open source, offrant un outil qui réduit jusqu'à cinq fois l'empreinte mémoire de l'inférence des grands modèles linguistiques. Cette technologie cible un goulot d'étranglement spécifique appelé cache clé-valeur (KV), qui correspond essentiellement à la mémoire de travail utilisée par les modèles transformer pour suivre le contexte pendant une conversation.

Ce que fait réellement TurboQuant

L'algorithme derrière TurboQuant provient de Google Research, qui a publié les premiers détails le 24 mars 2026. Ce que Tether AI a fait, c'est prendre cet article de recherche et le transformer en un outil que les développeurs peuvent réellement déployer en production. La version de Tether inclut un pipeline de quantification complet, des adaptateurs de framework et une documentation exhaustive.

La quantification est une technique qui réduit la précision des nombres utilisés dans les calculs des réseaux de neurones. Au lieu de stocker les valeurs sous forme de nombres à virgule flottante sur 16 ou 32 bits, vous les compressez jusqu'à des représentations sur 4 bits ou même 2 bits. TurboQuant gère cela spécifiquement pour le cache KV.

Aucun réentraînement ou affinage du modèle n'est requis. Les développeurs peuvent appliquer TurboQuant aux modèles existants et aux frameworks d'inférence existants sans commencer depuis zéro.

La version est arrivée dans le cadre de QVAC SDK version 0.12.0, qui inclut également de nouvelles fonctionnalités telles que la génération texte-vidéo et le contrôle de robots. QVAC est la plateforme plus large de Tether visant à soutenir l'IA décentralisée sur les appareils grand public.

Pourquoi une entreprise de stablecoin construit une infrastructure d'IA

Tether s'est activement étendu au-delà de sa stablecoin USDT, et l'IA représente l'un de ses paris les plus importants. Le PDG Paolo Ardoino a positionné les efforts d'IA de l'entreprise autour d'une thèse spécifique : les modèles linguistiques de haute qualité devraient s'exécuter localement sur des appareils grand public comme les téléphones et les ordinateurs portables, plutôt que de dépendre de services cloud centralisés.

Le problème de mémoire est l'obstacle fondamental à cette vision. Un modèle qui nécessite 16 Go de mémoire uniquement pour son cache KV ne pourra pas être hébergé sur la plupart des appareils grand public. Réduisez-le à 3,2 Go et soudain, les calculs deviennent possibles.

Ardoino a souligné que TurboQuant rapproche la réalité de l'IA locale efficace en résolvant les contraintes mémoire auxquelles les modèles transformer sont confrontés sur le matériel grand public.

La plateforme QVAC s'appuie sur plusieurs techniques de quantification précédentes, notamment PolarQuant et Quantized Johnson-Lindenstrauss. L'équipe IA de Tether a empilé plusieurs méthodes de compression, chacune ciblant différentes parties du problème d'efficacité, et TurboQuant est la dernière couche de cette pile.

Ce que cela signifie pour les investisseurs

La nature open source de cette version permet à tout développeur de récupérer le code, de l’intégrer dans son pipeline d’inférence et de bénéficier immédiatement des économies de mémoire. Il s’agit d’une stratégie visant à développer l’écosystème autour de QVAC et à positionner la plateforme de Tether comme l’outil par défaut pour les applications décentralisées d’intelligence artificielle.

Google Research a publié l'algorithme sous-jacent. Rien n'empêche Google lui-même ou tout autre laboratoire bien doté de publier sa propre implémentation de production. L'inclusion des fonctionnalités de texte-à-vidéo et de commande de robot dans la même mise à jour du SDK suggère que l'équipe itère rapidement.

Vérifiez si les benchmarks indépendants confirment que l'affirmation de compression 5x est valable sur différentes architectures de modèles et longueurs de contexte, car les techniques de quantification peuvent se dégrader dans des utilisations réelles avec des conversations plus longues ou des tâches de raisonnement plus complexes.