Tether AI open-source TurboQuant, réduit l'utilisation de la mémoire du cache KV des LLM par 5

iconCryptoBriefing
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Tether AI a open-sourcé TurboQuant, un outil qui réduit l'utilisation de la mémoire du cache KV des LLM de 5 fois. La technologie cible un goulot d'étranglement clé dans les modèles transformer et s'appuie sur des recherches de Google du 24 mars 2026. Tether l'a adaptée en une solution prête pour la production avec un support complet de la quantification. Cette publication fait partie du QVAC SDK 0.12.0, qui inclut la conversion texte-vidéo et le contrôle de robots. Paolo Ardoino, PDG de Tether, a déclaré que cet outil permet d'exécuter des LLM de haute qualité localement sur des appareils grand public. Cette initiative open-source vise à développer l'écosystème QVAC et à positionner Tether comme une plateforme d'IA décentralisée. Il s'agit d'une mise à jour majeure dans les actualités IA + crypto et les nouvelles sur chaîne.

Tether AI vient de publier TurboQuant en logiciel open source, offrant un outil qui réduit jusqu'à cinq fois l'empreinte mémoire de l'inférence des grands modèles linguistiques. Cette technologie cible un goulot d'étranglement spécifique appelé cache clé-valeur (KV), qui correspond essentiellement à la mémoire de travail utilisée par les modèles transformer pour suivre le contexte pendant une conversation.

Ce que fait réellement TurboQuant

L'algorithme derrière TurboQuant provient de Google Research, qui a publié les premiers détails le 24 mars 2026. Ce que Tether AI a fait, c'est prendre cet article de recherche et le transformer en un outil que les développeurs peuvent réellement déployer en production. La version de Tether inclut un pipeline de quantification complet, des adaptateurs de framework et une documentation exhaustive.

La quantification est une technique qui réduit la précision des nombres utilisés dans les calculs des réseaux de neurones. Au lieu de stocker les valeurs sous forme de nombres à virgule flottante sur 16 ou 32 bits, vous les compressez jusqu'à des représentations sur 4 bits ou même 2 bits. TurboQuant gère cela spécifiquement pour le cache KV.

Aucun réentraînement ou affinage du modèle n'est requis. Les développeurs peuvent appliquer TurboQuant aux modèles existants et aux frameworks d'inférence existants sans commencer depuis zéro.

Publicité

La version est arrivée dans le cadre de QVAC SDK version 0.12.0, qui inclut également de nouvelles fonctionnalités telles que la génération texte-vidéo et le contrôle de robots. QVAC est la plateforme plus large de Tether visant à soutenir l'IA décentralisée sur les appareils grand public.

Pourquoi une entreprise de stablecoin construit une infrastructure d'IA

Tether s'est activement étendu au-delà de sa stablecoin USDT, et l'IA représente l'un de ses paris les plus importants. Le PDG Paolo Ardoino a positionné les efforts d'IA de l'entreprise autour d'une thèse spécifique : les modèles linguistiques de haute qualité devraient s'exécuter localement sur des appareils grand public comme les téléphones et les ordinateurs portables, plutôt que de dépendre de services cloud centralisés.

Le problème de mémoire est l'obstacle fondamental à cette vision. Un modèle qui nécessite 16 Go de mémoire uniquement pour son cache KV ne pourra pas être hébergé sur la plupart des appareils grand public. Réduisez-le à 3,2 Go et soudain, les calculs deviennent possibles.

Ardoino a souligné que TurboQuant rapproche la réalité de l'IA locale efficace en résolvant les contraintes mémoire auxquelles les modèles transformer sont confrontés sur le matériel grand public.

La plateforme QVAC s'appuie sur plusieurs techniques de quantification précédentes, notamment PolarQuant et Quantized Johnson-Lindenstrauss. L'équipe IA de Tether a empilé plusieurs méthodes de compression, chacune ciblant différentes parties du problème d'efficacité, et TurboQuant est la dernière couche de cette pile.

Ce que cela signifie pour les investisseurs

La nature open source de cette version permet à tout développeur de récupérer le code, de l’intégrer dans son pipeline d’inférence et de bénéficier immédiatement des économies de mémoire. Il s’agit d’une stratégie visant à développer l’écosystème autour de QVAC et à positionner la plateforme de Tether comme l’outil par défaut pour les applications décentralisées d’intelligence artificielle.

Google Research a publié l'algorithme sous-jacent. Rien n'empêche Google lui-même ou tout autre laboratoire bien doté de publier sa propre implémentation de production. L'inclusion des fonctionnalités de texte-à-vidéo et de commande de robot dans la même mise à jour du SDK suggère que l'équipe itère rapidement.

Vérifiez si les benchmarks indépendants confirment que l'affirmation de compression 5x est valable sur différentes architectures de modèles et longueurs de contexte, car les techniques de quantification peuvent se dégrader dans des utilisations réelles avec des conversations plus longues ou des tâches de raisonnement plus complexes.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.