Google Research présente TurboQuant : une quantification à 3 bits sans perte de précision, accélérant l'inférence jusqu'à 8 fois

KuCoinFlash

Date de parution : 25/03/2026 02:36:10

Résumé

Google Research a dévoilé TurboQuant, une méthode de quantification à 3 bits qui réduit l'utilisation de la mémoire du cache KV jusqu'à 6 fois sans perte de précision. Sur les GPU NVIDIA H100, les calculs d'attention à 4 bits fonctionnent jusqu'à 8 fois plus rapidement que les modèles à 32 bits. Testé sur Gemma et Mistral avec LongBench, Needle In A Haystack et ZeroSCROLLS, la méthode a obtenu les meilleurs résultats. Développé par Amir Zandieh et Vahab Mirrokni en collaboration avec KAIST et NYU, l'article sera présenté à ICLR 2026. Les données on-chain révèlent un intérêt croissant pour les altcoins à surveiller, car les gains d'efficacité stimulent l'adoption.

Selon la surveillance de 1M AI News, Google Research a publié l'algorithme de compression quantifiée TurboQuant, qui permet de compresser le cache KV des grands modèles linguistiques à 3 bits, réduisant la consommation mémoire d'au moins 6 fois, sans entraînement ni fine-tuning, et sans perte de précision du modèle. En mode 4 bits, la vitesse de calcul de l'attention sur GPU NVIDIA H100 est jusqu'à 8 fois supérieure à celle de la base non quantifiée en 32 bits.

L'équipe de recherche a validé TurboQuant sur des benchmarks de contexte long comme LongBench, Needle In A Haystack et ZeroSCROLLS, en utilisant les modèles Gemma et Mistral ; TurboQuant a obtenu les meilleurs résultats dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant élimine la surcharge mémoire des méthodes de quantification traditionnelles grâce à une transformation en coordonnées polaires, tandis que QJL corrige les erreurs résiduelles avec seulement 1 bit.

Cette recherche, menée par Amir Zandieh de Google Research et Vahab Mirrokni, vice-président et Google Fellow, en collaboration avec la KAIST en Corée du Sud et l'Université de New York, sera présentée à ICLR 2026. Google indique que l'une des principales applications de cette technologie est de résoudre les goulots d'étranglement du cache KV dans des modèles tels que Gemini.

Source:Afficher l'original

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.