Según el monitoreo de 1M AI News, Google Research ha lanzado el algoritmo de compresión cuantizada TurboQuant, que puede comprimir el caché KV de modelos de lenguaje grandes a 3 bits, reduciendo el uso de memoria en al menos 6 veces, sin necesidad de entrenamiento ni ajuste fino, y sin pérdida de precisión del modelo. En modo de 4 bits, la velocidad de cálculo de la atención en GPU NVIDIA H100 aumenta hasta 8 veces en comparación con la línea base no cuantizada de 32 bits.
El equipo de investigación validó TurboQuant en benchmarks de contexto largo como LongBench, Needle In A Haystack y ZeroSCROLLS, utilizando modelos Gemma y Mistral; TurboQuant logró el mejor rendimiento en todas las pruebas. Este algoritmo consta de dos subalgoritmos: PolarQuant elimina el consumo de memoria de los métodos cuantitativos tradicionales mediante una transformación en coordenadas polares, y QJL corrige los errores residuales con solo 1 bit.
Este estudio, liderado por Amir Zandieh del Google Research y Vahab Mirrokni, vicepresidente y Google Fellow, en colaboración con KAIST de Corea del Sur y la Universidad de Nueva York, se publicará en ICLR 2026. Google indica que una de las aplicaciones principales de esta tecnología es resolver el cuello de botella de caché KV en modelos como Gemini.
Google Research presenta TurboQuant: cuantización de 3 bits sin pérdida de precisión, acelera la inferencia hasta 8 veces
KuCoinFlashCompartir






Google Research ha presentado TurboQuant, un método de cuantización de 3 bits que reduce el uso de memoria de la caché KV en un 6x sin pérdida de precisión. En GPUs NVIDIA H100, los cálculos de atención de 4 bits funcionan hasta 8x más rápido que los modelos de 32 bits. Probado en Gemma y Mistral mediante LongBench, Needle In A Haystack y ZeroSCROLLS, el método obtuvo los mejores resultados. Desarrollado por Amir Zandieh y Vahab Mirrokni con KAIST y NYU, el artículo aparecerá en ICLR 2026. Los datos en cadena muestran un creciente interés en altcoins para vigilar, ya que los avances en eficiencia impulsan su adopción.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.