Tether AI abre el código de TurboQuant y reduce el uso de memoria del caché KV de los LLM en 5 veces

Tether AI acaba de lanzar TurboQuant como software de código abierto, ofreciendo una herramienta que reduce el uso de memoria en la inferencia de modelos de lenguaje grandes hasta en cinco veces. La tecnología aborda un cuello de botella específico llamado caché de clave-valor (KV), que es esencialmente la memoria de trabajo que los modelos transformer utilizan para mantener el contexto durante una conversación.

Lo que realmente hace TurboQuant

El algoritmo detrás de TurboQuant se originó en Google Research, que publicó los detalles iniciales el 24 de marzo de 2026. Lo que Tether AI ha hecho es tomar ese artículo de investigación y convertirlo en algo que los desarrolladores pueden implementar realmente en producción. La versión de Tether incluye un pipeline completo de cuantización, adaptadores de marcos y documentación exhaustiva.

La cuantización es una técnica que reduce la precisión de los números utilizados en los cálculos de redes neuronales. En lugar de almacenar valores como números de punto flotante de 16 o 32 bits, los comprimes hasta representaciones de 4 bits o incluso 2 bits. TurboQuant gestiona esto específicamente para la caché KV.

No se requiere reentrenamiento ni ajuste fino del modelo. Los desarrolladores pueden aplicar TurboQuant a modelos existentes y marcos de inferencia existentes sin comenzar desde cero.

Anuncio

El lanzamiento llegó como parte de la versión 0.12.0 del QVAC SDK, que también incluye nuevas funcionalidades como la generación de texto a video y el control de robots. QVAC es la plataforma más amplia de Tether diseñada para respaldar la inteligencia artificial descentralizada en hardware de consumo.

Por qué una empresa de stablecoins está construyendo infraestructura de IA

Tether ha estado expandiéndose agresivamente más allá de su stablecoin USDT, y la IA representa una de sus apuestas más grandes. El CEO Paolo Ardoino ha posicionado los esfuerzos de la empresa en IA alrededor de una tesis específica: que los modelos de lenguaje de alta calidad deben ejecutarse localmente en dispositivos de consumo como teléfonos y computadoras portátiles, en lugar de depender de servicios en la nube centralizados.

El problema de memoria es el obstáculo central para esa visión. Un modelo que requiere 16 GB de memoria solo para su caché KV no cabrá en la mayoría de los dispositivos de consumo. Redúzcalo a 3.2 GB y de repente las matemáticas comienzan a funcionar.

Ardoino ha enfatizado que TurboQuant acerca la realidad de la IA local eficiente al abordar las limitaciones de memoria que enfrentan los modelos transformer en hardware de consumo.

La plataforma QVAC se basa en varias técnicas de cuantización anteriores, incluyendo PolarQuant y Quantized Johnson-Lindenstrauss. El equipo de IA de Tether ha estado combinando múltiples métodos de compresión, cada uno dirigido a diferentes partes del problema de eficiencia, y TurboQuant es la capa más reciente en esa pila.

Qué significa esto para los inversores

La naturaleza de código abierto del lanzamiento permite que cualquier desarrollador obtenga el código, lo integre en su pipeline de inferencia y se beneficie inmediatamente de los ahorros de memoria. Se trata de una jugada estratégica para crecer el ecosistema alrededor de QVAC y posicionar la plataforma de Tether como el kit de herramientas predeterminado para aplicaciones descentralizadas de inteligencia artificial.

Google Research publicó el algoritmo subyacente. Nada impide que Google mismo, o cualquier otro laboratorio con recursos suficientes, lance su propia implementación de producción. La inclusión de funciones de texto a video y control de robots en la misma actualización del SDK sugiere que el equipo está iterando rápidamente.

Observe si las métricas independientes confirman que la afirmación de compresión 5x se mantiene en diferentes arquitecturas de modelos y longitudes de contexto, ya que las técnicas de cuantización a veces se degradan en uso real con conversaciones más largas o tareas de razonamiento más complejas.