Tether lanza TurboQuant para habilitar modelos de IA más grandes en dispositivos

TurboQuant de Tether reduce el uso de memoria de IA hasta en 5 veces, ayudando a los dispositivos a manejar tareas más largas localmente.
QVAC 0.12.0 permite a los desarrolladores ejecutar cargas de trabajo de IA más grandes en portátiles y teléfonos con menos carga de memoria.
TurboQuant resuelve el cuello de botella de memoria de la IA, permitiendo chats más largos, archivos más grandes y proyectos de código más grandes.

Tether ha añadido una nueva herramienta de optimización de memoria a QVAC SDK 0.12.0, un movimiento que podría ayudar a portátiles, smartphones y otros dispositivos a manejar cargas de trabajo más grandes localmente. Al anunciar la actualización en X, el CEO Paolo Ardoino dijo que esta versión incluye TurboQuant, una tecnología que reduce los requisitos de memoria de IA hasta en cinco veces, manteniendo casi la misma calidad de salida.

La actualización se centra en una limitación clave de los modelos de lenguaje grande: la memoria. A medida que las conversaciones y tareas se vuelven más largas, la demanda de memoria aumenta considerablemente. TurboQuant reduce esta carga, permitiendo que los dispositivos trabajen con documentos más grandes, conversaciones más largas y más información al mismo tiempo.

🚨🤖 Tether AI lanza TurboQuant KV-Cache Quantization dentro del QVAC SDK 0.12.0, reduciendo los requisitos de memoria de la caché KV hasta en 5x, con pérdida casi nula.

¡Un paso más cerca de una IA local de alta calidad y eficaz! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

La versión también agrega generación de texto a video, funciones de control de robots, soporte para asistente de codificación, mejoras en el procesamiento de voz y herramientas más rápidas de clasificación de imágenes.

TurboQuant apunta al cuello de botella de memoria de la IA

TurboQuant se encuentra en el centro de la versión 0.12.0 del SDK QVAC. La tecnología comprime la caché KV, un tipo de memoria de trabajo que los modelos de IA utilizan para realizar un seguimiento de las conversaciones, documentos y otra información durante una sesión.

La demanda de memoria aumenta a medida que los usuarios ingresan más información en un modelo. Tether dijo que un modelo de 4 mil millones de parámetros que procesa aproximadamente 262,000 tokens puede requerir aproximadamente 8 GB de memoria solo para la caché. Ejecutar varias sesiones a esa escala puede superar rápidamente los límites de muchas computadoras portátiles y dispositivos de consumo.

TurboQuant busca reducir esa presión. Según Tether, la tecnología puede reducir los requisitos de memoria KV cache hasta cinco veces mientras mantiene casi la misma calidad de salida. Como resultado, los usuarios pueden trabajar con conversaciones más largas, documentos más grandes y bases de código más extensas sin depender tanto de recursos de cómputo remotos.

QVAC se expande más allá de los modelos de lenguaje

La actualización incluye más que mejoras de memoria. QVAC SDK 0.12.0 añade varias nuevas herramientas destinadas a ampliar lo que los desarrolladores pueden ejecutar en dispositivos locales.

Entre las novedades se incluye el soporte para la generación de texto a video mediante el modelo Wan2.1. La plataforma también introduce una función de visión-lenguaje-acción que permite a los desarrolladores crear aplicaciones para el control robótico.

El lanzamiento también incorpora una herramienta ligera de clasificación de imágenes diseñada para tareas que no requieren modelos de visión más grandes. Al mismo tiempo, QVAC migró sus sistemas de texto a voz y transcripción a su motor GGML, un cambio que amplía el soporte en los principales sistemas operativos de escritorio y móviles.

Los desarrolladores también obtuvieron nuevas opciones para asistentes de codificación. QVAC ahora se integra con OpenCode y OpenClaw a través de un paquete de proveedor que simplifica la gestión y el despliegue de modelos.

Relacionado: El cofundador de Multicoin declara que 'Web3 está muerto' amid la crisis de identidad cripto

La IA de código abierto se acerca más al borde

El lanzamiento muestra el enfoque de Tether en ejecutar más tareas de cómputo directamente en los dispositivos de los usuarios en lugar de depender completamente de centros de datos centralizados. La empresa ha enfocado cada vez más su software para que pueda operar en dispositivos personales, redes locales y sistemas descentralizados.

“La investigación de Google mostró que la memoria de IA podría comprimirse mucho más eficientemente de lo que la mayoría de las personas asumían. Nuestro trabajo lleva este avance a software de producción que los desarrolladores, startups y usuarios pueden construir realmente,” dijo Ardoino.

Él agregó: “Las personas deberían poder pedirle a un asistente de IA que lea un documento largo, recuerde un proyecto, ayude con código o trabaje con información privada sin que cada tarea se vea obligada a pasar por un centro de datos remoto.”

El lanzamiento se produce mientras Tether amplía sus esfuerzos más allá de las herramientas de optimización de memoria. Ardoino reveló recientemente que la empresa está desarrollando un motor de búsqueda entre pares de código abierto y compartió una demostración de un sistema de búsqueda descentralizado de Wikipedia.

Relacionado: Michael Burry llama “fugazi” al acuerdo de $5.4 mil millones en GPUs de Nvidia

Descargo de responsabilidad: La información presentada en este artículo es únicamente para fines informativos y educativos. El artículo no constituye asesoramiento financiero ni de ningún otro tipo. Coin Edition no se hace responsable de ninguna pérdida derivada del uso del contenido, productos o servicios mencionados. Se aconseja a los lectores que ejerzan cautela antes de tomar cualquier acción relacionada con la empresa.