Tether abre el código de TurboQuant de Google para reducir el uso de memoria de IA

El Grupo de Investigación en IA de Tether ha liberado bajo licencia de código abierto una implementación lista para producción de TurboQuant, el algoritmo de Google Research diseñado para reducir drásticamente los requisitos de memoria de la IA, según un comunicado de prensa del lunes.

La tecnología ahora forma parte de QVAC Fabric, el motor de IA local de Tether, e incluye un pipeline de cuantización completo, integraciones con frameworks, documentación y perfiles de despliegue para casos de uso del mundo real.

La versión aborda el consumo de memoria, una de las mayores barreras para ejecutar IA avanzada en dispositivos locales. A medida que los asistentes de IA procesan conversaciones más largas, archivos más grandes y tareas más complejas, su caché KV crece y puede requerir recursos de hardware sustanciales.

Anuncio

Según los investigadores, TurboQuant reduce esa demanda de memoria hasta en 5 veces mientras mantiene el rendimiento del modelo, facilitando la ejecución de sistemas de IA potentes en laptops, teléfonos, GPU de consumo y dispositivos de borde.

“La investigación de Google mostró que la memoria de IA podría comprimirse mucho más eficientemente de lo que la mayoría de las personas asumían. Nuestro trabajo lleva este avance a software de producción que los desarrolladores, startups y usuarios pueden utilizar realmente,” comentó el CEO de Tether, Paolo Ardoino, sobre el lanzamiento.

Según Ardoino, las herramientas de IA deben ser capaces de procesar documentos largos, conservar el contexto del proyecto, apoyar el desarrollo de software y trabajar con datos privados localmente en lugar de enrutar cada tarea a través de infraestructura en la nube. Él dijo que TurboQuant ayuda a hacer eso posible al brindar a los sistemas de IA locales mayor capacidad de memoria y conciencia contextual.

“Si la IA de contexto largo solo funciona dentro de los mayores centros de datos, entonces la IA será moldeada por quien posea la mayor cantidad de hardware. TurboQuant cambia lo que puede hacer la IA local al hacer que la memoria sea menos una barrera”, añadió.

Tether cree que la tecnología puede ayudar a trasladar más cargas de trabajo de IA lejos de los servicios en la nube centralizados al permitir ventanas de contexto más largas y un mejor rendimiento en hardware local.

Incluido en el QVAC SDK 0.12.0, esta versión respalda el objetivo de la empresa de construir sistemas de IA que operen más cerca de los usuarios a través de dispositivos personales, redes locales e infraestructura descentralizada.