Tether open-source Google's TurboQuant pour réduire l'utilisation de la mémoire IA

Le groupe de recherche sur l'IA de Tether a rendu open source une implémentation prête pour la production de TurboQuant, l'algorithme de Google Research conçu pour réduire considérablement les besoins en mémoire de l'IA, selon un communiqué de presse du lundi.

La technologie fait désormais partie de QVAC Fabric, le moteur local d'IA de Tether, et inclut un pipeline de quantification complet, des intégrations de frameworks, de la documentation et des profils de déploiement pour des cas d'utilisation du monde réel.

La mise à jour cible la consommation de mémoire, l'une des principales barrières à l'exécution d'IA avancée sur des appareils locaux. Alors que les assistants IA traitent des conversations plus longues, des fichiers plus volumineux et des tâches plus complexes, leur cache KV s'élargit et peut nécessiter des ressources matérielles importantes.

Selon les chercheurs, TurboQuant réduit ces exigences mémoire jusqu'à 5 fois tout en préservant les performances du modèle, ce qui facilite l'exécution de systèmes d'IA performants sur les ordinateurs portables, les téléphones, les GPU grand public et les appareils edge.

« La recherche de Google a montré que la mémoire de l'IA pouvait être compressée bien plus efficacement que la plupart des gens ne le pensaient. Notre travail permet de faire entrer cette percée dans des logiciels de production que les développeurs, les startups et les utilisateurs peuvent réellement utiliser », a commenté Paolo Ardoino, PDG de Tether, à l'occasion de la sortie.

Selon Ardoino, les outils d'IA devraient être capables de traiter des documents longs, de conserver le contexte du projet, de soutenir le développement logiciel et de travailler avec des données privées localement plutôt que de transmettre chaque tâche via une infrastructure cloud. Il a déclaré que TurboQuant rend cela possible en offrant aux systèmes d'IA locaux une plus grande capacité mémoire et une meilleure prise de contexte.

« Si l’IA à long contexte ne fonctionne que dans les plus grands centres de données, alors l’IA sera façonnée par celui qui possède le plus d’équipements. TurboQuant change ce que l’IA locale peut accomplir en rendant la mémoire moins un obstacle », a-t-il ajouté.

Tether estime que cette technologie peut aider à déplacer une plus grande partie des charges de travail IA loin des services cloud centralisés en permettant des fenêtres de contexte plus longues et de meilleures performances sur les matériels locaux.

Inclus dans le QVAC SDK 0.12.0, cette version soutient l'objectif de l'entreprise de construire des systèmes d'IA qui opèrent plus près des utilisateurs via des appareils personnels, des réseaux locaux et une infrastructure décentralisée.