Odaily Planet Daily rapporte, selon un communiqué officiel, que Tether a lancé un cadre de micro-ajustement LoRA multi-plateforme dans QVAC Fabric, optimisant l'entraînement et l'inférence de Microsoft BitNet (LLM à 1 bit). Ce cadre réduit considérablement les besoins en puissance de calcul et en mémoire, permettant l'entraînement et le micro-ajustement de modèles de plusieurs milliards de paramètres sur des ordinateurs portables, des GPU grand public et des smartphones.
Cette solution réalise pour la première fois le fine-tuning des modèles BitNet sur GPU mobile (incluant Adreno, Mali et Apple Bionic). Les tests montrent qu'un modèle de 125 M paramètres peut être affiné en environ 10 minutes, un modèle de 1 G en environ une heure, et même étendu jusqu'à 13 G paramètres sur smartphone.
De plus, ce cadre prend en charge des matérielles hétérogènes tels qu'Intel, AMD et Apple Silicon, et réalise pour la première fois un fine-tuning LoRA 1-bit sur des appareils non NVIDIA. En termes de performance, l'inférence des modèles BitNet sur GPU mobile est 2 à 11 fois plus rapide qu'avec le CPU, tout en réduisant la consommation de mémoire vidéo de jusqu'à 77,8 % par rapport aux modèles traditionnels en 16 bits.
Tether indique que cette technologie vise à réduire la dépendance aux ressources de calcul de haut niveau et aux infrastructures cloud, à promouvoir la décentralisation et la localisation de l'entraînement de l'IA, et à fournir une base pour de nouveaux scénarios d'utilisation tels que l'apprentissage fédéré.
