ChainThink : le 17 mars, l'émetteur de stablecoin Tether a annoncé le lancement de QVAC Fabric, le premier cadre de micro-adaptation LoRA multiplateforme au monde pour Microsoft BitNet (LLM à 1 bit), permettant d'entraîner et d'effectuer de l'inférence sur des modèles linguistiques de plusieurs milliards de paramètres sur du matériel courant, y compris des ordinateurs portables, des GPU grand public et des smartphones.
L'entreprise déclare que ce cadre réduit considérablement les exigences en mémoire vidéo et en puissance de calcul nécessaires pour l'entraînement des modèles d'IA, et prend en charge Intel, AMD, Apple Silicon ainsi que plusieurs GPU mobiles (tels qu'Adreno, Mali et Apple Bionic).
Lors des tests, un modèle BitNet d'environ 125 millions de paramètres a été affiné en environ 10 minutes sur le Samsung S25 ; un modèle de 1 milliard de paramètres a été affiné en environ 1 heure 18 minutes sur le Samsung S25 et en environ 1 heure 45 minutes sur l'iPhone 16, l'équipe ayant même réussi à affiner un modèle de 13 milliards de paramètres sur l'iPhone 16.
En termes de performance, la vitesse d'inférence du modèle BitNet sur un GPU mobile peut être supérieure de 2 à 11 fois à celle d'un CPU. En outre, les tests montrent que la consommation de mémoire vidéo de BitNet-1B lors des tâches d'inférence et de fine-tuning peut être réduite jusqu'à 77,8 % par rapport aux modèles 16 bits.
Paolo Ardoino indique que cette technologie vise à réduire la dépendance aux grandes infrastructures de cloud computing et aux matériels AI dédiés, permettant l'entraînement de modèles AI sur des appareils locaux et offrant une base pour de nouveaux modèles tels que l'IA décentralisée et l'apprentissage fédéré.
