Un modèle d'IA à un billion de paramètres vient d'être exécuté sur une carte graphique que la plupart des joueurs considéreraient comme milieu de gamme.
Un passionné chinois de l'IA connu sous le nom d'APFrisco a démontré le modèle Kimi K2.5 de Moonshot AI, un modèle de langage à mélange d'experts (MoE) doté de 1 billion de paramètres au total, exécuté sur une seule GPU Nvidia RTX 3060 associée à 768 Go de mémoire persistante Intel Optane. Ce dispositif a atteint environ quatre jetons par seconde, ce qui est lent selon les normes de production, mais remarquable compte tenu du matériel utilisé.
Comment une GPU de milieu de gamme gère un trillion de paramètres
Kimi K2.5 n'active pas simultanément tous les 1 billion de paramètres. Pour chaque token généré, seuls 32 milliards de paramètres sont activés. Le reste reste inactif, en attente de son tour.
Même avec ce truc d'efficacité, le modèle est énorme. La version complète de Kimi K2.5 pèse environ 630 Go. Les versions quantifiées, qui compressent la précision du modèle pour réduire les besoins en mémoire, atteignent quand même environ 381 Go. C'est pourquoi APFrisco a eu besoin de 768 Go de mémoire persistante Intel Optane : aucune configuration standard de RAM grand public ne peut approcher une telle empreinte.
Les DIMM Optane PMem sont un choix intéressant. Intel a arrêté sa ligne Optane, ce qui signifie que ces modules sont désormais essentiellement du matériel hérité présent sur le marché de l'occasion. Ils sont plus lents que la DRAM traditionnelle, mais beaucoup moins chers par gigaoctet, ce qui en fait une solution atypique mais étonnamment pratique pour charger des modèles massifs qui nécessiteraient autrement une infrastructure de niveau entreprise.
La RTX 3060 a été lancée au début de l'année 2021 avec 12 Go de VRAM. Elle a été conçue pour le gaming en 1080p et des charges de travail créatives légères, et non pour exécuter des modèles d'IA de pointe.
À quoi ressemblent les déploiements typiques de Kimi K2.5
L'inférence haute performance pour Kimi K2.5 cible généralement des configurations avec jusqu'à 8 GPU haut de gamme. Ces configurations offrent des vitesses comprises entre 10 et plus de 300 tokens par seconde.
La démonstration a été partagée sur la communauté r/LocalLLaMA de Reddit et ensuite couverte par Tom’s Hardware.
Kimi K2.5 a été publié le 27 janvier 2026 par Moonshot AI. Il dispose de capacités multimodales et a été formé sur environ 15 billions de jetons visuels et textuels. C'est un modèle à poids ouverts, ce qui signifie que quiconque peut le télécharger et l'exécuter, ce qui a justement rendu possible l'expérience d'APFrisco.
