Un passionné chinois fait fonctionner Kimi K2.5 avec 1 billion de paramètres sur une RTX 3060 avec 768 Go de mémoire Intel Optane

iconCryptoBriefing
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Un passionné chinois d’IA nommé APFrisco a présenté Kimi K2.5 de Moonshot AI, un modèle MoE de 1 billion de paramètres, fonctionnant sur une seule GPU RTX 3060 avec 768 Go de mémoire Intel Optane. Ce dispositif a traité environ quatre jetons par seconde. Cette actualité IA + crypto met en lumière une avancée majeure sur la chaîne, car la taille du modèle dépasse 630 Go. Le matériel est de milieu de gamme, ce qui rend les performances particulièrement remarquables.

Un modèle d'IA à un billion de paramètres vient d'être exécuté sur une carte graphique que la plupart des joueurs considéreraient comme milieu de gamme.

Un passionné chinois de l'IA connu sous le nom d'APFrisco a démontré le modèle Kimi K2.5 de Moonshot AI, un modèle de langage à mélange d'experts (MoE) doté de 1 billion de paramètres au total, exécuté sur une seule GPU Nvidia RTX 3060 associée à 768 Go de mémoire persistante Intel Optane. Ce dispositif a atteint environ quatre jetons par seconde, ce qui est lent selon les normes de production, mais remarquable compte tenu du matériel utilisé.

Comment une GPU de milieu de gamme gère un trillion de paramètres

Kimi K2.5 n'active pas simultanément tous les 1 billion de paramètres. Pour chaque token généré, seuls 32 milliards de paramètres sont activés. Le reste reste inactif, en attente de son tour.

Publicité

Même avec ce truc d'efficacité, le modèle est énorme. La version complète de Kimi K2.5 pèse environ 630 Go. Les versions quantifiées, qui compressent la précision du modèle pour réduire les besoins en mémoire, atteignent quand même environ 381 Go. C'est pourquoi APFrisco a eu besoin de 768 Go de mémoire persistante Intel Optane : aucune configuration standard de RAM grand public ne peut approcher une telle empreinte.

Les DIMM Optane PMem sont un choix intéressant. Intel a arrêté sa ligne Optane, ce qui signifie que ces modules sont désormais essentiellement du matériel hérité présent sur le marché de l'occasion. Ils sont plus lents que la DRAM traditionnelle, mais beaucoup moins chers par gigaoctet, ce qui en fait une solution atypique mais étonnamment pratique pour charger des modèles massifs qui nécessiteraient autrement une infrastructure de niveau entreprise.

La RTX 3060 a été lancée au début de l'année 2021 avec 12 Go de VRAM. Elle a été conçue pour le gaming en 1080p et des charges de travail créatives légères, et non pour exécuter des modèles d'IA de pointe.

À quoi ressemblent les déploiements typiques de Kimi K2.5

L'inférence haute performance pour Kimi K2.5 cible généralement des configurations avec jusqu'à 8 GPU haut de gamme. Ces configurations offrent des vitesses comprises entre 10 et plus de 300 tokens par seconde.

La démonstration a été partagée sur la communauté r/LocalLLaMA de Reddit et ensuite couverte par Tom’s Hardware.

Kimi K2.5 a été publié le 27 janvier 2026 par Moonshot AI. Il dispose de capacités multimodales et a été formé sur environ 15 billions de jetons visuels et textuels. C'est un modèle à poids ouverts, ce qui signifie que quiconque peut le télécharger et l'exécuter, ce qui a justement rendu possible l'expérience d'APFrisco.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.