OpenAI dévoile la puce Jalapeño pour l'inférence des LLM, avec pour objectif un déploiement à l'échelle du gigawatt d'ici 2026

Selon les observations de Beating, OpenAI a lancé son premier accélérateur dédié au traitement des modèles de langage à très grande échelle (LLM), nommé Jalapeño (surnommé également « processeur intelligent »). OpenAI a conçu l'architecture et les algorithmes du processeur, en collaboration avec Broadcom et Celestica pour accélérer la production industrielle. Jalapeño vise à améliorer directement la vitesse et à réduire les coûts de calcul pour ChatGPT, Codex, les interfaces API et les futurs produits d'agents intelligents. Grâce à l'aide des modèles d'IA de pointe d'OpenAI dans sa conception, Jalapeño est passé de la phase de conception initiale à la tape-out en seulement neuf mois, établissant un nouveau record de rapidité pour le développement d'ASICs avancés. Le processeur repose sur une conception logicielle-hardware coopérative, réorganisée autour d'un noyau dédié aux modèles de langage à grande échelle, ainsi qu'à l'architecture de déplacement des données et de réseau, atteignant une utilisation pratique proche de la limite théorique du matériel. Les premiers échantillons de démonstration ont déjà exécuté avec succès des charges de travail telles que GPT-5.3-Codex-Spark, à la fréquence et à la consommation cibles en laboratoire, avec un rapport efficacité-énergie largement supérieur à celui des équipements de calcul les plus performants actuels. Sur le plan de la répartition technologique de la chaîne d'approvisionnement, Broadcom est principalement chargé de la réalisation silicium et des technologies de connexion réseau de Jalapeño, intégrant notamment le processeur Tomahawk ; les assemblages sur carte, les racks et l'intégration système sont assurés par Celestica. En tant que premier produit de la feuille de route des plateformes informatiques multi-générations, Jalapeño est prévu pour un déploiement à grande échelle d'ici la fin 2026 dans des centres de données gigawatt, en collaboration avec des partenaires tels que Microsoft, afin d'étendre les capacités de la plateforme complète et de réduire les coûts d'inférence.