Google dévoile une inférence locale IA 3 fois plus rapide sans matériel nouveau

CoinJournal rapporte :

Exécuter un modèle d'intelligence artificielle sur son propre ordinateur est bien — mais pas toujours.

Promet une protection de la vie privée, sans frais d'abonnement, et les données ne quittent pas votre appareil. Mais pour la plupart des gens, la réalité est que, entre les phrases, le curseur clignote pendant cinq secondes.

Ce goulot d'étranglement a un nom : la vitesse d'inférence. Il n'est pas lié à l'intelligence du modèle, mais à un problème matériel. Les modèles d'IA standards génèrent un mot à la fois (appelé « jeton »), et le matériel doit transférer des milliards de paramètres depuis la mémoire vers l'unité de calcul pour générer chaque jeton. Cette conception est intrinsèquement lente. Sur du matériel grand public, c'est tout simplement insupportable.

La méthode de contournement adoptée par la plupart des gens consiste à exécuter des modèles plus petits et moins performants, ou des versions fortement compressées appelées modèles quantifiés. Ces deux solutions ne sont pas parfaites : elles sacrifient une partie de la qualité pour gagner en vitesse. Bien qu’elles puissent fonctionner, ce ne sont pas les modèles que vous souhaitez réellement.

Google propose maintenant une solution différente. L'entreprise vient de publier un brouillon de prédiction multi-actifs (MTP) pour sa technologie de modèles ouverts de la famille Gemma 4 — une technologie permettant d'atteindre une augmentation de vitesse jusqu'à trois fois plus élevée, sans affecter la qualité du modèle ou ses capacités d'inférence.

Cette méthode est appelée décodage spéculatif, et son concept existe depuis de nombreuses années. Les chercheurs de Google ont publié un article fondateur dès 2022. Ce n'est qu'à présent que cette idée commence à être adoptée par la communauté principale, car elle nécessite une architecture adaptée pour fonctionner à grande échelle.

En résumé, cela fonctionne ainsi : au lieu de laisser le grand modèle puissant accomplir tout le travail seul, il est combiné à un petit modèle « prédicteur ». Le prédicteur est rapide et peu coûteux — il peut prédire plusieurs tokens en une seule fois, en moins de temps qu’il ne faut au modèle principal pour générer un seul token. Ensuite, le grand modèle n’a besoin que d’une seule passe pour vérifier toutes ces prédictions. Si les prédictions sont correctes, la séquence complète est obtenue au coût d’une seule passe forward.

According to Google, "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."

Aucune perte : des modèles de grande taille — comme la version dense de 31 milliards de paramètres de Gemma 4 — continuent de valider chaque token, avec une qualité de sortie identique. Vous exploitez simplement les capacités de calcul inutilisées lors des parties lentes.

Google indique que le modèle de croquis partage le cache clé-valeur (cache KV) avec le modèle cible, une structure mémoire qui stocke le contexte déjà traité, ce qui évite de recalculer les informations déjà connues du grand modèle. Pour les petits modèles d'edge conçus pour les téléphones et les appareils Raspberry Pi, l'équipe a même développé une technique de regroupement efficace pour réduire encore davantage le temps de génération.

Ce n'est pas la seule tentative dans le domaine de l'intelligence artificielle pour paralléliser la génération de texte. Les modèles linguistiques basés sur la diffusion — comme Mercury d'Inception Labs — adoptent une approche totalement différente : au lieu de prédire un token à la fois, ils partent du bruit et optimisent itérativement la sortie entière. Théoriquement rapides, les modèles linguistiques à diffusion peinent à égaler la qualité des modèles Transformer traditionnels, ce qui les rend davantage des objets d'étude que des outils pratiques.

La décodage spéculatif est différent car il ne modifie en rien le modèle sous-jacent. Il s'agit d'une optimisation de service, et non d'un remplacement d'architecture. La version originale de Gemma 4 que vous exécutez deviendra plus rapide.

Les résultats réels sont effectivement remarquables. Selon les tests de référence de Google, l'activation du projet MTP sur un modèle Gemma 4 26B équipé d'une GPU de bureau Nvidia RTX Pro 6000 a environ doublé le nombre de tokens traités par seconde. Sur les puces Apple Silicon, un lot de 4 à 8 requêtes permet une amélioration de vitesse d'environ 2,2 fois. Bien que tous les scénarios n'atteignent pas la limite maximale de 3 fois, il s'agit néanmoins d'une différence significative entre « à peine utilisable » et « suffisamment rapide pour être utilisé en pratique ».

Le contexte est crucial. Lorsque le modèle chinois DeepSeek a surpris le marché en janvier 2025. — en faisant perdre 600 milliards de dollars à la capitalisation boursière de NVIDIA en une seule journée — la leçon essentielle était que l'amélioration de l'efficacité a plus d'impact que la simple augmentation de la puissance de calcul. Une exécution plus intelligente l'emporte sur un investissement constant dans le matériel. L'outil de cartographie MTP de Google est une autre étape dans cette direction, bien que son public cible soit clairement orienté vers les consommateurs.

L'ensemble de l'industrie de l'intelligence artificielle est actuellement comme un triangle composé de trois parties : l'inférence, l'entraînement et la mémoire. Toute percée dans l'un de ces domaines a un impact sur l'écosystème dans son ensemble. La méthode d'entraînement de DeepSeek (construction de modèles puissants à l'aide de matériel peu coûteux) en est un exemple, tandis que celle de Google… TurboQuant (réduction de la mémoire de l'IA sans compromettre la qualité) en est un autre. Ces deux articles ont provoqué un effondrement du marché, car les entreprises s'efforcent de trouver des réponses.

Google indique que cet outil de dessin peut « améliorer la réactivité : réduire considérablement la latence des discussions en temps quasi réel, des applications vocales immersives et des flux de travail d'agents » — des tâches qui nécessitent une faible latence pour fonctionner efficacement.

Scénarios d'utilisation clairs et rapides : un assistant de code local sans latence ; une interface vocale qui répond avant que vous n'ayez le temps d'oublier ce que vous avez demandé ; un flux de travail intelligent qui exécute les étapes sans attendre trois secondes. Tout cela, réalisable sur votre matériel existant.

Les modèles MTP sont désormais en ligne visage avec des larmes de joie. Ils sont compatibles avec Apache 2.0, Kaggle et Ollama. Prêts à l'emploi, ils prennent en charge vLLM, MLX, SGLang et Hugging Face Transformers.