ChainThink : Le 20 mai, Google dévoilera le nouveau modèle léger Gemini 3.2 Flash lors de la conférence I/O. Selon Bindu Reddy, PDG d'Abacus.AI, ce modèle atteint 92 % des performances de GPT-5.5 pour les tâches de codage et d'inférence, avec un coût d'inférence seulement quinze à vingt fois inférieur, une latence inférieure à 200 millisecondes pour la plupart des requêtes, et des performances globales équivalentes à celles de GPT-5.5, mais clairement inférieures à celles de Mythos d'Anthropic.
Bindu Reddy, PDG d'Abacus.AI, a ajouté que la technique de distillation et de sparsification de Google a compressé les modèles de pointe jusqu'au niveau Flash, sans subir le précipice de performance habituel.
Des indices sur Gemini 3.2 Flash avaient déjà été observés ; début mai, ses traces sont apparues dans les paquets de construction d'application iOS et les métadonnées d'AI Studio, puis il a été mentionné de manière anonyme dans les évaluations de LM Arena. Les premiers testeurs ont noté qu'il excellait dans les tâches de codage créatif, avec certains résultats de tests de référence dépassant ceux de Gemini 3.1 Pro.
