Le gouvernement de Rio de Janeiro lance un modèle d'IA de 397 milliards de paramètres avec un raisonnement implicite amélioré

ME AI Message, selon la surveillance de Beating, la société municipale d'information et de planification IplanRIO, dépendant de la mairie de Rio de Janeiro au Brésil, a open-sourcé Rio-3.5-Open-397B sur Hugging Face. Le modèle, basé sur Qwen 3.5 397B et fine-tuné, utilise une architecture MoE avec environ 397 milliards de paramètres au total et environ 17 milliards de paramètres activés par token, prend en charge un contexte d'environ 1 million de tokens et est publié sous licence MIT. La fiche du modèle indique que Rio-3.5-Open-397B intègre le cadre d'inférence SwiReasoning. SwiReasoning est une méthode d'inférence sans entraînement qui bascule entre une chaîne de pensée explicite et une inférence dans l'espace vectoriel implicite en fonction des variations d'entropie d'information. L'inférence explicite rédige les conclusions en tokens de langage naturel, tandis que l'inférence implicite explore plusieurs chemins dans l'espace caché, réduisant ainsi les sorties textuelles inutiles. Les tests publiés par l'équipe montrent qu'avec l'inférence implicite activée, Rio-3.5-Open-397B obtient un score de 58,1 sur SWE-Bench Pro et de 89,5 sur IMOAnswerBench. À titre de comparaison, la version originale de Qwen 3.5 397B obtient respectivement 50,9 et 80,9 ; en ne faisant que du fine-tuning sans activer l'inférence implicite, les scores sont respectivement de 54,8 et 84,5. Autrement dit, l'inférence implicite n'a pas doublé la performance absolue du modèle, mais a presque doublé l'amélioration relative par rapport au modèle de base. La compatibilité constitue la principale limitation. Sur le forum Hugging Face, les membres de l'équipe ont confirmé que ces scores publics ont été obtenus avec SwiReasoning activé. SwiReasoning nécessite d'entrer des vecteurs d'« embeddings » continus pondérés par probabilité lors de l'inférence, ce que des moteurs d'inférence comme llama.cpp, qui ne prennent en charge que des ID de tokens discrets, ne peuvent pas encore implémenter pleinement. L'équipe indique que sans l'inférence implicite, le modèle reste néanmoins nettement supérieur à la version originale de Qwen 3.5 397B, mais que sa pleine capacité nécessite une adaptation du cadre d'inférence pour accepter les entrées d'embeddings continus. (Source : BlockBeats)