Governo do Rio de Janeiro lança modelo de IA com 397 bilhões de parâmetros e raciocínio implícito aprimorado

ME AI mensagem, conforme monitorado pela Beating, a empresa municipal de informações e planejamento da prefeitura do Rio de Janeiro, IplanRIO, lançou em código aberto no Hugging Face o Rio-3.5-Open-397B. O modelo é pós-treinado a partir do Qwen 3.5 397B, utiliza arquitetura MoE, possui aproximadamente 397 bilhões de parâmetros totais, ativa cerca de 17 bilhões de parâmetros por Token, suporta contexto de até 1 milhão de Tokens e está disponível sob licença MIT. O modelo card indica que o Rio-3.5-Open-397B integra o framework de raciocínio SwiReasoning. SwiReasoning é um método de raciocínio sem treinamento que alterna entre raciocínio em cadeia de pensamento explícita e raciocínio no espaço vetorial implícito com base na variação da entropia da informação. O raciocínio explícito é responsável por expressar conclusões como Tokens em linguagem natural, enquanto o raciocínio implícito explora múltiplas trajetórias no espaço oculto, reduzindo saídas textuais desnecessárias. Os testes divulgados pela equipe mostram que, após ativar o raciocínio implícito, o Rio-3.5-Open-397B obteve pontuação de 58,1 no SWE-Bench Pro e 89,5 no IMOAnswerBench. Para comparação, a versão original do Qwen 3.5 397B obteve respectivamente 50,9 e 80,9; apenas com pós-treinamento e sem ativar o raciocínio implícito, obteve 54,8 e 84,5. Ou seja, o raciocínio implícito não duplicou o desempenho absoluto do modelo, mas quase duplicou a melhoria relativa em relação ao modelo base. A compatibilidade é a principal limitação. No fórum do Hugging Face, membros da equipe confirmaram que essas pontuações públicas foram obtidas com o SwiReasoning ativado. SwiReasoning requer a entrada de vetores contínuos "soft embeddings" ponderados por probabilidade durante a inferência, e motores de inferência como llama.cpp, que suportam apenas geração de IDs de Tokens discretos, ainda não conseguem implementar plenamente esse recurso. A equipe afirma que, mesmo sem ativar o raciocínio implícito, o modelo ainda é claramente superior à versão original do Qwen 3.5 397B, mas sua capacidade completa exige adaptação do framework de inferência para aceitar entradas de soft embeddings. (Fonte: BlockBeats)