Binuksan ng pamahalaan ng Rio de Janeiro ang AI model na may 397B na parameter na may pinabuting implicit reasoning

ME AI mensahe, ayon sa pagmamasid ng Beating ng动察, ang IplanRIO, isang ahensya ng impormasyon at pagpaplano ng lungsod ng Rio de Janeiro, Brazil, ay nag-open source ang Rio-3.5-Open-397B sa Hugging Face. Ang modelo ay batay sa Qwen 3.5 397B na pinagsanay muli, gumagamit ng arkitekturang MoE, may kabuuang 397 bilyong parameter, aktibong humigit-kumulang 17 bilyong parameter bawat Token, at sumusuporta sa humigit-kumulang 1 milyong Token na konteksto, at inilabas sa ilalim ng lisensya ng MIT. Ang model card ay nagpapakita na ang Rio-3.5-Open-397B ay naglalaman ng SwiReasoning reasoning framework. Ang SwiReasoning ay isang training-free reasoning method na nagpapalit sa pagitan ng eksplisitong chain-of-thought at implisitong vector space reasoning batay sa pagbabago ng information entropy. Ang eksplisitong reasoning ay responsable sa pagsusulat ng konklusyon bilang natural language tokens, habang ang implisitong reasoning ay nag-aaral ng maraming path sa hidden space upang mabawasan ang hindi kailangang text output. Ang mga pagsusuri na inilabas ng team ay nagpapakita na ang Rio-3.5-Open-397B ay nakakuha ng 58.1 sa SWE-Bench Pro at 89.5 sa IMOAnswerBench pagkatapos buksan ang implisitong reasoning. Bilang komparasyon, ang orihinal na Qwen 3.5 397B ay may 50.9 at 80.9, samantalang ang bersyon na pinagsanay muli lamang at hindi pinagana ang implisitong reasoning ay may 54.8 at 84.5. Kaya, ang implisitong reasoning ay hindi nagdulot ng pagdoble ng absolute performance, ngunit nagdulot ng pagtaas na halos nagdoble kumpara sa base model. Ang compatibility ay ang pangunahing limitasyon. Sa Hugging Face discussion forum, ang mga miyembro ng team ay napatunayan na ang mga pampublikong resulta ay nakamit habang pinagana ang SwiReasoning. Ang SwiReasoning ay nangangailangan ng continuous "soft embeddings" na may probability weighting sa panahon ng inference, ngunit ang mga inference engine tulad ng llama.cpp na sumusuporta lamang sa discrete token ID generation ay hindi pa makakapag-implement nang buo. Sinabi ng team na kahit na hindi pinagana ang implisitong reasoning, ang modelo ay patuloy na mas malakas kaysa sa orihinal na Qwen 3.5 397B, ngunit ang buong kakayahan ay nangangailangan ng pagpapadali ng inference framework para sa input ng soft embeddings. (Source: BlockBeats)