Уряд Ріо-де-Жанейро відкрив AI-модель з 397 мільярдами параметрів і покращеним неявним міркуванням

iconKuCoinFlash
Поділитися
AI summary iconКороткий зміст
ME AI Новина: за даними моніторингу Beating, муніципальна компанія з інформації та планування IplanRIO, що належить місту Ріо-де-Жанейро, Бразилія, відкрила Rio-3.5-Open-397B на Hugging Face. Модель базується на Qwen 3.5 397B, післядопрацьована з використанням архітектури MoE, має загальну кількість параметрів близько 397 мільярдів, активує приблизно 17 мільярдів параметрів на один Token, підтримує контекст до 1 мільйона Token і випущена за ліцензією MIT. У картці моделі зазначено, що Rio-3.5-Open-397B інтегрує інференс-фреймворк SwiReasoning. SwiReasoning — це метод інференсу без навчання, який переключається між експліцитним ланцюжком міркувань та імпліцитним векторним простором на основі змін інформаційної ентропії. Експліцитне міркування відповідає за формулювання висновків у вигляді природних мовних Token, тоді як імпліцитне міркування досліджує кілька шляхів у прихованому просторі, зменшуючи непотрібний текстовий вивід. Тестування, оприлюднене командою, показало, що після увімкнення імпліцитного міркування Rio-3.5-Open-397B отримав 58.1 бала на SWE-Bench Pro та 89.5 бала на IMOAnswerBench. У порівнянні, оригінальна Qwen 3.5 397B показала 50.9 та 80.9 відповідно; лише післядопрацьована версія без увімкнення імпліцитного міркування — 54.8 та 84.5. Таким чином, імпліцитне міркування не подвоїло абсолютну продуктивність моделі, але збільшило вдосконалення в порівнянні з базовою моделлю майже вдвічі. Основним обмеженням є сумісність: у обговореннях на Hugging Face члени команди підтвердили, що ці публічні результати отримано з увімкненим SwiReasoning. SwiReasoning вимагає введення ймовірнісно зважених безперервних «м’яких ембеддингів», а інференс-движки, такі як llama.cpp, які підтримують лише дискретні ID Token, наразі не можуть повністю реалізувати цей механізм. Команда зазначила, що без увімкнення імпліцитного міркування модель все ще значно перевершує оригінальну Qwen 3.5 397B, але повний потенціал можна реалізувати лише за умови адаптації інференс-фреймворку до введення м’яких ембеддингів. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.