Правительство Рио-де-Жанейро открыло ИИ-модель с 397 млрд параметров и улучшенным неявным рассуждением

iconKuCoinFlash
Поделиться
AI summary iconСводка
ME AI Новость: согласно мониторингу Beating, муниципальная компания по информации и планированию IplanRIO, принадлежащая городскому правительству Рио-де-Жанейро, Бразилия, открыла Rio-3.5-Open-397B на Hugging Face. Модель основана на Qwen 3.5 397B и прошла дообучение, использует архитектуру MoE, общее количество параметров составляет около 397 миллиардов, активируется примерно 17 миллиардов параметров на токен, поддерживает контекст до 1 миллиона токенов и выпущена по лицензии MIT. В карточке модели указано, что Rio-3.5-Open-397B интегрирует инференс-фреймворк SwiReasoning. SwiReasoning — это метод инференса без обучения, который переключается между явной цепочкой рассуждений и скрытым векторным пространством на основе изменения энтропии информации. Явное рассуждение отвечает за формулировку выводов в виде естественных языковых токенов, а скрытое рассуждение исследует несколько путей в скрытом пространстве, сокращая ненужные текстовые выходы. Тесты, опубликованные командой, показывают, что после включения скрытого рассуждения Rio-3.5-Open-397B набрал 58.1 балла на SWE-Bench Pro и 89.5 на IMOAnswerBench. В качестве контроля исходная версия Qwen 3.5 397B показала 50.9 и 80.9 соответственно, а после дообучения без включения скрытого рассуждения — 54.8 и 84.5. То есть скрытое рассуждение не удвоило абсолютную производительность модели, но почти удвоило улучшение по сравнению с базовой моделью. Основным ограничением является совместимость: члены команды подтвердили на форуме Hugging Face, что указанные результаты были получены при включении SwiReasoning. SwiReasoning требует ввода непрерывных «мягких» векторов с весами вероятностей во время инференса, а такие движки, как llama.cpp, поддерживающие только дискретные ID токенов, пока не могут полностью реализовать этот механизм. Команда отмечает, что даже без включения скрытого рассуждения модель значительно превосходит исходную версию Qwen 3.5 397B, однако для полного раскрытия потенциала требуется адаптация инференс-фреймворка для поддержки входных мягких векторов. (Источник: BlockBeats)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.