ME News, 5 апреля (UTC+8): недавно версия Grok 4.20 Beta показала точность 97% в оценке τ²-Bench, заняв второе место. τ²-Bench — это оценка, построенная на основе исходной рамки τ-bench Sierra, известной своей строгостью. Оценка проверяет не только способность ИИ отвечать на вопросы, но и способность агентов успешно выполнять задачи навигации. (Источник: InFoQ)
Grok 4.20 Beta показала 97% точности на τ²-Bench, заняв второе место
KuCoinFlashПоделиться






Grok 4.20 Beta достигла точности 97% на τ²-Bench, заняв второе место. Тест, основанный на τ-bench от Sierra, оценивает как навыки ответов на вопросы, так и навигации. Рисковые активы снова привлекли внимание на фоне прогресса в области ИИ. Регулирование CFT остается ключевым приоритетом по мере технологического развития. (Источник: InFoQ)
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.