GLM-5.1 посідає перше місце серед відкритих моделей у бенчмарку Artificial Analysis Coding Agent

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Фірма он-чейн аналізу Artificial Analysis опублікувала Індекс кодуючих агентів 13 травня (UTC+8), оцінивши моделі за SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 та SWE-Atlas-QnA. GLM-5.1 (з запуском на Claude Code) посів перше місце серед відкритих моделей, тоді як Opus 4.7 (Cursor CLI) лідирує загалом. Бенчмарки тестують реальні завдання з кодування, роботи в терміналі та технічні запитання та відповіді. GLM-5.1 демонструє найкращий результат серед відкритих моделей, а інтерес до внутрішніх моделей зростає.

Повідомлення AIMPACT, 13 травня (UTC+8): глобальний авторитетний оцінювальний орган Artificial Analysis опублікував новий індекс Coding Agent — Artificial Analysis Coding Agent Index, призначений для вимірювання продуктивності агентів та їх комбінацій з моделями на трьох провідних тестах: SWE-Bench-Pro-Hard-AA, Terminal-Bench v2 та SWE-Atlas-QnA. У цьому тестуванні закрита модель Opus 4.7 (з запуском через Cursor CLI) посіла перше місце у світі, а GLM-5.1 (з запуском через Claude Code) стала лідером серед відкритих моделей. Індекс охоплює реальні завдання з програмування, агентні завдання в терміналі та технічні питання з відповідями, щоб відобразити реальну продуктивність програмних агентів у практичних сценаріях. У статті зазначається, що GLM-5.1 представляє найвищий рівень (SOTA) здатностей китайських великих моделей у цьому сценарії. (Джерело: InFoQ)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.