CUSP Benchmark показує, що моделі ШІ не володіють здатністю до наукового прогнозування

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Платформи з новинами про ШІ та криптовалюти відстежують новий показник під назвою CUSP, розроблений Стенфордським університетом, Оксфордським університетом та Інститутом Аллена зі ШІ. Тест показує, що найкращі моделі, такі як GPT-5.4 та Claude Sonnet 4.5, важко здатні прогнозувати науковий прогрес. Точність майже випадкова, а оцінки термінів відрізняються на місяці. Набір даних CUSP містить 4 760 віх та 17 429 завдань. Нові лістинги токенів часто базуються на прогнозних моделях, але це дослідження викликає занепокоєння щодо їхньої надійності.
ME AI повідомлення: за даними моніторингу Beating, Стенфордський університет, Оксфордський університет та Інститут штучного інтелекту Елена спільно розробили часовий базис CUSP для оцінки здатності ШІ передбачати науковий прогрес. Система оцінки систематично тестувала передові великі моделі, такі як GPT-5.4, Claude Sonnet 4.5 та DeepSeek R1. Результати показали, що великі моделі добре впоралися з механічними міркуваннями, такими як розуміння існуючих технологічних шляхів. Однак при передбаченні, чи зможуть нові відкриття реально бути реалізованими, їх точність була майже випадковою. Крім того, великі моделі систематично запізнювалися у передбаченні часу наукових проривів. Традиційні оцінки ШІ схильні до витоку інформації: моделі можуть просто відтворювати наукові досягнення, вже опубліковані в тренувальних даних. Щоб виміряти справжню здатність до передбачення, CUSP ввів часовий обмежувальний критерій знань. Дослідницька група зібрала багатогалузеві передові досягнення з журналів Nature та Science. Цей базис містить 4 760 наукових вихідних пунктів і породжує 17 429 конкретних завдань для оцінки. Тестування обмежувало доступну моделям інформацію за допомогою критеріїв обрізу та включало контрольні експерименти, такі як пошук у мережі до обрізу, щоб розрізнити розрив у знаннях від розриву у передбаченні. Результати оцінки показали, що великі моделі не можуть надавати надійних рекомендацій у наукових дослідженнях без еталонних відповідей. Принаймні щодо передбачення наукового прогресу, сучасні моделі не здатні надавати надійних перспективних суджень. У завданнях механічного мислення моделі продемонстрували високу продуктивність: наприклад, GPT-5.4 досяг 81,9% точності при визначенні раціональних напрямків досліджень з кількох варіантів. Але при оцінці реалізовності — тобто визначенні, чи може твердження бути реалізованим — точність усіх моделей становила лише в діапазоні 45–52%. У передбаченні часу прориву великі моделі систематично переоцнювали: GPT-5.4 запізнювався на 14 місяців, Claude S4.5 — на 17 місяців, а GPT-4o — на 26 місяців. У цьому типі завдань LLaMA 3.3 мала меншу помилку у часі: +4 місяці. У генерації розв’язань навіть GPT-5.4, який отримав найвищий бал 5,04/10, не змогла сгенерувати технологічний шлях, що збігався з реальним науковим шляхом. Це свідчить про те, що моделі можуть писати придатні сценарії, але важко точно вгадати конкретний технологічний шлях, який насправді реалізується. Для високопотужних інноваційних проривів розрив у науковому прогнозуванні ще був більш помітним. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.