CUSP Benchmark показує, що моделі ШІ не володіють здатністю до наукового прогнозування

ME AI повідомлення: за даними моніторингу Beating, Стенфордський університет, Оксфордський університет та Інститут штучного інтелекту Елена спільно розробили часовий базис CUSP для оцінки здатності ШІ передбачати науковий прогрес. Система оцінки систематично тестувала передові великі моделі, такі як GPT-5.4, Claude Sonnet 4.5 та DeepSeek R1. Результати показали, що великі моделі добре впоралися з механічними міркуваннями, такими як розуміння існуючих технологічних шляхів. Однак при передбаченні, чи зможуть нові відкриття реально бути реалізованими, їх точність була майже випадковою. Крім того, великі моделі систематично запізнювалися у передбаченні часу наукових проривів. Традиційні оцінки ШІ схильні до витоку інформації: моделі можуть просто відтворювати наукові досягнення, вже опубліковані в тренувальних даних. Щоб виміряти справжню здатність до передбачення, CUSP ввів часовий обмежувальний критерій знань. Дослідницька група зібрала багатогалузеві передові досягнення з журналів Nature та Science. Цей базис містить 4 760 наукових вихідних пунктів і породжує 17 429 конкретних завдань для оцінки. Тестування обмежувало доступну моделям інформацію за допомогою критеріїв обрізу та включало контрольні експерименти, такі як пошук у мережі до обрізу, щоб розрізнити розрив у знаннях від розриву у передбаченні. Результати оцінки показали, що великі моделі не можуть надавати надійних рекомендацій у наукових дослідженнях без еталонних відповідей. Принаймні щодо передбачення наукового прогресу, сучасні моделі не здатні надавати надійних перспективних суджень. У завданнях механічного мислення моделі продемонстрували високу продуктивність: наприклад, GPT-5.4 досяг 81,9% точності при визначенні раціональних напрямків досліджень з кількох варіантів. Але при оцінці реалізовності — тобто визначенні, чи може твердження бути реалізованим — точність усіх моделей становила лише в діапазоні 45–52%. У передбаченні часу прориву великі моделі систематично переоцнювали: GPT-5.4 запізнювався на 14 місяців, Claude S4.5 — на 17 місяців, а GPT-4o — на 26 місяців. У цьому типі завдань LLaMA 3.3 мала меншу помилку у часі: +4 місяці. У генерації розв’язань навіть GPT-5.4, який отримав найвищий бал 5,04/10, не змогла сгенерувати технологічний шлях, що збігався з реальним науковим шляхом. Це свідчить про те, що моделі можуть писати придатні сценарії, але важко точно вгадати конкретний технологічний шлях, який насправді реалізується. Для високопотужних інноваційних проривів розрив у науковому прогнозуванні ще був більш помітним. (Джерело: BlockBeats)