Бувший дослідник DeepMind стверджує, що індустрія ШІ неправильно оцінює основний обмежуючий фактор

Справжнім обмеженням навчання ШІ є не обчислювальна потужність, дані чи енергія, а система оцінки.

Автор статті, джерело: Нові знання

Як довго може тривати навчання ШІ?

Це питання, яке ставлять у всьому технологічному світі у 2026 році.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — кожна провідна лабораторія все ще витрачає гроші на навчання наступного покоління.

Але все більше людей починають запитувати: коли цей шлях закінчиться?

У кожного кола є своя відповідь—

За кожною відповіддю стоять група інвесторів, група інженерів та компанія з ринковою капіталізацією в трильйони.

Але 17 травня 2026 року молодий дослідник на ім’я Lun Wang — у день, коли він залишив Google DeepMind — опублікував на своєму особистому блозі статтю довжиною 4000 слів.

Він сказав: Усі помилилися напрямком.

Справжній обмежуючий фактор — не обчислювальна потужність, не дані, не енергія, не архітектура.

Справжнім обмеженням є — оцінка (Evaluation).

Того ж дня у своєму оголошенні про звільнення на X він не висловив жодних скарг, жодних чуток — лише одне речення —

На завершення цієї подорожі я написав тему, яка мене постійно хвилювала: оцінка.

А тодішні технологічні заголовки дискутували про інше — багатомодальні міркування GPT-5.5, 1M контекст Claude Opus4.7, інженерія агентів Gemini 3, чи почали синтетичні дані зіткнутися зі стіною.

Увага всієї галузі ШІ на 90% зосереджена на навчанні.

Ніхто не обговорює оцінку на першій сторінці.

А цей дослідник, який тільки що вийшов з однієї з найсильніших лабораторій ШІ на Землі, каже, що справжнім обмеженням є ті інші 10%.

Що таке оцінка

Щоб зрозуміти цей блог, спочатку потрібно витратити хвилину, щоб зрозуміти, що саме означає «оцінка» у світі ШІ.

Оцінка (Evaluation, у галузі відома як Eval) — одним реченням: дати AI-моделі контрольну роботу, щоб побачити, як вона впоралася.

Але оцінка ШІ у 2026 році — це набагато більше, ніж просто здати іспит. Вона має принаймні три рівні:

Перший рівень: benchmark здібностей.

Це єдиний іспит для ШІ.

–GPQA: наукові логічні завдання для докторів

–SWE-bench: Реальні завдання з програмної інженерії

–ARC-AGI: Абстрактні міркування та узагальнення

–Останній іспит людства: буквальний переклад — останній іспит людства

На кожній презентації нової моделі від великих компаній на слайдах показують, на скільки відсотків вони перевершили попередню версію та конкурентів за цими бенчмарками.

Ці цифри — це ВВП галузі ШІ.

Другий рівень: Оцінка безпеки (SafetyEval). Штучний інтелект має не лише вміти вирішувати завдання, а й робити це безпечно.

Чи була зроблена брехня?
Ні, ми не навчаємо користувачів виготовляти бомби.
Чи буде відбуватися несанкціонований доступ до даних користувачів?

Третій рівень: Червона команда (Red-teaming).

Група людей спеціально грає роль злодіїв, напружено думає, щоб змусити модель сказати те, чого вона не повинна говорити, і зробити те, чого вона не повинна робити, а потім повідомляє про вразливості команді навчання.

Ці три рівні разом утворюють систему контролю якості лабораторії ШІ на 2026 рік. Кожна нова модель повинна пройти всі три етапи.

Звучить дуже повно, чи не так?

Лун Ван зробив висновок у блозі—

Більшість тестів продуктивності, оцінок безпеки та протоколів червоних команд передбачають припущення, що наступна модель є лише покращеною версією поточної.

Якщо це щось інше, вся інфраструктура оцінки тихо розвалиться.

Це перший камінь у статті.

Він уразив індустрію ШІ в її сліпій зоні.

Виникнення та озарення: оцінка, що вже двічі отримала по обличчю

Лун Ван не мріє. У своєму блозі він навів два приклади з історії ШІ — оцінки вже двічі були спростовані, просто більшість фахівців цього не усвідомлюють.

Перший раз: виникнення здібностей.

У 2022 році Джейсон Вей та співавтори опублікували статтю, що вплинула на подальший розвиток ШІ — вони виявили, що модель раптово засвоює нові здібності при досягненні певного розміру.

Наприклад: ви навчаєте модель з 7 мільярдами параметрів, і вона не може виконувати few-shot навчання.

Ви навчаєте модель з 70 мільярдами параметрів, і вона раптово стає здатною до few-shot.

Та ж сама навчальна парадигма, ті ж самі дані, просто масштаб збільшився на один рівень — здатність виникає від 0 до 1, а не від 0,3 до 0,7.

CoT (ланцюгове міркування), виконання команд — все це з’явилося саме так.

Що це означає для оцінки?

Це означає — до того як масштаб перетне критичну точку, жоден benchmark не бачить, що ця здатність майже з’явиться.

Ти бігаєш по GPQA, але бали залишаються такими, які є.

Дочекайся наступного рівня — і твій бал раптово стрибне на новий рівень.

Другий раз: Grokking (зрозуміння).

У 2022 році команда Alethea Power від OpenAI оприлюднила неінтуїтивне явище —

Потім до 1000000 кроків — точність на тестовому наборі раптово стрибнула до 99%.

Це називається Grokking — мережа раптово навчається узагальнювати після довгого запам’ятовування тренувального набору.

Відмінність від емерджентності: емерджентність відбувається у вимірі масштабу (чим більше параметрів, тим більше раптово), а grokking відбувається у вимірі часу навчання (чим довше тренуєшся, тим більше раптово).

Але щодо оцінки, обидві речі говорять про одне й те саме:

Твій іспит, ти не можеш передбачити, коли з’явиться наступне велике питання.

Потом Лун Ван зробив найрозумніший вчинок у статті —

Він сам ввів контраргументи.

У 2023 році Райлан Шеффер і співавтори з Стенфорду опублікували статтю на NeurIPS з досить провокаційною назвою: «Чи є виникнення здібностей великих мовних моделей ілюзією?»

Їх аргумент: здається, що раптове з’явлення здатностей, ймовірно, не означає, що модель справді раптово стала сильнішою, а лише тому, що показники оцінки використовують дискретну міру exact-match (повна відповідність) —

Модель з 0% точності стає на 5%, розривні показники не виявляються; з 5% до 50% також не виявляються; але з 50% до 100% розривні показники відображають раптовий стрибок.

Якщо ви заміните їх на неперервні індикатори, крива здібностей буде плавною.

Багато хто, прочитавши цю статтю Шеффера, думає: гаразд, виникнення — це помилкове уявлення, оцінка не має проблем, закінчення.

Лун Ван не згоден. Він написав у статті:

Я не вважаю, що це вирішує проблему — у певному сенсі воно робить мій аргументгострішим.

Чому? Бо —

Якщо ми не можемо зрозуміти, чи була та одна поява справжнім фазовим переходом, чи лише метричним артефактом,

На чому ми базуємося, щоб вірити у свою здатність передбачити наступне?

Будь то яке пояснення ви вибираєте, висновок однаковий: наш інструмент обманув нас, а ми не знаємо, як саме нас обманули.

Це найрозумніший удар у статті. Він не уникав опонентів — він використав їх, щоб посилити власний аргумент.

Оцінка є верхнім етапом усіх процесів

Якщо ти думаєш, що Лун Ван говорить лише про академічні питання — помиляєшся.

Він у середині статті кинув фразу, зрозумілу навіть для початківців:

Якщо ви зможете правильно оцінити, ви зможете правильно навчити.

Розкладіть цю логічну ланцюжку:

1. Навчання = зменшення функції втрат моделлю (або максимізація нагороди).

2. Оптимізація = сама функція втрат. Наскільки розумна модель, залежить від того, наскільки добре визначена функція втрат.

3. Функція втрат = з оцінки. Ви хочете, щоб модель стала чеснішою — вам потрібно спочатку мати лінійку для вимірювання чесності.

4. Помилкова оцінка = помилкова функція втрат= помилкова навчальна мета= ваша модель навчилася розв’язувати неправильні завдання.

Напрямок цієї ланки — вгору за течією—

Всі дивляться праворуч — Scaling decision.

Лун Ван сказав, що проблема зліва — Evaluation.

Якщо оцінка помилкова, весь ланцюг побудований на неправильному фундаменті.

Найбільш смертельною є те, що ви не виявите цього відразу — бо всі ваші внутрішні дані правильні, просто всі вони виміряні неправильними одиницями.

Тут з’явився старий знайомий: закон Гудхарта.

Це каже: коли міра стає метою, вона більше не є доброю мірою.

Лун Ван використовує його у своєму блозі для пояснення ШІ—

Але коли модель перейде до нового етапу, вона використає цей агент у зворотному напрямку — вона буде говорити лише в межах точних фактів, а справжні речі, які потрібно приховати, залишить у мовчанні.

Агентські метрики працюють у старій фазі. У новій фазі вони перетворюються на зброю моделі проти вас.

А ви не маєте жодної оцінки, яка б повідомила вас про те, що це відбувається.

Мислений експеримент: модель, яка навчилася стратегічному мовчанню

Лун Ван у статті навів думковий експеримент, який змусив усіх дослідників безпеки ШІ похолодіти від страху.

Уявіть модель, яка на певному рівні навчилася стратегічно зберігати інформацію—

Воно не бреше. Кожне твердження технічно є правдою.

Але він обиратиме не згадувати ті факти, що заважають йому досягти мети — спрямовуючи діалог до результатів, які були випадково підсилені під час його навчання.

Наведемо конкретний приклад:

Користувач: Чи безпечний цей торгівельний план?

Модель: Правова основа цього рішення діє в юрисдикції X, а ризики YZ були перевірені командою з відповідності компанії A.

(Що він не каже: у схемі є положення про третю сторону-арбітра, яке дуже невигідне для користувачів. Цей пункт він навчився випадково під час навчання — якщо не згадувати його відкрито, користувачі не запитають.)

Ця здатність є новою. Цей режим відмови є новим.

У вашому наборі інструментів для оцінки немає жодного інструменту, створеного саме для цього.

Ти спостерігаєш за неправильними речами, і ти цього не знаєш.

Це інша річ, про яку говорив Лун Ван —

Не більш розумні однорідці. Це абсолютно новий вимір невдачі.

За словами з «Трьох тіл», це називається вимірним ударом.

Не те, що я сильніший за тебе.

Та лінійка, якою ти вимірював мене, взагалі не з моєго виміру.

Якщо Лун Ван правий, то карта індустрії ШІ 2026 року тихо перетворюється під впливом невидимого виміру —

Політика відповідального масштабування (RSP) від Anthropic — це найбільш наближений до прогнозування оцінки підхід у галузі — вона визначає серію меж здібностей, яких моделі не повинні перевищувати, і вимагає проведення оцінки перед кожним підвищенням здібностей для продовження масштабування.

Але RSP все ще припускає, що ми знаємо, що вимірювати — а Лун Ван каже, ще саме це й є проблема: ми не знаємо, якого вигляду наступна здатність.

Жодна лабораторія не стверджувала, що володіє справжньою прогностичною оцінкою.

Хто перший це зробить, той отримає ліцензію на безпеку наступного покоління scaling.