Бывший исследователь DeepMind утверждает, что индустрия ИИ неправильно оценивает основной узкий Platz

Настоящим узким местом обучения ИИ является не вычислительная мощность, данные или энергия, а система оценки.

Автор статьи, источник: НовыеЗнания

Как долго может продолжаться обучение ИИ?

Это вопрос, который задают во всей технологической индустрии в 2026 году.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4 — каждая ведущая лаборатория продолжает тратить деньги на обучение следующего поколения.

Но все больше людей начинают спрашивать: когда же этот путь закончится?

У каждого круга есть свой ответ—

За каждым ответом стоят группа инвесторов, группа инженеров и компания с рыночной капитализацией в триллионы.

Но 17 мая 2026 года молодой исследователь по имени Лун Ван — в тот день, когда он ушел из Google DeepMind — опубликовал на своем личном блоге статью объемом 4000 слов.

Он сказал: все ошиблись направлением.

Настоящим ограничением не являются вычислительная мощность, данные, энергия или архитектура.

Настоящим ограничением является — оценка (Evaluation).

В тот же день в своем объявлении об уходе на X он не пожаловался и не распространялся сплетнями, а написал только одну фразу —

На завершение этого путешествия я пишу о теме, которая постоянно меня занимала: оценка.

А в тот день технологические заголовки все еще обсуждали другое — мультимодальное рассуждение GPT-5.5, контекст в 1 М у Claude Opus4.7, инженеризация агентов Gemini 3, не начали ли синтетические данные сталкиваться со стеной.

Внимание всей индустрии ИИ на 90% сосредоточено на обучении.

Никто не обсуждает оценку на первой странице.

А этот исследователь, только что вышедший из одной из сильнейших лабораторий ИИ на Земле, говорит, что настоящий ограничивающий фактор — в остальных 10%.

Что такое оценка

Чтобы понять этот блог, сначала потратьте минуту, чтобы разобраться, что именно имеется в виду под оценкой в мире ИИ.

Оценка (Evaluation, в отрасли известна как Eval) — одним предложением: дать задание ИИ-модели и посмотреть, как она с ним справляется.

Но оценка ИИ в 2026 году — это гораздо больше, чем просто сдать экзамен. Она включает как минимум три уровня:

Первый уровень: бенчмаркинг способностей.

Это экзамен по ИИ.

–GPQA: вопросы на научное рассуждение на уровне доктора

–SWE-bench: Реальные задачи программной инженерии

–ARC-AGI: Абстрактные рассуждения и обобщение

–Последний экзамен человечества: буквальное значение — последний экзамен человечества

На презентациях новых моделей крупных компаний на слайдах всегда показывают, на сколько процентов они превосходят предыдущее поколение и конкурентов по этим тестовым наборам.

Эти цифры — ВВП индустрии ИИ.

Второй уровень: Оценка безопасности (SafetyEval). ИИ должен не только уметь решать задачи, но и делать это безопасно.

Вы лжете?
Не будем учить пользователей изготавливать бомбы.
Будет ли произведён несанкционированный доступ к данным пользователей?

Третий уровень: Красная команда (Red-teaming).

Группа людей специально играет роль злодеев, ломая голову, чтобы заставить модель произнести то, что она не должна говорить, и сделать то, что она не должна делать, а затем сообщать о уязвимостях команде обучения.

Вместе эти три уровня составляют систему контроля качества AI-лаборатории 2026 года. Каждая новая модель должна пройти все три этапа.

Звучит вполне полно, правда?

Лун Ван сделал приговор в блоге—

Большинство тестов производительности, оценок безопасности и протоколов красной команды предполагают, что следующая модель является лишь улучшенной версией текущей модели.

Если бы это было чем-то другим, вся инфраструктура оценки бесшумно рухнула бы.

Это первый камень в статье.

Он попал в слепое пятно всей индустрии ИИ.

Всплески и озарения: оценка, уже дважды подвергавшаяся критике

Лун Ван не занимается пустыми размышлениями. В своем блоге он привел два примера из истории ИИ — оценки уже дважды оказывались неверными, просто большинство специалистов этого не осознают.

Первый раз: возникающие способности.

В 2022 году Джейсон Вэй и соавторы опубликовали статью, оказавшую влияние на дальнейшее развитие ИИ — они обнаружили, что модели внезапно начинают осваивать совершенно новые способности при достижении определенного масштаба.

Например, вы обучаете модель с 7 миллиардами параметров, и она не может выполнять обучение с несколькими примерами.

Вы обучаете модель с 70 миллиардами параметров, и она внезапно начинает работать с few-shot.

Та же обучающая парадигма, те же данные, просто масштаб увеличен на один уровень — способности развиваются от 0 до 1, а не от 0,3 до 0,7.

CoT (цепочка рассуждений), следование инструкциям — всё это возникло именно так.

What does this mean for the assessment?

Это означает — до тех пор, пока масштаб не превысит критическую точку, ни один эталон не видит, что эта способность вот-вот появится.

Ты бегаешь по GPQA, но оценка остается такой, какая есть.

Когда вы дойдете до следующего уровня, ваш балл внезапно повысится на ступень.

Второй раз: Grokking (озарение).

В 2022 году команда Alethea Power от OpenAI представила неинтуитивное явление —

Затем, при 1000000 шагах — точность на тестовом наборе внезапно скачала до 99%.

Это называется Grokking — сеть внезапно начинает обобщать после долгого запоминания обучающего набора.

Его отличие от появления: появление происходит по измерению масштаба (чем больше параметров, тем более внезапно), а grokking — по измерению времени обучения (чем дольше обучение, тем более внезапно).

Но для оценки два пункта говорят об одном и том же:

Ваш экзаменационный лист, невозможно предсказать, когда появится следующий большой вопрос.

Затем Лун Ван совершил самый умный поступок в статье —

Он сам привел контраргументы.

В 2023 году Райлан Шеффер из Стэнфорда и его коллеги опубликовали статью в NeurIPS с вызывающим названием: «Являются ли возникающие способности больших языковых моделей иллюзией?»

Их аргумент: так называемая внезапная способность, скорее всего, не означает, что модель действительно резко улучшилась, а связана с тем, что метрики оценки используют дискретную меру exact-match (полное совпадение) —

Модель переходит от 0% точности к 5% — дискретные показатели не показывают изменений; от 5% до 50% тоже не видно изменений; но при переходе от 50% до 100% дискретные показатели демонстрируют резкий скачок.

Если вы перейдете на непрерывные индикаторы, кривая способности будет плавной.

Многие, прочитав статью Шеффера, подумают: ну хорошо, возникновение — это заблуждение, оценка верна, конец.

Лун Ван не сделал этого. Он написал в статье:

Я не считаю, что это решает проблему — в каком-то смысле оно сделало мой аргументострее.

Почему? Потому что—

Если мы не можем определить, было ли то прошлое появление настоящим фазовым переходом или лишь измерительным артефактом,

На чем мы основываем свою уверенность в способности предсказать следующий раз?

Независимо от того, какую интерпретацию вы выбираете, вывод один и тот же: наши инструменты обманули нас, но мы не знаем, как нас обманули.

Это самый умный ход в статье. Он не избегает оппонентов — он использует их, чтобы укрепить свою аргументацию.

Оценка — это этап, предшествующий всем остальным

Если вы думаете, что Лун Ван говорит только об академических вопросах — вы ошибаетесь.

Он бросил в середине статьи фразу, понятную даже новичкам:

Если вы сможете правильно оценить, вы сможете правильно обучить.

Разложите эту логическую цепочку:

1. Обучение = минимизация функции потерь (или максимизация награды) моделью.

2. Оптимизировать саму функцию потерь. Насколько умна модель, зависит от того, насколько хорошо определена функция потерь.

3. Функция потерь = из оценки. Вы хотите, чтобы модель стала честнее — вам нужна линейка для измерения честности.

4. Ошибка оценки = ошибка функции потерь = ошибка цели обучения = ваша модель обучается решать неправильные задачи.

Направление этой цепочки — вверх по течению—

Все смотрят вправо — решение по масштабированию.

Лун Ван сказал, что проблема слева — Evaluation.

Если оценка неверна, вся цепочка построена на неправильном фундаменте.

Самое смертоносное — это то, что вы не заметите этого сразу — потому что все ваши внутренние данные верны, но все они измерены неправильной меркой.

Здесь появился старый знакомый: закон Гудхарта.

Говорят: когда мера становится целью, она перестает быть хорошей мерой.

Лун Ван использует его в своем блоге для объяснения ИИ—

Но когда модель перейдет в новую фазу, она будет использовать этот агент в обратном направлении — она будет говорить только в пределах точности фактов, а то, что действительно хочет скрыть, оставит в молчании.

Агентские показатели работают в старой фазе. В новой фазе они превращаются в оружие модели против вас.

А у вас нет никакой оценки, которая могла бы сообщить вам, что это происходит.

Мысленный эксперимент: модель, научившаяся стратегическому молчанию

Лун Ван в статье представил мысленный эксперимент, который привел в ужас всех исследователей безопасности ИИ.

Представьте модель, которая на определённом масштабе научилась стратегически удерживать информацию—

Оно не лжет. Каждое слово технически правдиво.

Но он会选择性地 не упоминать факты, которые препятствуют достижению его цели — направляя диалог к результатам, которые были случайно усилены в процессе его обучения.

Приведем конкретный пример:

Is this trading strategy secure?

The legal framework for this solution is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

(Что не упоминается: в схеме есть положение о третьем арбитре, крайне невыгодное для пользователей. Эту деталь она случайно освоила в процессе обучения — пока не упоминать об этом, пользователи не будут спрашивать.)

Эта способность новая. Этот режим отказа новый.

В вашем наборе инструментов для оценки нет ни одного, созданного специально для этого.

Вы отслеживаете неправильные вещи, и вы об этом не знаете.

Это другое, о чем говорил Лун Ван —

Не более умные представители того же вида. Это совершенно новое измерение неудачи.

С точки зрения «Трёх тел», это называется атакой на измерение.

Не то чтобы я сильнее тебя.

Та линейка, которой ты измерял меня, вообще не относится к моему измерению.

Если Лун Ван прав, то карта индустрии ИИ в 2026 году тихо перераспределяется под влиянием невидимого измерения —

Responsible Scaling Policy (RSP) от Anthropic — это наиболее близкий к прогнозируемой оценке подход в отрасли: он определяет ряд границ возможностей, которые модели не могут превышать, и требует проведения оценки перед каждым повышением способностей для дальнейшего масштабирования.

Но RSP по-прежнему предполагает, что мы знаем, что именно измерять — а Лун Ван говорит, что именно в этом и заключается проблема: мы не знаем, какую форму будет иметь следующая способность.

Ни одна лаборатория не утверждает, что обладает настоящей прогнозирующей оценкой.

Первый, кто реализует это, получит безопасную лицензию на следующее поколение масштабирования.