Anthropic с помощью проекта Marlin обучала Claude Code, привлекая около 1000 внешних программистов через компанию по сбору данных Snorkel AI и платя им по 280 долларов за задание для проведения A/B-тестирования кода, сгенерированного моделью.

Автор статьи, источник: Новости ИИ

Недавно статья раскрыла «секреты прогресса» Claude Code.

Business Insider сообщает, что у Anthropic есть специальный проект по улучшению Claude Code, который дорабатывается на основе обратной связи от примерно 1000 программистов.

Этот проект внутри компании по работе с данными Snorkel AI имеет кодовое название «Marlin».

Еще в январе этого года Борис Черни, руководитель Claude Code, сообщил, что не писал ни одной строки кода от руки более двух месяцев: за один день Claude отправил 22 запроса на слияние (Pull Request), а накануне — 27, все они были написаны моделью.

Также сообщалось, что большая часть внутреннего кода Anthropic была сгенерирована ИИ.

Интересное место, как раз здесь.

С одной стороны, ключевые инженеры Anthropic уже передали большую часть кодовой работы модели; с другой — они тратят деньги, нанимая около 1000 внешних инженеров, чтобы вручную научить Claude Code, что такое «хороший код».

Что именно было куплено за 280 долларов за час?

Согласно Business Insider, внешние инженеры, привлеченные проектом Marlin, имеют опыт в программной инженерии. Их работа звучит как настоящая проверка кода.

Процесс выглядит примерно так. Сначала выбирается репозиторий GitHub из списка, содержащего тысячи репозиториев. Затем создается PR — то есть шаг, на котором разработчик представляет изменения в коде. После этого пишется подсказка, четко описывающая задачу.

Модель сгенерирует два набора кода, и следующая задача внешних инженеров — провести A/B-тестирование: сравнить два результата и выбрать лучший.

Каждое задание оплачивается 280 долларов США и занимает примерно один час. Некоторые требуют нескольких циклов согласования с уровнем проверки Snorkel.

Критерии оценки — это оценка корректности, безопасности, надежности и поддерживаемости кода в продакшене.

Приведите два реальных примера.

В рамках задачи внешний инженер попросил модель переработать способ обработки метаданных выполнения, чтобы сделать код более понятным и легким в поддержке, не изменяя функциональность.

В другой задаче внешний инженер внес исправления безопасности для открытой платформы машинного обучения MLflow, устраняя уязвимость внедрения команд, которая могла возникать при загрузке моделей и скачивании Python-пакетов. Требования к материалу были четкими: необходимо заблокировать внедрение команд, не затронув при этом легитимные параметры pip (менеджера пакетов Python).

Требования к этим задачам выходят за рамки аннотации данных и скорее напоминают необходимость заставить опытного инженера скопировать в модель свои внутренние критерии «так писать лучше».

Конечно, Anthropic купила не код, а опытных программистов, обладающих способностью принимать решения о том, как писать код более безопасно и чище.

Почему именно инженер?

Почему Anthropic прилагает столько усилий? Потому что Claude Code давно перестал быть просто чат-окном для написания кода.

Anthropic официально определяет его как проектный ИИ-агент. Он может прочитать весь кодовый репозиторий, планировать действия через несколько файлов, непосредственно вносить изменения, запускать тесты и самостоятельно итерировать на основе неудачных результатов.

Определение Claude Code на официальном сайте Anthropic: набор агентов, способных читать кодовые репозитории, вносить изменения через файлы, запускать тесты и доставлять закоммиченный код.

Это означает, что он действительно будет изменять файлы, запускать задачи и взаимодействовать со всей кодовой базой.

Anthropic сама осознает значимость этого вопроса, поэтому неоднократно обсуждает в инженерном блоге права доступа, песочницу и усталость от одобрений (approval fatigue) в Claude Code.

По умолчанию изменение файлов высокого риска или выполнение команд требует одобрения пользователя; чтобы снизить усталость от многократного одобрения, Anthropic также внедрила изолированную среду (sandboxing), позволяющую Claude Code безопасно работать в пределах заданных файловой системы и сетевых границ.

Когда ИИ может выполнять команды и изменять онлайн-код, стоимость ошибок становится совершенно иной. Цели обучения также меняются: от «написания правильного» до «написания безопасного, надежного и поддерживаемого кода».

Эти вещи нельзя вывести с помощью обычных кодовых корпусов. Раньше они скрывались в код-ревью опытных инженеров, передавались как накопленный опыт. Теперь Anthropic хочет превратить их в покупаемые данные, привлекая человеческих экспертов по программированию.

Snorkel — недооценённый «поставщик данных для военных целей»

Настоящим героем всей истории является Snorkel.

Эта компания вышла из AI Lab Стэнфорда в 2019 году и сделала ставку исключительно на одну идею: именно данные, а не модели или вычислительные мощности, определяют успех или неудачу машинного обучения.

Два ключевых основателя Snorkel — Алекс Ратнер и его наставник из Стэнфорда Крис Рэ, которые указывают на академические истоки Snorkel.

Алекс Ратнер, сооснователь и генеральный директор Snorkel AI

В 2015 году Snorkel был всего лишь «проектом за полдня» во время защиты докторской диссертации Ратнера: вместо того чтобы тратить большие деньги на наем людей для ручной разметки данных, он предложил использовать программы и правила для «слабого наблюдения» (weak supervision), позволяя модели обучаться без ручной разметки каждого примера.

Используя эту концепцию, Snorkel накопил более 60 научных статей, а его открытые инструменты были использованы Google и Intel, и только в 2019 году он был официально выделен в отдельную компанию.

Сооснователь Snorkel AI, профессор Стэнфордского университета Крис Рэ

Наставник Ратнера Крис Рэ также не из слабых.

Он — профессор Стэнфордского университета, лауреат премии «Гений МакАртура», предприниматель, участвовавший в проектах, приобретенных Apple, и основатель SambaNova, оценка которой однажды достигла 5 миллиардов долларов.

Самым интересным всё же является поворот этой компании.

Snorkel стремился решить давнюю проблему «ручной разметки, которая медленная, дорогая и нестабильная»: в то время на ручную разметку данных уходило около 80% времени разработки ИИ, поэтому изначальной целью Snorkel было как можно больше освободить людей от процесса разметки.

Но в эпоху передовых моделей самое дефицитное и дорогое снова вернулось к людям — только теперь это вкус и суждения экспертов, таких как доктора философии, врачи, юристы и опытные инженеры. Компания, основанная на «минимизации использования людей», сегодня получает наибольшую прибыль от создания дорогой армии экспертов для обучения передовых ИИ — Marlin лишь одна из таких сделок.

Его рабочий процесс идеально соответствует потребностям проекта Marlin.

Сайт Snorkel описывает этот рабочий процесс следующим образом: сначала определяются задача, критерии оценки и валидаторы, чтобы четко обозначить «что считается хорошим», затем запускается конвейер экспертной оценки, где автор, несколько рецензентов и финальный арбитр последовательно проверяют материал, при этом все этапы фиксируются.

На официальном сайте Snorkel указано: после возникновения разногласий в оценке они разрешаются посредством арбитража и фиксируются в журнале изменений критериев оценки; каждое изменение может быть отслежено по тому, кто, когда и на основании чего его внес.

Он также настраивает среду оценки и данные, чтобы одни и те же задачи можно было многократно запускать на разных версиях моделей и получать воспроизводимые и сопоставимые результаты. Чтобы результаты были чистыми и сопоставимыми, оценщики не должны быть подвержены влиянию версий. Внешние инженеры не знают, какую версию они оценивают — именно по этой причине.

The quote also speaks volumes.

Snorkel предлагает публичные юридические должности по контракту: каждое качественное задание — от 10 до 100 долларов; в то время как задачи по программной инженерии от Marlin платят 280 долларов за задание, примерно за один час, что дает почасовую ставку, вдвое с половиной превышающую среднюю на рынке (Scale AI и Mercor платят инженерам до 110 долларов в час). Ведущие эксперты могут зарабатывать более 3000 долларов в неделю.

Обратная связь от внешних инженеров, нанятых Snorkel, действительно дорогая.

В списке клиентов — Google, Mistral, Anthropic. В мае 2025 года Snorkel завершила раунд финансирования серии D с оценкой в 1,3 млрд долларов США.

Кейт Дженсен, руководитель по доходам Anthropic, заявила, что для полной реализации потенциала Claude необходимы новые методы оценки с привлечением экспертов в области и обратной связи от людей, и Anthropic будет продолжать сотрудничать с такими компаниями, как Snorkel.

Компании Snorkel, Scale, Mercor ранее считались «платформами для аннотации». Сегодня они стали скрытой цепочкой поставок для компаний, разрабатывающих передовые модели.

Это бесчисленная армия экспертов, рассеянных по всему миру и невидимых, которые кормят самого умного ИИ.

Несколько гигантов

Ловят одни и те же данные

Не только Anthropic покупает реальные инженерные компетенции. В этой гонке участвуют несколько крупных игроков, просто подходы у них разные.

Cursor идет по пути продуктовых данных.

Официально указано: после включения режима конфиденциальности код никогда не будет использоваться им или третьими сторонами для обучения; только при отключении режима конфиденциальности могут использоваться данные кодовой базы, запросы, действия по редактированию и фрагменты кода для улучшения функций ИИ и обучения моделей.

Модель Tab Cursor генерирует более 10 миллиардов редактируемых символов в день, а объем запросов увеличился примерно в 100 раз по сравнению с первоначальной версией. Более продвинутая модель Composer, обученная с использованием усиленного обучения (RL), позволяет модели учиться вызывать инструменты редактирования, поиска и другие в средах с большим количеством задач по кодированию, что позволяет обрабатывать более длительные инженерные задачи.

Самые последние Composer 2.5 полностью сосредоточены на длительных задачах, требующих сотен шагов.

Маск использует механизм привязки капитала / опционов на приобретение.

В феврале этого года xAI была интегрирована в SpaceX. В конце апреля SpaceX получила право приобрести за 60 миллиардов долларов США материнскую компанию Cursor — Anysphere, либо сначала вложить 10 миллиардов долларов США для глубокого сотрудничества. Маск заинтересован именно в данных о поведении реальных разработчиков, которыми располагает Cursor — это самые активные в мире данные такого рода.

25 мая Маск объявил в X, что обучение новой базовой модели Grok V9-Medium завершено, параметры составляют 1,5 трлн — в 3 раза больше, чем у текущей производственной модели. Он специально отметил, что это результат до дополнительного дообучения с данными Cursor, и после него «способности к программированию значительно улучшатся». Модель планируется выпустить в середине июня.

Таким образом, V9 станет первым, кто систематически «попробовал» данные о поведении реальных разработчиков.

Позже и Codex от OpenAI пошел по этому пути. Codex, выпущенный в 2025 году, работает на основе codex-1; OpenAI утверждает, что он обучался с помощью усиленного обучения на реальных задачах программирования с целью написания кода, близкого к человеческому стилю и соответствующего практикам Pull Request, а также повторного запуска тестов до их прохождения; каждая задача выполняется в изолированной песочнице с предустановленной вашей кодовой базой.

Сегодня Codex был обновлен до агентной платформы для программирования от OpenAI, работающей на передовых моделях кодирования; еженедельное количество пользователей превысило 5 миллионов.

Они соревнуются за одно и то же: данные о процессе, просто разными путями.

Anthropic сначала создала модель, но ей не хватало обратной связи с реальных сред разработки, поэтому она заплатила примерно 1000 инженерам, чтобы разбить процесс программной инженерии на данные, пригодные для обучения;

Cursor уже имеет продукт и реальное поведение пользователей, а также собственные программные модели, такие как Tab и Composer. Однако по сравнению с OpenAI и Anthropic ему не хватает универсальной базовой модели и масштабных вычислительных ресурсов для обучения;

Маску тоже не хватает данных, поэтому он пытается напрямую купить продукт, который постоянно генерирует данные о поведении разработчиков, за сотни миллиардов долларов;

У OpenAI нет недостатка ни в моделях, ни в продуктах, поэтому они создали собственную песочницу, где модель проходит через повторяющиеся попытки, тестирование, исправления и итерации в реальных задачах программирования с использованием обучения с подкреплением.

Несколько компаний используют разные подходы, но приходят к одному и тому же результату — обучая свои AI-модели программирования на данных, все более точно имитирующих реальные инженерные условия.

Настоящий защитный ров

Это вкус и суждение человека

Существует статья под названием SWE-chat, в которой впервые был проведен масштабный сбор реальных диалогов с агентами: 6000 сессий, более 63 000 пользовательских запросов и 355 000 вызовов инструментов.

Он получает тревожное число: только 44% кода, сгенерированного агентами, в итоге попадают в коммиты пользователей. Более половины его судьбы — быть удалённым, изменённым или отменённым.

SWE-чат в действии: виб-кодинг занимает 41% сессий, но код, написанный агентом, попадает в коммит только в 44% случаев; пользователи в 44% циклов взаимодействия корректируют, сообщают об ошибках или прерывают, чтобы повлиять на вывод модели.

Это означает, что старые бенчмарки, такие как HumanEval, уже достигли насыщения, и просто смотреть на результаты бенчмарков стало мало смысла. Настоящее поле боя — это данные, полученные в реальном процессе разработки, где происходят повторяющиеся попытки, ошибки и полные переработки.

Чем сильнее модель, тем больше нужно тратить денег, чтобы приобрести ту часть, которую люди еще не потеряли: инженерную интуицию.

Anthropic платит 280 долларов за задание, нанимает около 1000 инженеров для A/B голосования: эта кажущаяся громоздкой процедура — именно то, что они покупают.

Тот, кто сможет превратить данные с объекта в информацию, которую может обработать модель, тот получит доступ к следующему этапу AI-программирования.

Anthropic нанимает 1000 инженеров по 280 долларов за задание для улучшения кода Claude

Что именно было куплено за 280 долларов за час?

Почему именно инженер?

Snorkel — недооценённый «поставщик данных для военных целей»