Anthropic через проект Marlin навчає Claude Code, залучаючи близько 1000 зовнішніх програмістів через компанію з даними Snorkel AI, щоб вони проводили A/B-тестування коду, згенерованого моделлю, отримуючи 280 доларів за завдання.

Автор статті, джерело: NewZeal

Недавно стаття розкрила «секрети прогресу» Claude Code.

Business Insider повідомляє, що Anthropic має спеціальний проект з покращення Claude Code, який удосконалюється за допомогою відгуків близько 1000 програмістів.

Цей проект у внутрішній структурі компанії з даних Snorkel AI мав кодову назву «Marlin».

Ще у січні цього року Борис Черні, керівник Claude Code, розповів, що вже більше двох місяців не написав жодного рядка коду від руки — за один день Claude надіслав 22 запити на влиття (Pull Request), а попереднього дня — 27, і всі вони були написані моделлю.

Також повідомляється, що більша частина внутрішнього коду Anthropic була згенерована штучним інтелектом.

Цікаве місце, саме тут.

З одного боку, головні інженери Anthropic вже передали велику кількість кодування моделі; з іншого — вони витрачають гроші на найм близько 1000 зовнішніх інженерів, щоб навчити Claude Code, що таке «добрий код».

Що саме було куплено за 280 доларів за годину?

За словами Business Insider, залучені зовнішні інженери проекту Marlin мають досвід у сфері програмної інженерії. Їхня робота схожа на справжній код-рев’ю.

Процес приблизно такий. Спочатку вибирається репозиторій GitHub із списку, що містить тисячі репозиторіїв. Потім створюється PR — тобто етап, коли розробник подає зміни до коду. Далі пишеться підказка, яка чітко пояснює завдання.

Модель згенерує два набори коду, а наступним кроком зовнішніх інженерів буде A/B-тестування: порівняння двох вихідних даних та вибір кращого з них.

За кожне завдання виплачується 280 доларів США, що приблизно займає одну годину. Деякі вимагають кількох циклів зворотного зв’язку з рівнем перевірки Snorkel.

Критерії оцінки — це оцінка правильності, безпеки, надійності та підтримуваності коду виробничого рівня.

Наведіть два реальних приклади.

У завданні зовнішній інженер попросив модель перебудувати спосіб обробки метаданих виконання, щоб зробити код більш зрозумілим і легшим для підтримки, не змінюючи функціонал.

У іншому завданні зовнішні інженери внесли виправлення безпеки для MLflow — цієї відкритої платформи машинного навчання — щодо вразливості введення команд, яка може виникати під час завантаження моделей та завантаження пакетів Python. Вимоги були дуже чіткими: потрібно було заблокувати введення команд, не порушивши при цьому легітимні параметри pip (менеджера пакетів Python).

Вимоги до цих завдань виходять за межі анотації даних і схожі на те, щоб досвідчений інженер просто скопіював у модель свою внутрішню систему оцінки «так краще писати».

Звичайно, Anthropic купила не код, а судження досвідчених програмістів про те, як писати код безпечніше й чистіше.

Чому саме інженер?

Чому Anthropic робить це так складно? Тому що Claude Code вже не є просто чат-боксом для написання коду.

Anthropic офіційно визначає його як інтелектуального агента рівня проекту. Він може прочитати весь кодовий базис, планувати між файлами, безпосередньо виконувати зміни, запускати тести та ітерувати самостійно на основі невдалих результатів.

Визначення Claude Code на офіційному сайті Anthropic: набір агентів, які можуть читати кодові репозиторії, вносити зміни між файлами, запускати тести та доставляти підтверджений код.

Це означає, що він справді змінить файли, запустить завдання та отримає доступ до всього кодового проекту.

Anthropic сама усвідомлює значущість цього, тому у інженерному блозі вона неодноразово звертає увагу на права, сандбокс та втому від затверджень Claude Code.

За замовчуванням зміна високоризикованих файлів або виконання команд вимагає схвалення користувача; щоб зменшити втому від постійного схвалення, Anthropic також ввела sandboxing, що дозволяє Claude Code безпечніше працювати в межах передвизначеної файлової системи та мережевих обмежень.

Коли ШІ може виконувати команди та змінювати онлайн-код, вартість помилок стає зовсім іншою. Мета навчання також змінюється: від «написати правильно» до «написати безпечно, надійно та підтримувано».

Ці речі не можна отримати за допомогою звичайних кодових корпусів. Раніше вони приховувалися в код-рев’ю досвідчених інженерів, були досвідом, що передається від людини до людини. Зараз Anthropic хоче перетворити це на придатні дані, залучивши людей-експертів з програмування.

Snorkel — недооцінений «постачальник даних для зброї»

Справжнім головним героєм усього цього випадку є Snorkel.

Ця компанія вийшла з AI Lab Стенфорду у 2019 році і зробила ставку лише на одне: саме дані вирішують успіх чи невдачу машинного навчання, а не моделі чи обчислювальні потужності.

Двома ключовими засновниками Snorkel є Алекс Ратнер і його наставник із Стенфорду Кріс Рє, які вказують на академічні джерела Snorkel.

Алекс Ратнер, співзасновник і генеральний директор Snorkel AI

У 2015 році Snorkel був лише «проектом за обідом» під час навчання Ратнера в аспірантурі: замість того щоб витрачати великі кошти на найм персоналу для ручної мітковання даних, краще використовувати програми та правила для «слабкого нагляду» (weak supervision), щоб модель могла навчатися без ручної мітковання кожної окремої записи.

Завдяки цій ідеї Snorkel зібрав понад 60 наукових статей, а його відкритий інструментарій використовували Google та Intel, і лише у 2019 році він був офіційно розділений на окрему компанію.

Співзасновник Snorkel AI, професор Стенфордського університету Кріс Рє

Наставник Ратнера Кріс Рє — теж не м'який тип.

Він — професор Стэнфордського університету, лауреат премії «Геній МакАртур», підприємець з досвідом створення кількох стартапів, проекти якого були придбані Apple, а також засновник SambaNova, оцінка якої колись досягала 5 мільярдів доларів США.

Найцікавішим є поворот цієї компанії.

Те, що Snorkel мав зробити, — це вирішити давню проблему «ручної анотації, яка є повільною, дорогоЇ та нестабільною»: тоді приблизно 80% часу розробки ШІ витрачалося на ручну анотацію даних, тому початкова мрія Snorkel полягала в тому, щоб якомога більше звільнити людей від анотації.

Але з приходом ери передових моделей найбільш дефіцитним і найціннішим знову стало людське фактор — лише вже у вигляді смаку та суджень експертів, таких як доктори, лікарі, адвокати, досвідчені інженери. Ця компанія, яка почала з «мінімізації використання людей», зараз отримує найбільший прибуток від створення дорогих команд експертів для навчання передових ШІ, причому Marlin — лише одна з таких угод.

Його робочий процес ідеально відповідає вимогам проекту Marlin.

Офіційний сайт Snorkel описує цей робочий процес так: спочатку визначте завдання, критерії оцінки та валідатори, щоб чітко визначити «що вважається добре», а потім запустіть конвеєр експертної оцінки, де автор, кілька рецензентів та фінальний рішучий орган проводять багатоетапний контроль, зберігаючи повний історичний журнал.

На веб-сайті Snorkel зазначено: після виникнення розбіжностей у оцінках суддів вони вирішуються шляхом арбітражу та документуються в журналі змін критеріїв оцінки; кожна зміна може бути відстежена щодо того, хто, коли та на підставі чого її внесла.

Він також підготує середовище та дані для оцінки, щоб одні й ті ж завдання можна було багаторазово запускати на різних версіях моделей і отримувати відтворювані та порівнянні результати. Щоб результати були чистими та порівнянними, оцінювачі не повинні бути вплинуті версією. Це пояснює, чому ці зовнішні інженери не знають, яку саме версію вони оцінюють.

Ціни також дуже щось говорять.

Snorkel пропонує публічні юридичні позиції з оплатою від 10 до 100 доларів за якісне завдання; тоді як завдання з програмування в Marlin платять 280 доларів за завдання, що займає приблизно одну годину — це майже в 2,5 рази більше, ніж у суперників (Scale AI та Mercor платять інженерам по 110 доларів за годину). Топові експерти можуть заробляти більше 3000 доларів на тиждень.

Зворотний зв’язок від залучених інженерів Snorkel дійсно коштує дорого.

У списку клієнтів — Google, Mistral, Anthropic. У травні 2025 року Snorkel завершив раунд фінансування серії D з оцінкою 1,3 млрд доларів США.

Кейт Дженсен, керівник з доходів Anthropic, сказала, що для повного реалізування потенціалу Claude необхідно впровадити нові методи оцінки з участь експертів у галузі та зворотного зв’язку від людей, і Anthropic продовжуватиме співпрацювати з такими компаніями, як Snorkel.

Компанії Snorkel, Scale, Mercor раніше вважалися «платформами для анотації». Зараз вони стали прихованою ланкою ланцюга постачання для компаній, що розробляють передові моделі.

Це саме та невидима армія експертів, що розсіяна по всьому світу, які годують найрозумніший ІІ.

Кілька гігантів

Купують ті самі дані

Не тільки Anthropic купує реальні інженерні здібності. У цій гонці беруть участь кілька ключових гравців, просто різними методами.

Cursor йде шляхом продуктових даних.

Офіційно зазначено: після увімкнення режиму конфіденційності код ніколи не буде використовуватися ним або третіми сторонами для навчання; лише при вимкненні режиму конфіденційності можуть використовуватися дані кодового базису, запити, дії редагування та фрагменти коду для покращення функцій ШІ та навчання моделей.

Модель Tab Cursor щодня генерує понад 1 мільярд символів редагування, а кількість запитів зросла приблизно в 100 разів порівняно з початковою версією. Ще більш просунута Composer, навчена за допомогою підсиленого навчання (RL), дозволяє моделі вчитися використовувати інструменти редагування, пошуку та інші в багатьох середовищах кодування, щоб обробляти довгострокові інженерні завдання.

Найновіший Composer 2.5 тепер спеціалізується на довгострокових завданнях, які вимагають сотень кроків.

Маск використовує підхід з прив’язкою капіталу/опціоном на придбання.

У лютому цього року xAI було об’єднано з SpaceX. У кінці квітня SpaceX отримав право на придбання материнської компанії Cursor — Anysphere — за 60 мільярдів доларів США протягом року або спочатку вкласти 10 мільярдів доларів США у глибоку співпрацю. Маск цінує саме дані про поведінку найактивніших у світі розробників, якими володіє Cursor.

25 травня Маск оголосив у X, що навчання нової базової моделі Grok V9-Medium завершено, параметри — 1,5 трлн, що в 3 рази більше, ніж у поточних виробничих моделей. Він зазначив, що це результат до додавання даних Cursor; після додавання «здатність до програмування значно зросте». Модель очікується на початку червня.

Таким чином, V9 стане першим, хто систематично «з’їв» дані про реальну поведінку розробників.

Пізніше Codex від OpenAI також пішов цим шляхом. Codex, випущений у 2025 році, працює на codex-1 і, за словами OpenAI, навчався за допомогою підсиленого навчання на реальних завданнях програмування з метою написання коду, що схожий на людський стиль і відповідає практикам PR, а також повторного запуску тестів до їх успішного проходження; кожне завдання виконується в ізольованій пісочниці з передвстановленим вашим репозиторієм.

Зараз Codex був оновлений до агентної платформи OpenAI для кодування, яка працює на її передових моделях кодування; щотижня її використовують понад 5 мільйонів користувачів.

Вони борються за одне й те саме: дані процесу, просто різними шляхами.

Anthropic спочатку мала моделі, але їй не вистачало зворотного зв’язку з реальних умов розробки, тому вона витратила гроші, щоб найняти близько 1000 інженерів, щоб розбити процес програмної інженерії на дані, які можна вивчати;

Cursor спочатку має продукти та реальну поведінку користувачів, а також власні програмні моделі, такі як Tab, Composer тощо. Але порівняно з OpenAI та Anthropic, йому більше не вистачає загальних базових моделей та масштабних обчислювальних ресурсів для навчання;

Маску також не вистачає даних, тому він намагається за кілька сотень мільярдів доларів купити точку входу, яка постійно генерує дані про діяльність розробників;

У OpenAI не вистачає ні моделей, ні продуктів, тому вони створили сандбокс, де модель через підсилене навчання багато разів пробує, тестує, виправляє та ітерується на реальних завданнях кодування.

Кілька підходів, різних за методами, але з однією метою — використовують дані, все ближчі до реальних інженерних умов, для навчання своїх AI-моделей програмування.

Справжній захисний рів

Смак і судження людини

Існує стаття під назвою SWE-chat, яка вперше масштабно зібрала реальні діалоги із кодуванням агентів: 6000 сеансів, понад 63 000 запитів користувачів та 355 000 викликів інструментів.

Він дає досить болісну цифру: лише 44% коду, згенерованого агентами, в кінцевому підсумку потрапили до комітів користувачів. Більше половини було видалено, змінено або відкинуто.

SWE-chat у реальних умовах: vibe coding займає 41% сесій, але код, написаний агентом, потрапляє до коміту лише в 44% випадків; користувачі в 44% ітерацій діють як протидія, виправляючи, повідомляючи про помилки або перериваючи вивід моделі.

Це означає, що старі бенчмарки, такі як HumanEval, вже вичерпані, і просто дивитися на бали вже не має великого сенсу. Справжнім полем битви є дані, отримані в реальному процесі розробки — ті, що містять багаторазові спроби, помилки та повне переписування.

Чим сильніша модель, тим більше грошей потрібно витрачати на придбання тієї частини, яку людина ще не втратила: інженерної інтуїції.

Anthropic платить 280 доларів за завдання, залучити близько 1000 інженерів для A/B голосування: ця, на перший погляд, громіздка процедура, саме це й купується.

Хто зможе перетворити дані з місця будівництва на дані, які може опрацювати модель, той отримає квиток на наступний етап AI-програмування.

Anthropic наймає 1000 інженерів за 280 доларів за завдання, щоб покращити код Claude

Що саме було куплено за 280 доларів за годину?

Чому саме інженер?

Snorkel — недооцінений «постачальник даних для зброї»