Введение: По мере постоянного скачка возможностей ИИ в инвестиционном сообществе возникает новый пессимистичный взгляд: если модели станут все сильнее, все прикладные компании в конечном итоге будут поглощены такими игроками, как Anthropic, OpenAI и Nvidia, — рынок останется лишь с передовыми моделями, вычислительными ресурсами и небольшим количеством инфраструктуры. Однако Сара Гуо считает, что это суждение верно лишь наполовину. Те «тонкие оболочки» (простые обертки моделей) действительно будут поглощены, и любые задачи, которые можно измерить с помощью бенчмарков, обучить на открытых данных и недорого проверить, постепенно станут товарами.
Настоящий вопрос: что останется нетренируемым после того, как ИИ поглотит всё, что можно обучить?
Ответом на этот вопрос являются ценности, существующие внутри реальных организаций и которые невозможно легко скопировать извне: корпоративные частные данные, сложные рабочие процессы, доверие пользователей, системные права, отраслевая экспертиза, обязанности по соблюдению нормативных требований и опыт, накопленный в процессе длительной эксплуатации. Модели могут стать умнее, но не могут автоматически получить доступ к производственным системам банка; могут генерировать медицинские ответы, но не могут напрямую завоевать доверие врачей и включиться в процессы принятия решений в больнице; могут писать юридические тексты, но не могут брать на себя ответственность за опытных юристов и не могут определить, что такое квалифицированная юридическая работа, просто так.
Поэтому настоящими конкурентными преимуществами в будущем будут не просто более умные ИИ-компании по сравнению с универсальными моделями, а те, кто глубоко проникает в отрасль и выполняет сложную, но ключевую работу «перевода»: систематизирует частные реалии, инструменты, процессы и критерии оценки клиентов в виде системы, которую модель может использовать, и в процессе долгосрочного обслуживания постепенно определяет, что именно считать «хорошим результатом». Чем сильнее ИИ, тем больше обесцениваются измеримые и воспроизводимые задачи; тем ярче выделяются те «ненаучаемые» элементы, которые связаны с историей, отношениями, полномочиями и профессиональным суждением. Именно это и остается настоящей ценностью, которая сохраняется даже после того, как модель «поглотила» всё остальное.
Следующий текст:
В середине 2026 года инвесторская версия «ИИ-безумия» — это отчаяние, ощущение, что больше не осталось ничего, в что стоит инвестировать: кажется, мы должны вложить все деньги в Anthropic и Nvidia и пойти домой спать. Но я никогда не испытывал такого чувства. На протяжении нескольких предыдущих версий я был уверен, что модели уже умнее меня; я был бы рад купить Anthropic и Nvidia по рыночной цене; мои самые умные друзья также вполне уверены, что самосовершенствование моделей вскоре действительно заработает — но я всё ещё не испытываю этого отчаяния.
Это отчаяние не глупо. Его логика такова: если модель постоянно становится сильнее во всем, то все компании, построенные на основе модели, являются лишь тонким слоем оболочки, ожидающим поглощения моделью; в конечном итоге останется лишь стоимость вычислительных мощностей и передовых весов модели.
На примере программного обеспечения это наиболее яркий случай, на котором основывается такое чувство отчаяния. Когда Devin был выпущен в 2024 году, он мог решить только 13% задач в стандартных программных тестах, поэтому его в целом игнорировали на рынке. Через полтора года самые мощные агенты уже показывали результат более 80% и начали выполнять реальные рабочие задачи внутри Goldman Sachs и армии США. Почти все пришли к одному и тому же ошибочному выводу: модель поглотила программную инженерию.
Но когда модель поглотила самую легко измеримую часть программной инженерии, мы снова осознаем то, что многие команды уже давно знали: инженерия всегда сопротивлялась измерению, и самая легко измеримая часть не обязательно является единственной важной.
Мерт Демирер из MIT и его коллеги наконец-то количественно оценили это: среди более чем 100 000 разработчиков новое поколение кодирующих агентов увеличило объем написанного кода примерно на 180%, но объем кода, действительно доставленного в продакшн, вырос лишь на 30%. Написание кода стало дешевле, но остальные этапы по-прежнему требуют участия человека, и эти этапы крайне важны. Конечно, общее чистое влияние все равно впечатляет.
Бенчмарки — это то, что можно измерить; а всё, что можно измерить, можно использовать для обучения. Поэтому агенты для написания кода стали первыми, кто достиг зрелости: компиляторы — это бесплатные валидаторы, наборы тестов — тоже бесплатные валидаторы. Когда ответ можно почти без затрат проверить самостоятельно, вы можете постоянно оттачивать его вокруг этого сигнала проверки, пока не добьётесь идеального результата.
Но прохождение тестов никогда не означает, что это изменение правильно для кодовой базы, которая работает уже десять лет. Этот модуль может существовать по трем причинам, которые никто не записал в документацию; конвейер развертывания может работать лишь благодаря cron-задаче, которую никто не хочет признавать своей.
Эту корректность нельзя прочитать из рейтинга, даже нельзя напрямую прочитать из чего-либо еще. Вы можете узнать, действительно ли он эффективен, только позволив такой сложной системе работать в реальном мире достаточно долго. Более умные модели не ускоряют работу реального мира. Никто не будет полностью доверять системе размером с Google, просто увидев зеленую галочку после прохождения юнит-тестов. Вы доверяете ей, потому что она уже выдержала годы реальной нагрузки.
Эта точность не только приватна, но и представляет собой медленно формирующуюся защитную стену, которую капитал не может напрямую сократить во времени. Даже оптимисты признают, что этот часы нельзя пропустить. Недавно Ноам Браун, пионер модели рассуждений OpenAI, написал: единственный надежный способ оценить производительность агента за годовой цикл — это позволить ему действительно работать в течение года.
Как сказал Габе Перейра, настоящая автоматизация — это не просто усиление моделей. Это изменение продукта, модели, рабочих процессов и организации компании вместе, причем три из этих четырех элементов движутся со скоростью организации.
Заставить людей действовать — это то, чего не могут достичь никакие тесты: убедить скептически настроенного партнера изменить подход к делам, сохранить сплоченность команды в процессе реконструкции. Именно поэтому при найме генерального директора мы уделяем равное внимание его способности работать с людьми и аналитическим навыкам. То, что модели становятся умнее, не меняет этого веса.
Здесь обратная связь расплывчата, временной масштаб измеряется в годах, а доверие принадлежит конкретному человеку. Каждая компания, которую я знаю, уже заставила каждого инженера использовать передовые кодовые модели, но ни одна из инженерных организаций не изменилась с тем же темпом, с которым развиваются модели. Внедрение инструментов заняло всего один квартал — и какой чудесный квартал роста токенов это был! Но настоящая реконструкция требует нескольких лет.
Работы, которые можно разобрать, уходят. Настоящее ценное дело по своей природе нечитаемо: всё, что можно поместить в рейтинг, можно использовать для обучения; следовательно, всё, что можно измерить, уже находится на пути к коммерциализации. Этот процесс требует времени и никогда не завершится полностью, но направление никогда не меняется на обратное.
Словами моего друга Мэтта МакИнниса из Rippling, переведя это на язык денег: токен, который используется только для ответа на общий вопрос, почти не стоит ничего, потому что любая модель может ответить на него; но токен, который проводит рассуждения на основе данных вашей компании, стоит гораздо больше, потому что он делает то, что вам действительно нужно, а не просто генерирует правдоподобный ответ.
Читаемые работы будут поглощены с двух сторон.
Снизу задачи насыщаются: как только работу можно проверить за низкую стоимость, покупатели перестают заботиться, какая модель её выполнила, и начинают спрашивать, сколько она стоит. В результате эта задача переходит к самому дешёвому открытому или дистиллированному модели недели. При условии, что маржа прибыли работает — в конечном счёте она обязательно заработает.
Сверху видно, как лаборатории пытаются заставить модель поглотить собственную опалубку. Маршрутизация между извлечением данных, дешевыми и дорогими вызовами, использование инструментов и даже стратегии рассуждений — все устройства, когда-то окружающие модель, постепенно втягиваются внутрь весов модели, пока сама «оболочка» не превращается в модель. Это граница поглощения.
Давление на прибыль также действует и в другом направлении: универсальный агент должен быть готов обрабатывать любые задачи в любое время, поэтому его стоимость высока; в то время как целевое приложение можно оптимизировать до предела, чтобы оно потребляло лишь небольшую часть токенов. Кроме того, в отличие от лабораторий, продающих эти токены, компании-разработчики приложений могут оставить себе разницу в цене.
Таким образом, мы можем задать два вопроса к любой работе: является ли ее корректность частной и дорогостоящей, и является ли она истиной, существующей только внутри данных какой-либо компании? Находится ли она в изолированной системе, недоступной для посторонних? Сопоставив эти вопросы с уровнем насыщенности задачи, мы получим матрицу 2×2.
Работы, которые уже насыщены и с открытыми ответами, — это сфера коммерциализированных токенов, где доминируют открытые модели. Передовые, но с открытыми ответами работы, такие как кодировочные бенчмарки, — это область, где победят лаборатории, поскольку, когда оценка бесплатна, сама по себе обладание ею не имеет ценности.
Настоящий приз — это последний угол, угол «необучаемости»: передовые работы, чья корректность существует только в закрытой среде. Вы можете увидеть это на облаках для вывода, обслуживающих первопроходцев, ориентированных на ИИ: подавляющее большинство токенов генерируются специализированными моделями, а не универсальными открытыми моделями.
Стены, ведущие к этому последнему углу, разной высоты. Кодовая база разработчика — переносимая и стандартизированная, поэтому проникнуть внутрь несложно. Но производственная система банка не переносима и не стандартизирована. Вы не получите root-доступ к ней, просто став на 2% умнее на SWE-Bench Verified.
Интеллект способен поглотить множество вещей, но более совершенные модели не превращают частные истинные стандарты в публичные. Они не имеют лицензий, не несут ответственности и не владеют корпоративными документами; когда ответы ошибочны, они не могут быть привлечены к ответственности. Здесь узким местом является не интеллект, а полномочия и ответственность. Вы можете представить модель, намного умнее любого человека, но она всё равно должна быть допущена внутрь, и всё равно кто-то должен поставить свою подпись за то, что она делает.
На двери есть замок и засов.
Этот замок — среда: только после получения доверия внутри системы, прохождения безопасного аудита, интеграции и подписания контракта с ответственностью за результат вы сможете проверить, действительно ли ИИ выполнил полезную работу.
Пользователь — это тот самый засов. Сегодня большинство американских врачей ежедневно открывают OpenEvidence — это невозможно купить за любые вычислительные мощности. Лаборатория может завтра обучить идеальную медицинскую модель, но она всё равно не сможет проникнуть в привычки использования врачей или в процессы принятия решений UCSF. Потому что доверие строится постепенно — через отношения и молчаливое согласие пользователей, а не путём стирания всего этого с помощью градиентного спуска.
Именно это и есть работа прикладных компаний. То, что приложение занимает место в «ненастраиваемых» углах, достигается благодаря неприметной работе: упорядочиванию частной реальности компании, чтобы модель могла действовать на её основе; предоставлению модели инструментов для действий; совместном изменении реального способа функционирования рабочей силы клиента.
Сложно скопировать компанию, способную выполнить такой «перевод», и этот перевод никогда не закончится. Интеграция и поддержка будут продолжаться вместе с клиентскими отношениями. Победят те команды, которые размещают инженеров-экспертов в области и инструменты рядом с клиентами.
Например, в ведущей старой юридической фирме только сделки по слияниям и поглощениям ежегодно составляют почти тысячу транзакций. Вы не можете заставлять сотни помощников юристов скачивать файлы клиентов на свои рабочие столы, а затем передавать их универсальному агенту для прочтения. Это запрещено по соображениям конфиденциальности, не говоря уже о десятках других проблем. Даже если бы это было возможно, вы бы получили лишь фрагментарные данные: один помощник исправляет по чуть-чуть, и никто не видит, как вся транзакция движется целиком.
На самом деле важные сигналы существуют на уровне сделок. Каждая сделка имеет свою структуру: для слияний и поглощений — это NDA, список условий, дилижент, соглашение о покупке, сопутствующие документы, чек-лист закрытия; для споров по интеллектуальной собственности — это ходатайства, дисковер, уровень технологии, еще больше ходатайств. Каждая бизнес-сфера имеет свою структуру, и юристы с инструментами не могут произвольно заменять друг друга.
Но настоящая проблема, которую эта юридическая фирма должна решить, находится на более высоком уровне: как одновременно управлять всеми бизнес-направлениями, как старшие партнеры, которые параллельно управляют сотнями задач, привлекают новые дела и обучают ассистентов-юристов. Преобразование такой компании — это не одна задача, которую можно описать в виде оценочного задания. Для этого нужен менеджер, который будет подходить к ней так же, как к игре в «данные бейсбола»: промежуточные цели крайне нечеткие, обратная связь неполная, циклы чрезвычайно длинные, а сама среда никогда не остается неизменной.
К сожалению, непонятные ценности также трудно продать, потому что компания не может извне определить, сможет ли ИИ действительно преобразовать её операции, как показывают тесты. Поэтому сильнейшие компании перестают пытаться доказать свою ценность внешнему миру и вместо этого сначала внедряются внутрь клиентов, а затем оценивают результаты.
Sierra взимает плату только в том случае, если её агент решил проблему клиента; если проблема передаётся человеку, плата не взимается. Таким образом, сама цена превращается в механизм оценки. Это работает, потому что Sierra обладает правом определять, что считается «решённым». Cognition сделал то же самое в сфере программного обеспечения с Devin, предложив «гарантию производительности». Только когда вам доверяют и позволяют войти внутрь системы, вы имеете право давать такие гарантии по результатам.
Даже на уровне предоставления услуг по токенам — том самом уровне, который все любят называть чистым товаром — его поведение не похоже на товар. Лучшие AI-натуральные компании сосредотачивают свои услуги на одном-двух поставщиках, таких как Baseten или Fireworks. Потому что стоимость за токен со временем стремится к товарной цене, но надежность при реальном трафике и стабильный доступ к дефицитным вычислительным ресурсам не поддаются товарной стандартизации. Место предоставления сервиса инференса и выбор используемых моделей — это два разных решения. Единственная по-настоящему товарная составляющая в инференсе — это цена.
Частый возражение: лаборатория — ваш поставщик, почему бы ей не продавать собственный продукт первого лица ниже себестоимости, чтобы выйти из игры? Или просто отозвать ваш доступ к API и забрать весь рынок себе? Это и есть настоящая версия отчаяния. Но оно верно только в том случае, если модельный слой представляет собой игру в одиночку.
Очевидно, что это не так. Уровень моделей напоминает смертельную гонку между тремя с половиной участниками, рядом с которой находятся международные игроки, отстающие на шесть месяцев в обучении, и альянс развития, в пять раз превышающий размер прошлогоднего. Клиенты хотят конкуренции между своими поставщиками, а лаборатории стремятся к доле рынка больше, чем к уничтожению какого-либо конкретного приложения.
Вы можете увидеть это на рынке, где лаборатории конкурируют напрямую. В сценариях чатов для потребителей лучшие модели никогда просто не захватывали весь рынок. ChatGPT сохранял лидерство в течение многих лет реальной конкуренции; потерянная им доля рынка сейчас перешла к Gemini, и причина — распределение через Android и поиск, а не лучшее качество модели. Anthropic в настоящее время считается обладателем лучшей модели на прогнозных рынках и в интернет-среде, но в потребительских чатах она почти не является ключевым игроком, а создала свой бизнес в корпоративных и кодирующих сценариях.
Если даже более совершенная модель не может отобрать пользователей у конкурентов в самых ключевых приложениях, она не сможет легко завоевать систему медицинских карт больницы или систему ответственности банка. Сегодня потребители выбирают продукты не только на основе кодирования. Если слой передовых моделей остается переполненным, то слой приложений над ним будет иметь ценность.
Если работу нельзя оценить извне, то внутри должен быть кто-то, кто решает, что считать хорошим ответом. И это решение — и есть сама игра. Достаточно много таких решений, зафиксированных на бумаге, превращаются в бенчмарки. Harvey опубликовал бенчмарки для юридической сферы, Sierra — для голосовых агентов. Вы имеете право определять, что значит «хорошо» в этой области, потому что эта область уже использует вас. А эти компании завоевали это право через трудные борьбы в процессе реального внедрения.
Оценка, которая действительно определяет потоки денег, является частной и формируется от компании к компании: какая работа считается хорошей для этой компании в таких вопросах. И это далеко не завершено, поскольку глубина законодательства намного превышает любой публичный тест. OpenEvidence выявляет, что представляет собой безопасный клинический ответ.
Все это на самом деле не является настоящим «измерением», а связано с суждениями о том, что истинно и что хорошо. Эти суждения фиксируются на бумаге, пока не становятся стандартами, которые все остальные должны принять для оценки. Независимо от того, насколько умными становятся лаборатории базовых моделей, они не могут создать эти стандарты из ничего, поскольку такой статус существует только внутри самой области.
Такая авторитетность часто остается там, где она уже существует. Опытные юристы формулируют правовые стандарты. Врачи определяют безопасные клинические ответы. То, что означает «решено», решает компания, уже имеющая отношения с клиентом.
Границы поглощения будут продолжать расширяться, поскольку мы будем постоянно учиться измерять все больше задач, а все, что можно измерить, будет поглощено. Невозможная для обучения поверхность будет сужаться под ногами стоящих на ней людей, поэтому вы не можете остановиться, найдя защищаемую позицию. Вы должны постоянно двигаться в направлении тех областей, которые еще нельзя оценить, и постоянно переоценивать и пересматривать риски.
На узкой задаче, используя ваши собственные данные и систему оценки, вы можете обучить модель до передового уровня и превзойти универсальные модели в ключевых сценариях; такая специализированная модель станет частью конкурентного преимущества. С другой стороны, если вы конкурируете на уровне возможностей универсальных моделей, это война капитала, и вы проиграете тем, кто обладает наибольшими вычислительными ресурсами. Именно в эту ловушку最容易 попадают компании с ограниченным доступом и высоко читаемыми задачами.
Когда компания решает тренировать модель, превосходящую передовые достижения, на широком спектре общих задач ради выживания, исход обычно определяется масштабом центров обработки данных. Финал часто не состоит в появлении независимого победителя, а заключается в продаже компании игроку с достаточными вычислительными ресурсами.
Всё вышеперечисленное — это оборона. Сложнее — атака: сначала нужно решить, что именно строить. Именно это я искал весь этот год, и нашёл примерно только три раза. Модели здесь не помогут. Куда вы её направите, то она и сделает; но она не скажет вам, что стоит направить. Для этого нельзя создать тесты, следовательно, нельзя её и обучить.
Вот почему крупные игроки не заберут всё: они будут защищать свои уже занятые позиции, а следующее открытие придёт от того, кто найдёт применение раньше других. Возможно, намерение — более редкий ресурс, чем вычислительная мощность.
Это отчаяние наполовину справедливо. Тонкая оболочка действительно поглощается, и многое из того, что сегодня выглядит как компании, на самом деле является лишь тонкой оболочкой. Но его суждение о том, «что останется после поглощения», неверно. Механизм ясен, а конечная точка — нет.
Я готов сделать ставку на то, что интеллект будет продолжать становиться дешевле, а ценность будет продолжать смещаться в направлении, недоступном для нескольких моделей. Невозможно обучаемое — это то, что несет в себе историческую ценность.
Так что войдите в одну из этих сфер, займитесь этой неприметной переводческой работой и начните записывать, что такое «хорошо» в этом контексте. Потому что кто-то обязательно это сделает. Самый часто цитируемый в этом году показатель тестирования — это на самом деле карта, которая скоро обесценится, и уведомление: у некоторых людей скоро отберут право определять, что такое «хорошо».
[Исходная ссылка]
BlockBeats
