Після того як ШІ з’їсть все, що залишається ненавчуваним?

Вступ: Коли здібності ШІ постійно стрімко зростають, інвестиційне середовище починає формувати новий пессимістичний погляд: якщо моделі стануть все потужнішими, всі компанії-застосунки рано чи пізно будуть поглинуті такими гравцями, як Anthropic, OpenAI, Nvidia — тобто шаром моделей та обчислювальних ресурсів, і на ринку залишаться лише передові моделі, обчислювальні потужності та кілька інфраструктурних компонентів. Але Сара Гуо вважає, що цей погляд правильний лише наполовину. Ті «тонкі оболонки» (прості оболонки моделей) дійсно будуть поглинуті, і будь-які завдання, які можна виміряти за стандартними тестами, навчити на відкритих даних та перевірити за низькою вартістю, також поступово перетворяться на товари.

Справжнє питання: що залишається ненавчуваним після того, як ШІ поглинув усе, що можна навчити?

Відповіддю на це є цінності, які існують всередині реальних організацій і не можуть бути легко скопійовані ззовні: корпоративні приватні дані, складні робочі процеси, користувацька довіра, системні дозволи, галузеві судження, відповідальність за дотримання нормативних вимог, а також досвід, накопичений протягом тривалого часу. Моделі можуть бути розумнішими, але не можуть автоматично отримати доступ до виробничих систем банку; можуть генерувати медичні відповіді, але не можуть безпосередньо отримати довіру лікарів та процеси прийняття рішень у лікарнях; можуть писати правові тексти, але не можуть брати на себе відповідальність за досвідчених юристів і не можуть визначити, що є кваліфікованою правовою роботою, просто так.

Тому справжніми перевагами майбутніх компаній зі штучним інтелектом будуть не просто більш розумні загальні моделі, а глибоке занурення в певну галузь та виконання складної, але ключової роботи «перекладу»: систематизація приватних реальностей, інструментів, процесів і критеріїв оцінки клієнтів у системи, які можуть діяти, та поступове визначення протягом тривалого часу того, «що вважати хорошим результатом». Чим сильніший штучний інтелект, тим більше вартість вимірюваних і повторюваних завдань знижується; тим більше виділяються ті «ненавчальні» речі, які мають історію, стосунки, повноваження та професійне судження. Саме це й є справжньою цінністю, яка залишиться після поглинання моделями.

Нижче наведено оригінал:

У середині 2026 року інвесторська версія «Шизофренія ШІ» — це відчуття безнадії, що нічого більше не варте інвестування: мовби ми мали б вкласти всі гроші в Anthropic і Nvidia, а потім піти додому спати. Але я ніколи не відчував такого. Уже кілька попередніх версій я впевнений, що моделі стали розумнішими за мене; я б був щасливий купити Anthropic і Nvidia за ринковою ціною; мої найрозумніші друзі також досить впевнені, що самовдосконалення моделей скоро справді зацейтиться — але я все ще не відчуваю цієї безнадії.

Цей відчай не є дурним. Його логіка така: якщо модель постійно стає сильнішою у всьому, то всі компанії, побудовані на основі моделі, є лише тонким шаром оболонки, що чекає на поглинання моделлю; нарешті, єдиною збереженою цінністю залишається обчислювальна потужність та ваги передових моделей.

Наприклад, з програмним забезпеченням — це найбільш виразний випадок, де це відчуття безвихідності виявляється найбільш сильно. Коли Devin був випущений у 2024 році, він міг вирішити лише 13% завдань у стандартних програмних тестах, тому його в основному ігнорували на ринку. Півтора року потому найпотужніші агенти досягли більше ніж 80% балів і почали виконувати реальні завдання всередині Goldman Sachs та армії США. Майже всі прийшли до однієї й тієї ж помилкової висновку: модель поглинула програмну інженерію.

Але коли модель засвоїла найлегшу для вимірювання частину програмної інженерії, ми також переосмислюємо те, що багато команд уже давно знали: інженерія завжди опиралася вимірюванню, і найлегші для вимірювання частини не обов’язково є єдиними важливими.

Мерт Демірер з МІТ та його співавтори нарешті кількісно оцінили це: серед понад 100 000 розробників найновіше покоління кодуючих агентів збільшило обсяг написаного коду приблизно на 180%, але обсяг коду, що був реально доставлений у виробництво, збільшився лише на 30%. Написання коду стало дешевшим, але решта етапів все ще вимагають участі людини, і ці етапи дуже важливі. Звичайно, загальний чистий вплив все ще захоплюючий.

Бенчмарки — це те, що можна виміряти; а все, що можна виміряти, можна використати для навчання. Тому агенти для кодування першими досягають зрілості: компілятори — це безкоштовні перевірники, а набори тестів також є безкоштовними перевірниками. Коли відповідь майже без витрат може сама себе перевірити, ви можете постійно вдосконалювати процес навколо цього сигналу перевірки, поки не досягнете ідеалу.

Але проходження тестів ніколи не означає, що ця зміна правильна для кодової бази, яка працює вже десять років. Модуль існує, можливо, через три причини, які ніхто не занотував у документації; конвеєр розгортання може триматися на ланцюжку cron job, ніхто не хоче признати, що він його написав.

Цю правильність неможливо визначити зі списку лідерів, навіть не можна безпосередньо прочитати з чогось іншого. Ви можете знати, чи дійсно система працює, лише запустивши таку складну систему у реальному світі на достатньо довгий час. Більш розумні моделі не прискорюють роботу реального світу. Ніхто не вірить системі розміром з Google лише тому, що вона пройшла юніт-тести і показала зелені галочки. Ви довіряєте їй, бо вона протягом років витримувала реальну навантаження.

Ця правильність не є приватною, а є повільно сформованою оборонною лінією, яку капітал не може безпосередньо скоротити. Навіть оптимісти погоджуються, що цей годинник не можна пропустити. Недавно Ноам Браун, піонер моделей міркувань OpenAI, написав: єдиним надійним способом оцінити продуктивність агента протягом річного циклу, мабуть, є дозволити йому справді працювати рік.

Як сказав Габе Перейра, справжня автоматизація — це не просто те, що моделі стають сильнішими. Це зміна продукту, моделі, робочих процесів та організації компанії разом, і з цих чотирьох троє рухаються зі швидкістю організації.

Змусити людей діяти — це те, чого не може досягти жоден тест: переконати скептично налаштованого партнера змінити свій підхід до справ, зберегти сплоченість команди під час відновлення. Саме тому під час найму генерального директора ми цінуємо його здатність працювати з людьми не менше, ніж аналітичні здібності. Те, що моделі стають розумнішими, не змінює цього пріоритету.

Ця відповідь нечітка, оскільки терміни вимірюються роками, а довіра належить конкретній особі. Кожна компанія, яку я знаю, вже дозволила кожному інженеру використовувати передові моделі кодування, але жодна інженерна організація не змінилася зі швидкістю, близькою до прогресу моделей. Впровадження інструментів зайняло лише квартал — і який чудовий квартал зростання токенів! Але справжня реконструкція вимагає років.

Роботи, які можна побачити, залишають нас. Справді цінні роботи за своєю природою незрозумілі: все, що можна включити до рейтингу, можна використати для навчання; отже, все, що можна виміряти, вже піддається комерціалізації. Цей процес потребує часу і ніколи не завершується повністю, але напрямок ніколи не змінюється на протилежний.

За словами мого друга, Метта Макінніса з Rippling, переклад цього на грошову мову такий: токен, який використовується лише для відповіді на загальне питання, майже не має цінності, бо будь-яка модель може на нього відповісти; але токен, який проводить міркування на основі даних вашої компанії, значно цінніший, бо він робить те, що вам дійсно потрібно, а не просто генерує правдоподібну відповідь.

Читабельна робота буде поглинута з двох сторін.

Знизу завдання насыщаються: як тільки роботу можна перевірити за низькою вартістю, покупці перестають цікавитися, яка модель її виконала, і починають питати, скільки це коштує. Тоді це завдання потрапляє до найбільш дешевого відкритого або дистильованого моделі того тижня. Доки маржа працює, вона в кінцевому підсумку обов’язково буде працювати.

З висоти пташиного польоту лабораторії намагаються змусити модель поглинути власну конструкцію. Маршрутизація між пошуком, дешевими та дорогими викликами, використання інструментів, навіть стратегії міркування — все, що колись оточувало модель ззовні, поступово втягується всередину ваг моделі, доки сама «оболонка» не перетворюється на модель. Ось і межа поглинання.

Тиск на прибуток також діє в іншому напрямку: універсальний агент повинен бути завжди готовим до обробки будь-чого, тому його витрати високі; а спеціалізована програма може оптимізувати робочий процес до максимуму, щоб вона витрачала лише невелику частину токенів. Крім того, на відміну від лабораторій, які продають ці токени, компанії-розробники програм можуть зберегти різницю в цінах собі.

Тому ми можемо поставити два питання до будь-якої роботи: чи є її правильність приватною та витратною, чи є це істина, що існує лише всередині даних певної компанії? Чи вона ізольована в системі, до якої зовнішній світ не має доступу? Поєднавши ці питання з рівнем насиченості завдання, ми отримуємо матрицю 2×2.

Роботи, які вже насичені та мають відомі відповіді, — це територія комерційних токенів, яку займатимуть відкриті моделі. Передові, але з відомими відповідями роботи, наприклад, тести з кодування, — це місце, де переможуть лабораторії, бо коли оцінка безкоштовна, сама власність не має ціни.

Справжній приз — це останній куток, тобто «ненавчальний» куток: передові роботи, але їхня правильність існує лише в приватному середовищі. Ви можете побачити це на хмарах висновку, що обслуговують перших піонерів, нативних для ШІ: більшість токенів генеруються спеціалізованими моделями, а не універсальними відкритими моделями.

Стіни, що ведуть до цього останнього кутка, мають різну висоту. Кодовий репозиторій розробника є переносним і стандартизованим, тому залізти всередину не складно. Але виробнича система банку ні переносна, ні стандартизована. Ви не отримаєте root-доступ до неї лише тому, що стали на 2% розумнішими на SWE-Bench Verified.

Здібності можуть поглинути багато речей, але кращі моделі не перетворюють приватні справжні стандарти на публічні. Вони не видають ліцензій, не беруть на себе відповідальність і не володіють корпоративними документами; коли відповідь помилкова, вони не можуть бути залучені до судових позовів. Тут обмеження — не в інтелекті, а в повноваженнях і відповідальності. Ви можете уявити модель, яка набагато розумніша за будь-кого, але вона все одно повинна отримати дозвіл увійти, і все одно хтось повинен підписати своє ім’я під тим, що вона робить.

У дверей є замок і засув.

Той замок — це середовище: лише після отримання довіри всередині системи, проходження безпекової перевірки, інтеграції та підписання контракту з відповідальністю за результати, ви зможете перевірити, чи справді ШІ виконує корисні дії.

Тим замком є користувач. Сьогодні більшість американських лікарів щодня відкривають OpenEvidence — цього не можна купити за будь-яку обчислювальну потужність. Лабораторія може навчити ідеальну медичну модель вже завтра, але все одно не зможе потрапити до звичок лікарів чи до процесів прийняття рішень у UCSF. Бо довіра виникає поступово — через стосунки та погодження користувачів, а не за допомогою градієнтного спуску, який намагається знищити це.

Саме цим і займаються компанії-розробники додатків. Те, що додаток може зайняти місце в «ненавчуваних» кутках, досягається завдяки не дуже блискучій роботі: упорядкуванню приватної реальності компанії, щоб модель мала можливість діяти на її основі; надання інструментів дій моделі; разом із клієнтами змінювати реальний спосіб функціонування їхньої робочої сили.

Компанія, яка може виконати таке «перекладання», важко відтворюється, і цей переклад ніколи не закінчується. Інтеграція та підтримка триватимуть разом із клієнтськими відносинами. Переможцями стають команди, які розміщують інженерів з глибокими знаннями у сфері та інструменти поруч із клієнтами.

Наприклад, у провідній старій юридичній фірмі лише злиття та поглинання становлять майже тисячу угод на рік. Ви не можете дозволити сотням юридичних асистентів завантажувати файли клієнтів на стільницю, а потім передавати їх універсальному агенту для прочитання. Це заборонено з міркувань конфіденційності, не кажучи вже про десятки інших проблем. Навіть якби це було можливо, ви б отримали лише фрагментарні дані: один асистент виправляє по одному елементу, і ніхто не бачить, як повністю проходить вся угода.

Справжні важливі сигнали існують на рівні угоди. Угода має власну форму: для злиттів і поглинань — це NDA, список умов, ділова перевірка, угода про купівлю, додаткові документи, перелік передачі; для справ про інтелектуальну власність — це позовні заяви, розкриття доказів, рівень технологій, ще більше позовних заяв. Кожна галузь бізнесу має власну структуру, а адвокати та інструменти не можуть випадково обмінюватися.

Але справжня проблема, яку ця юридична фірма має вирішити, знаходиться на вищому рівні: як одночасно керувати кожним напрямком бізнесу, як топ-партнери, які паралельно керують сотнями завдань, одночасно привертаючи нові справи та навчаючи стажерів. Перетворення такої компанії — це не одна окрема задача, яку можна описати як тестове завдання. Для цього потрібен менеджер, який буде працювати з нею, як з «данним бейсболом»: проміжні цілі надзвичайно нечіткі, зворотний зв’язок неповний, цикли дуже довгі, а саме середовище ніколи не залишається нерухомим.

На жаль, незрозумілі цінності також важко продавати, тому що причина та ж, що й ускладнення їх комерціалізації: компанія не може ззовні визначити, чи здатна ШІ справді перетворити її операції, як це показують тести. Тому найсильніші компанії припиняють спроби довести це ззовні і замість цього спочатку входять всередину клієнта, а потім встановлюють ціну за результат.

Sierra стягує плату лише тоді, коли її агент вирішує проблему клієнта; якщо проблему передають людині, вона не стягує плату. Тому ціна сама по собі перетворюється на механізм оцінки. І це працює, бо Sierra має право визначати, що означає «вирішено». Cognition з Devin зробила те саме в сфері програмного забезпечення, запровадивши «гарантію продуктивності». Лише тоді, коли вам довіряють і ви отримуєте доступ до внутрішньої частини системи, ви маєте право надавати таку гарантію результату.

Навіть на рівні надання послуг з токенів — того, що всі називають чистим товаром — його поведінка не схожа на товар. Найкращі AI-напрямлені компанії зосереджують свої послуги на одній або двох постачальниках, наприклад Baseten або Fireworks. Оскільки вартість кожного токена з часом прагне до товарної ціни, але надійність при реальному трафіку та стабільний доступ до обмежених обчислювальних ресурсів не стають товаром. Місце надання послуг інференсу та вибір моделей — це два різні рішення. Єдина справжньо товарна частина інференсу — це ціна.

Поширена заперечення: лабораторія — це твій постачальник, чому вона не буде продавати власний продукт першої сторони нижче собівартості, щоб знищити тебе? Або просто відкликатиме твій доступ до API й забере цей ринок собі? Ось справжня версія того, що викликає відчай. Але це працює лише тоді, коли модельний рівень — це гра для одного.

Звичайно, це не так. Рівень моделей схожий на смертельну гру з участью трьох з половиною гравців, біля якої знаходиться група міжнародних гравців, які відстають на шість місяців у навчанні, а також альянс розвитку, який у п’ять разів більший, ніж у минулому році. Клієнти хочуть конкуренції між своїми постачальниками, а лабораторії прагнуть до частки ринку, а не до знищення будь-якої конкретної застосунку.

Це можна побачити на ринку, де можна прямо конкурувати. У сценаріях чатів для споживачів найкращі моделі ніколи просто не захоплювали весь ринок. ChatGPT протягом багатьох років реальної конкуренції залишався лідером; втрачені ним частки ринку перейшли до Gemini через можливості розповсюдження через Android і пошук, а не через кращу якість моделі. Anthropic зараз вважається володарем найкращої моделі на прогнозних ринках і в інтернет-середовищі, але в споживчих чатах вона майже не є ключовим гравцем, а замість цього створила свій бізнес у сфері підприємств і кодування.

Якщо краща модель не може відібрати користувачів у конкурентів у найважливіших застосунках, вона не зможе легко завоювати систему медичних карток лікарні чи систему відповідальності банку. Сьогодні громадськість вибирає продукти не лише на основі кодування. Якщо шар передових моделей залишається переповненим, тоді шар застосунків над ним матиме цінність.

Якщо роботу неможливо оцінити ззовні, тоді всередині хтось повинен вирішити, що вважати правильною відповіддю. І саме це рішення і є весь ігровий процес. Коли достатньо таких рішень буде зафіксовано, вони перетворюються на бенчмарки. Harvey опублікував бенчмарки для юридичної сфери, Sierra — для голосових агентів. Ви маєте право визначати, що означає «добре» у цій галузі, тому що ця галузь вже використовує вас. А ці компанії здобули це право через складні боротьби на етапі реального впровадження.

Оцінка, яка справді визначає напрямок потоків грошей, є приватною та формується окремо для кожної компанії: які роботи ця компанія вважатиме придатними для цих питань. І цей процес далеко не завершений, оскільки глибина законодавства значно перевищує будь-які публічні тести. OpenEvidence збирає те, що є безпечними клінічними відповідями.

Усе це насправді не є «вимірюванням» у справжньому сенсі, а стосується суджень про те, що є істинним і що є добрих. Ці судження фіксуються, доки не перетворюються на стандарти, які всі інші повинні прийняти для вимірювання. Незалежно від того, наскільки розумними стають лабораторії базових моделей, вони не можуть написати ці стандарти з нізвідки, бо такий статус існує лише всередині сфери.

Ця авторитетність зазвичай залишається там, де вона вже існувала. Досвідчені юристи формулюють правові стандарти. Лікарі визначають безпечні клінічні відповіді. Те, що означає «розв’язано», вирішує компанія, яка вже має відносини з клієнтом.

Межі поглинання продовжуватимуть підніматися, оскільки ми постійно навчатимемося вимірювати більше робіт, а все, що можна виміряти, буде поглинатися. Невимірювана основа під ногами тих, хто на ній стоїть, постійно скорочуватиметься, тому ви не можете зупинитися, знайшовши позицію, яку можна захистити. Ви повинні постійно рухатися туди, де ще неможливо поставити оцінку, і постійно переоцінювати та перестраховувати ризики.

На вузькій задачі, використовуючи ваші власні дані та систему оцінки, ви можете навчити модель до передового рівня і перемогти універсальні моделі в ключових сценаріях; ця спеціалізована модель стане частиною вашої конкурентної переваги. З іншого боку, якщо ви конкуруєте з можливостями універсальних моделей, це війна капіталу, і ви програєте тим, хто має найбільші обчислювальні ресурси. Саме це — найпоширеніша пастка для компаній, які мають лише поверхневий доступ до даних і чиї завдання легко читаються.

Коли компанія вирішує навчити модель перевершити сучасні досягнення на величезній кількості загальних завдань, щоб вижити, перемога зазвичай визначається розміром центру обробки даних. Остаточний результат часто не полягає у виникненні незалежного чемпіона, а у продажу одному з гравців із достатньою обчислювальною потужністю.

Все це — оборона. Складніше — атака: спочатку вирішити, що саме будувати. Ось що я шукав усій цей рік, і знайшов, мабуть, лише три рази. Моделі тут не допоможуть. Куди ти її спрямуєш — те вона й зробить; але вона не скаже тобі, що варто спрямовувати. Ти не можеш створити для цього бенчмарки, отже, не можеш її навчити.

Також саме тому величезні гравці не зможуть захопити все: вони зберігатимуть свої вже зайняті позиції, а наступне відкриття прийде від того, хто знайде застосування раніше за інших. Можливо, намір — це більш обмежений ресурс, ніж обчислювальна потужність.

Це відчуття безвихідності наполовину правильне. Тонка оболонка дійсно поглинається, і багато того, що сьогодні виглядає як компанія, дійсно є лише тонкою оболонкою. Але його висновок щодо «того, що залишиться після поглинання» — неправильний. Механізм зрозумілий, але кінцева точка — ні.

Я готовий робити ставки саме на цей напрямок: інтелект продовжуватиме ставати дешевшим, а цінність продовжуватиме зсуватися до областей, недоступних для кількох моделей. Невідтворюване — це цінність з історією.

Отже, увійдіть в одну з цих сфер, виконуйте цю непривабливу роботу з перекладу і почніть записувати те, що означає «добре» там. Бо хтось завжди це робитиме. Найбільш цитований у цьому році показник тестування — це насправді карта, яка скоро стане безцінною, і повідомлення: повідомлення для деяких людей, що вони скоро втратять право визначати, що таке «добре».

[Посилання на оригінал]

Лють BlockBeats