Стартапи з вертикальним штучним інтелектом виживають на тлі домінування загальних моделей

Інтелект починає зростати нелінійно, основна логіка компаній у сфері ШІ переписується.

Автор статті, джерело: GeekPark

90% — це ймовірність невдачі стартапів у сфері ШІ, яку оцінили інвестори для 2026 року.

У квітні AI-платформа для оцінки моделей Yupp, яка отримала 33 мільйони доларів США у серії seed-фінансування під проводом a16z, раптово оголосила про припинення роботи. Платформа, яку підтримували такі велетні Сіліконової долини, як головний науковець Google Джефф Дін та співзасновник Twitter Біз Стоун, за менше року зібрала 1,3 мільйона користувачів, але раптово була зупинена засновниками. Незважаючи на наявність значної кількості коштів на балансі, засновники вже не бачили перспектив. «Тільки за останній рік структура здібностей AI-моделей зазнала величезних змін. Майбутнє — це не просто моделі, а системи агентів», — написав засновник Yupp Панкадж Гупта у своєму прощальному блозі.

У той самий період компанія з AI-зображеннями NeuroPixel припинила діяльність через стрімке підвищення здатностей великих моделей, таких як Google NanoBanana Pro. Засновник NeuroPixel використав одне слово, щоб описати цю поразку: outgunned — «за одну ніч були повністю подолані».

На тлі інтелектуального стрибка базових моделей межі здатностей ШІ постійно розширюються: спочатку діалогові вікна витіснили пошук, і користувачам більше не потрібно прокручувати сторінки для пошуку результатів. Потім агенти почали витісняти програмне забезпечення — інтелектуальний агент, який може викликати інструменти та розбивати завдання, може виконувати те, що раніше вимагало цілого набору меню та додатків. Коли ШІ зможе безпосередньо писати код, викликати інтерфейси та виконувати завдання на терміналі, межі традиційних програмних систем також перетворюються.

Для продукт-менеджерів важливо розглянути перевизначення форми продукту та способів взаємодії. Для засновників ж перед ними постало питання, що вирішує життя чи смерть:

Коли інтелект базових моделей стає все сильнішим, як мені правильно підприємництво? Як зробити так, щоб мої поточні справи не були повністю поглинуті наступним оновленням моделі?

Засновник FlashLabs Ши Ї, протягом останнього року жив у цьому питанні. Він прийняв серію рішень, які зовнішньому спостерігачеві здавалися дуже протилежними логіці: переглянув дорожню карту продукту, навмисно скоротив команду, відмовився від короткострокових комерційних показників і навіть змінив назву компанії. Ми поговорили з ним про те, як раніше спеціалізовані AI-стартапи можуть вижити в епоху еволюції універсальних моделей.

01 Зміна назви, зменшення розміру, перехід на AI-натуральну модель: життєво необхідна трансформація, спричинена великими моделями

Чуття кризи не з’явилося перед засновниками сьогодні. Ще наприкінці 2024 року Ши Ї відчув, що інтелектуальне розвиток універсальних моделей відбувається занадто швидко.

Першим, що викликало у нього підозру, було зникнення AI-унікорна Jasper. Ця зіркова компанія, яку вважали еталоном у сфері застосунків ШІ, за 18 місяців досягла оцінки в 1,5 мільярда доларів, але після відкриття вбудованих можливостей GPT її дохід скоротився наполовину. «ARR Jasper безпосередньо зменшився вдвічі,» згадує Ши Ї, «тобто всі компанії, що працювали з NLP, поступово будуть поглинуті великомасштабними моделями, оскільки їхні можливості постійно зростають.»

Це судження було як голка, що вп’ялася йому в серце, викликаючи прихований непокій. Тоді його компанія ще називалася FlashIntel і займалася відносно традиційним бізнесом To B SaaS. Згідно з традиційною логікою To B SaaS, якщо ти накопичиш достатньо галузевих даних у досить вузькій ниші, створиш технологічний бар’єр, що відповідає нормам і є безпечним, — ти обов’язково знайдеш ринковий простір для існування. Але зараз все це більше не працює.

«Чи зіткнуся я з тими самими проблемами, що й я?» — це питання почало повторюватися в його міркуваннях. Швидко він усвідомив, що його дії суттєво не відрізняються від дій Jasper, і всі попередні продуктові системи були побудовані на припущенні, що модель не зможе перевершити спеціалізовані моделі. Як тільки базова модель досягне певного критичного рівня інтелекту, усі інженерні рішення та оптимізації сценаріїв, побудовані поверх спеціалізованих продуктів, можуть за одну ніч втратити будь-яку перевагу.

Отримавши висновок, він негайно підняв цей ключовий питання на найвищий пріоритет корпоративної стратегії, змусивши команду прийняти рішення: компанія повинна повністю перейти від SaaS до AI Native.

Ця зміна не відбувається миттєво. Його першим питанням було: яка організаційна структура потрібна наступному поколінню AI-компаній?

Він вважає, що зараз компанії більше не варто прагнути до збільшення кількості співробітників та дрібного розподілу обов’язків. «У епоху ШІ чим більше людей, тим гірше вони використовують ШІ, бо чим дрібніше розподілені обов’язки, тим більше кожен залежить від своєї вузької сфери». Він почав свідомо скорочувати команду і повністю змінив критерії найму: замість «досвіду та проектів» тепер акцент робиться на «способі мислення та повноцінних навичках». Він також змінив методи тестування кандидатів: замість аналізу минулих резюме чи досвіду він просто дає кандидатам завдання, щоб побачити, чи зможуть вони за допомогою ШІ повністю виконати роботу як фронтенд, так і бекенд. «Той, хто зможе це зробити, обов’язково добре використовуватиме інструменти ШІ».

Потім він змінив пріоритети внутрішніх ресурсів компанії. Коли більшість стартапів ще прагнули швидкого запуску продукту та підтвердження комерційної доцільності, він вирішив направити більшість ресурсів на передові дослідження, навіть змінивши назву компанії на FlashLabs.

«Раніше інтернет-логіка полягала в пріоритеті продукту чи операцій, а зараз у AI потрібно пріоритизувати дослідження». Він вимагає від себе та команди читати наукові статті та розуміти першопринципи: «Тільки наближаючись до першопринципів, ви зможете зрозуміти, що ще може зробити майбутній AI та що ще може замінити».

Ця трансформація також принесла «період болі» всередині компанії: не всі в команді могли зрозуміти цю велику структурну зміну. Коли він сказав команді: «Спочатку не думайте про монетизацію, робіть круті речі», хтось у компанії був надзвичайно захоплений, а хтось вирішив піти. Але він залишався вірним ідеї, що в епоху ШІ важливіше робити спрощення: «Якщо ти не погоджуєшся — тоді ти просто видаляєшся».

Але ще важливіше: які засновники зможуть вижити в епоху ШІ?

Відповідь Ши Ї поділена на дві частини: перша стосується реальності — «Минимум можна залучити кошти, поки ти не помреш або твій кишеньковий бюджет достатньо глибокий, щоб постійно підтримувати проект». А друга — це те, що він справді хотів сказати: «Чи маєш ти глибші здібності до мислення, ніж ШІ?»

«Чому великі моделі можуть робити все більше речей? Бо суть усіх природничих наук — це математика, а моделі вміють писати код і розуміють математику. Розклавши цю ланцюжку шар за шаром, виявляється, що єдина справді рідкісна здатність людини — це мислити глибше, ніж AI, у певній галузі», — аналізує Ши Ї. «Багато хто має надто поверхневе розуміння AI. Подивіться, скільки засновників справді пишуть код самі та щодня використовують інструменти AI? Здатність писати код стане товаром масового виробництва, яким буде володіти кожен. Але чи зможете ви бути розумнішими за AI? Ось і ваша конкурентна перевага».

Від усвідомлення кризи до прийняття рішення та оплати ціни за реструктуризацію організації, Ши Ї витратив рік на «самоітерацію». Він не чекав, поки оновлення моделі повідомить йому кінцевий результат, а вирішив заздалегідь знайти місце, де може з’явитися правильна відповідь. Чи правильно він зайняв це місце — це інше питання, але зараз він ще не хоче покидати ігровий стіл AI.

02 Корпоративний агент має зіграти карту «Harness»

Зміна організаційної структури — це лише перший крок у шляху виживання компанії. Насправді, щоб Ши Ї зробити вирішальну зміну, потрібно було змінити продуктова стратегія.

Спочатку він хотів створити багатоагентну систему, яка, згідно з логікою «чим більше людей — тим більше сили», може імітувати організаційну структуру людської компанії: хтось відповідає за пошук, хтось — за логічні міркування, а хтось — за зведення результатів.

Але реальні результати змусили Ши Ї постійно махати головою: «Занадто повільно, занадто зависає, і виведені результати навіть гірші, ніж у окремого агента». За його думкою, передача команд між агентами схожа на погану гру у «пошепки» — кожен додатковий етап передачі зменшує інформацію. «Я краще візьму генія з IQ 150, повністю озброєного чудесними інструментами, ніж купу посередніх людей з IQ 110, які мають неповні інструменти і повинні постійно обговорювати між собою», — відкрито сказав Ши Ї під час інтерв’ю.

Нарешті, він видалив усі передвизначені суб-агенти й вирішив створити один достатньо потужний агент, який замінить кластерну взаємодію за допомогою багатопотокового паралельного виконання.

Це також початкова версія останнього продукту FlashLabs — Super Agent, який виводить інтелект окремої моделі та набір інструментів до максимуму. Super Agent основною місією має об’єднати систему доходів користувача за допомогою інтелектуальної автоматизації, залучуючи AI Agent до всіх етапів — від розробки потенційних клієнтів до завершення угоди.

На інтерв’ю в Geek Park Ши Ї надав Super Agent завдання з пошуку інформації: «Знайдіть фонди всіх китайських компаній, що отримали інвестиції в сфері ШІ за останні шість місяців та виведіть результат у вигляді таблиці». Потім Super Agent одночасно запустив десятки потоків завдань для пошуку, вилучення даних, написання коду та очищення даних — і вже через 2–3 хвилини отримав результат: таблиця містила імена засновників, суми фінансування, публічні контакти тощо.

Якщо відмова від багатоагентної архітектури — це мінус на рівні архітектури, то відмова від локалізації — це зворотний вибір на рівні логіки розгортання.

Коли OpenClaw викликає хвилю «локальних агентів» у спільноті розробників, Ши Ї впевнено розміщує Super Agent у хмарі. «Якщо така система, як OpenClaw, працює всередині компанії, це еквівалентно троянському коню — ви легко можете бути взламані через неї». Він вважає, що на цьому етапі будь-яка компанія, яка наважується масово розгорнути OpenClaw всередині корпоративної мережі, відкриває двері для хакерів по всьому світу.

На його думку, перевага OpenClaw полягає в тому, що на особистому рівні вона демонструє потенційну здатність до ініціативи. Наприклад, з OpenClaw AI запитує користувача про 2000 доларів на обладнання для мінінгу, а користувач відповідає: «Зароби собі сам». Тоді AI починає прогнозувати ринок та досліджувати квантові стратегії. «Який бос не любить ініціативних працівників?» — запитує Ши Ї. Коли така ініціативність стане частиною корпоративного продукту, швидкість заміни людських працівників перевищить усі очікування. «Раніше, під час промислової революції, коли кінні карети змінювалися на автомобілі, потрібно було спочатку купити автомобіль, отримати водійські права та модернізувати дороги — це зайняло б багато часу. Але цього разу все інакше: при托管-розгортанні — хлоп! — робота десятків працівників зникає.» Він також вважає, що в цьому році роботу офісних працівників значно замінять штучним інтелектом.

Щодо складностей автоматизованого виконання — зокрема, як забезпечити безпеку корпоративних застосунків — рішення FlashLabs полягає у створенні системи дозволів у стилі macOS з облачним розгортанням та поступовим наданням прав. Це означає, що спочатку Agent має лише мінімальні права, необхідні для виконання завдання, а його межі розширюються поступово лише після багаторазової перевірки стабільності та безпеки.

Він навів приклади Windows і Mac: «На Windows встановлення програми може надати дуже високі права — тихе встановлення, прикріплення до браузера, і ви не зможете її видалити. На Mac усі програми ізольовані в пісочниці, тому вам ніколи не потрібно встановлювати антивірус». Ши Ї вірить, що конкуренція між підприємними агентами в кінцевому підсумку перейде від здатності викликати моделі до здатності проектувати середовище: той, хто зможе забезпечити агенту безпечне, контролюване та аудитоване середовище, зможе змусити клієнтів справді використовувати його.

Але якщо модель знову стрибне, чи мають сенс ці поточні налаштування? Якщо GPT-6 або Claude матимуть вбудовані потужніші здібності до розбиття завдань та виклику інструментів, чи не буде все, що FlashLabs робить сьогодні, знову поглинуте?

На це запитання Ши Ї не уникав, його міркування розділилися на дві сторони.

Він спочатку класифікував корпоративні бар’єри для спеціалізованих компаній на чотири рівні: сприйняття (Perception), планування (Planning), рекурсивне навчання (Recursive Learning), управління (Governance).

На ринку великих моделей є 5 компаній, і рейтинг SOTA змінюється кожні три місяці. За допомогою шару оркестрування ви можете інтегрувати всі моделі та використовувати найкращу для кожного сценарію. Але компанія з однією моделлю може використовувати лише власну — якщо ваша базова модель не є найрозумнішою, ваша конкурентоспроможність безпосередньо знижується. Зі зростанням загальних великих моделей, які швидко охоплюють перші два рівні, Ши Ї вважає, що справжніми бар’єрами залишаються лише два останні рівні, а остаточним захистом є шар оркестрування.

Він вважає, що коли кілька агентів співпрацюють у корпоративній системі, вони можуть таємно угоджуватися в місцях, недоступних для людини, обходячи передбачені правила доступу. Справжнім бар’єром для спеціалізованих компаній є здатність створювати відкрите та контролюване середовище для роботи у конкретних сценаріях.

Щодо того, чи це твердження правильне, він визнав, що не має стопроцентової впевненості: «Штучний інтелект змінюється занадто швидко, і ти справді не знаєш, що станеться в майбутньому». Але він впевнений в одному: якщо вертикальні підприємства правильно використовуватимуть AI-оркестрування та AI-головування, а також вирішать питання дизайну середовища, вони принаймні не будуть викинуті з гри під час наступного стрибка моделей.

03 голосова модель зазнає реструктуризації, активні агенти можуть спричинити нову модель оплати за результатом

Після того як ви зрозуміли, як створити конкурентоспроможний продукт, наступним кроком є забезпечення прийняття цього продукту клієнтами.

На даний момент Flashlabs має два основних продукти для монетизації: Super Agent оплачується за використання токенів, ціни доступні на офіційному сайті; крім того, вони відкрили свій мовний модуль Chroma з відкритим кодом, але стягують плату за платформи та сервіси, побудовані на основі цього модуля. Насправді, ці два підходи є досить поширеними стратегіями монетизації: відкритий код створює технічну довіру, а платформи та сервіси дозволяють отримувати комерційну вартість.

Зараз японські фіскальні компанії замінюють живих операторів служби підтримки на мовну модель FlashLabs Chroma; зараз тестується 1/10 від загальної кількості співробітників, при цьому AI та люди працюють одночасно, постійно порівнюючи оцінки їхньої продуктивності. Метод перевірки простий: хто має вищу точність та кращу ефективність обробки — дані самі все розкажуть.

«Межі використання голосу знаходяться на тому ж рівні, що й візуальний», коли весь індустріальний сектор звертає увагу на мультимодальність та розуміння відео, Ши Ї з командою зосереджуються на реальному часі моделі хроми, досягнувши кінцевої затримки 135 мілісекунд.

До появи великих мовних моделей для тексту існували OCR, NLP та різні малі моделі, зібрані разом. Зараз голосові технології перебувають у тому ж стані, що й текст до появи великих мовних моделей: існують ASR, TTS та різні модулі, зібрані разом, і кожен етап здійснює локальну оптимізацію. Ця стара архітектура рано чи пізно буде повністю замінена єдиною енд-ту-енд голосовою великою моделлю. Він вважає, що краще стати тим, хто зробить цю заміну, ніж чекати, поки це зробить хтось інший.

Ши Ї вважає, що мова — це найприродніший спосіб спілкування між людьми, і в майбутньому вона обов’язково стане найважливішим інтерфейсом взаємодії між людьми та ШІ. «У мові передається набагато більше інформації, ніж у тексті: я кажу одне речення — і ти одразу розумієш».

Він вважає, що мовні моделі також відіграють ключову роль у розвитку індустрії ембодімент-інтелекту. Перший рівень — це мовні моделі в реальному часі, які забезпечують миттєві відповіді з низькою затримкою та високою емоційною інтелігентністю — наприклад, запити про погоду чи чи треба надіти додатковий одяг; цей рівень обробляє це безпосередньо. Другий рівень — це великі моделі глибокого мислення, які виконують складні міркування. Третій рівень — це світова модель, яка розуміє фізичні закони. «Межі використання голосу знаходяться на тому ж рівні, що й візуальна інформація». Це одне з його найбільш переконливих довгострокових тверджень.

Ши Ї також вважає, що сучасна комерційна модель ШІ є лише перехідною. Це пов’язано з тим, що всі агенти наразі є пасивними: ви говорите їм, що робити, і вони це роблять, подібно до інструменту, що чекає на команди, і залишаються схожими на чат-ботів. Тому комерційна модель все ще базується на оплаті за спожиті токени — платите за те, скільки використовуєте.

Але коли агент починає надавати активні послуги — тобто коли ви говорите йому, що таке KPI та OKR, він сам знаходить завдання, сам планує шлях і нарешті доставляє вимірювані результати — тоді він вже не є інструментом, а стає працівником. Очевидно, компанія не виплачує зарплату працівнику за кількість набраних символів або відправлених листів; ви оцінюєте, які цілі він досяг.

Тому він вважає, що з переходом до ери агентів логіка комерційної оплати також повинна змінитися на оплату за ефект або за KPI. Коли ця зміна справді відбудеться, вся система ціноутворення, продажів та відносин із клієнтами для агентських продуктів буде переписана.

Нові бізнес-моделі вже почали розвиватися на глибині індустрії. Наприклад, AI-юридична фірма Crosby, яка щойно отримала 60 мільйонів доларів США у серії B, розподіляє різні етапи перевірки договорів між окремими агентами: наприклад, витягування контексту, пропозиції щодо змін, створення коментарів тощо, а юристи перевіряють результати роботи ШІ, виправляють пропущені деталі та забезпечують точність. Їхня бізнес-модель передбачає оплату за кількість перевірених договорів — від 250 до 1000 доларів США за договір, залежно від кількості сторінок, приблизно 10–50 доларів США за сторінку.

Але справжнім передумовою для переходу до наступної комерційної моделі є здатність активних агентів стабільно доставляти вимірювані результати. «Ще не дійшли до цього».

Від FlashIntel до FlashLabs Ши Ї зробив за рік чітко визначену перебудову організації та стратегії. Звільнення співробітників, зруйнування існуючої архітектури продукту, тимчасове зменшення акценту на комерціалізації — усі ці дії зовні виглядають як постійне зменшення.

Але в реальності швидкої ітерації галузі ШІ це більше схоже на самокорекцію стартапу під час інтенсивних змін. Здатності моделей можуть стрибати кожні кілька місяців, і ніхто не може повністю передбачити майбутнє. Для Ши Ї та FlashLabs на цьому етапі ключовим не є захоплення якомога більшого ринку, а те, щоб їхні технологічні рішення та бізнес-логіка не були легко знищені наступною хвилею.

Галузь ще досі досліджує справжню природу агентів — моделі оплати, безпечні межі та кінцеві форми взаємодії ще не визначені. Вибір FlashLabs може й не є найкращим рішенням, але він представляє реальний шлях виживання для вертикальних AI-компаній: під тиском постійного проникнення великих моделей, спочатку знайти місце, де можна закріпитися, а потім чекати, поки галузь повністю дозріє.