Токени AI вибухнули: 500 млн, 1,3 млн і 18 тис. за одну ніч

За місяць витрачено 500 мільйонів доларів США!

Недавно в технологічному середовищі вибухнула величезна помилка. За даними Axios, одна компанія за один місяць витратила на Claude аж 500 мільйонів доларів США!

Причина викликає посмішку: менеджмент забув встановити ліміт використання при наданні доступу до облікових записів Claude для співробітників.

GitHub

Насправді, AI-рахунки з банкрутством — це не тільки ця компанія.

У квітні цього року користувач Google Cloud отримав рахунок на 18 тисяч доларів США за одну ніч через зловживання залишеним API-ключем у публічному сервісі, хоча початковий бюджет облікового запису становив лише 7 доларів США.

GitHub

Цей нещасливий ім’я користувача — Jesse Davies, австралійський консультант з ІІ та засновник Agentic Labs. Він встановив дві захисні межі на свій обліковий запис Google Cloud: попередження про бюджет у розмірі 10 австралійських доларів (приблизно 7 доларів США) та жорсткий ліміт витрат у розмірі 1400 доларів США.

За матеріалами Tom's Hardware, нападники виявили службу Cloud Run, яку він опублікував кілька місяців тому в AI Studio, надіславши більше 60 000 запитів; обидва рівні захисту не зупинили атаку: споживання рахувалося з затримкою, і коли система встигла відреагувати, сума вже досягла 18 000 доларів США.

У середині травня засновник відкритого проекту OpenClaw Петер Штейнбергер опублікував у X скріншот: 30 днів, рахунок за OpenAI API — 1,3 мільйона доларів США.

GitHub

У його команді лише три людини, але вони керують 100 інтелектуальними агентами Codex, які працюють паралельно: за 30 днів було спалено 603 мільярди токенів і здійснено 7,6 мільйона запитів. На щастя, ці 1,3 мільйона доларів США не були витрачені з його власного кишені.

Штейнбергер приєднався до OpenAI у лютому цього року, і ці 1,3 мільйона доларів були використані як внутрішній експеримент:

Тест, якщо не враховувати витрати на токени, AI-програмування може досягти яких меж. Він додав, що це результат роботи Codex у «Fast Mode» (швидкий режим зі швидким тарифом), після вимкнення якого витрати становлять близько 300 000 доларів США.

Раніше віце-президент Uber з технологій Правін Неппаллі Нага також признався The Information, що компанія витратила весь річний бюджет на Claude Code ще в квітні, а її оперативний директор відкрито заявив, що витрати на ШІ стають все більш «непереконливими».

500 мільйонів, 1,3 мільйона, 18 тисяч — хоча суми відрізняються на кілька порядків, вони вказують на одну й ту саму справу:

У епоху агентів будь-який з цих факторів — втрачені ключі, армія агентів, що працює 24/7, або обліковий запис без встановленого ліміту — може призвести до того, що ваш рахунок за токени буде повністю вичерпано за одну ніч.

Чому біллі AI зазнають банкрутства?

Відповідь головним чином прихована у змінах схеми оплати.

З квітня цього року OpenAI перейшла з абонентської моделі на оплату за кількість токенів.

2 квітня Codex перейшов зі сплати за оцінку повідомлень на розрахунок за використання Token: вхідні, кешовані вхідні та вихідні Token розраховуються окремо. 23 квітня ці правила поширилися на всі пакети Enterprise, Edu, Health та Gov: прихована знижка у щомісячній оплаті була скасована.

GitHub також дотримався цього — щойно оголосив: з 1 червня 2026 року всі пакети Copilot перейдуть на оплату за використання. Стара логіка високопріоритетних запитів скасовується, замість неї вводяться AI-кредити, які обчислюються на основі фактичного споживання вхідних Token, вихідних Token та кешованих Token з урахуванням тарифів API для кожного моделі.

GitHub

GitHub офіційно пояснив причину цього:

Зараз користувач витрачає однакову суму грошей на швидке запитання в чаті та на автономне кодування, яке триває кілька годин. GitHub завжди оплачував користувачів, які виконували важкі завдання, але ця модель більше нестійка.

До виникнення AI-агентів витрати на чати та доповнення були майже однаковими, і щомісячна плата встигала вкривати їх.

Після виникнення агентів, одна завдання може виконуватися кілька годин поспіль та змінювати весь кодовий базис; різниця в витратах між інтенсивними та легкими користувачами може досягати кількох порядків. Місячна абонентська плата при цьому повністю руйнується.

Після публікації повідомлення Reddit і X вибухнули від здивування.

Розробник з ID JBusu опублікував скріншот рахунку, назвавши нову ціну «жартом». Раніше витрати складали 28,12 долара США на місяць, а за новою системою потрібно буде заплатити 746,01 долара США — він вирішив скасувати підписку: «За таку ціну я собі орендуватиму хмарний сервер дешевше».

GitHub

Інший користувач зробив скріншот, де комісія стрімко зросла з 50 доларів до 3000 доларів; він здивувався такою нереальною ціною: «Хто ще підписується?»

GitHub

Проте деякі давні користувачі Copilot висловилися проти: ці екстремальні рахунки, швидше за все, виникли через vibe-coders (розробників, що кодують інтуїтивно), які не приділяють уваги витратам на токени, і не обов’язково відображають нормальне використання.

Один із давніх користувачів залишив коментар: «Я використовую це весь день, і в кінці місяця майже не перевищую ліміт — важко вірити, що це різниця у складності роботи». Інший висловився ще прямо: «Просто хтось хоче повністю автоматизований режим YOLO, щоб AI бігав, де хоче. Вилучення таких витрат — це на користь іншим».

Потрібно зрозуміти одне: GitHub не скасував щомісячну плату, базова ціна підписки не змінилася. Справді змінилися додаткові обсяги, завдання агентів та більш дорогі виклики моделей — тепер встановлено оплату за використання.

Найбільше постраждали ті важкі користувачі агентів, які використовували Copilot для виконання довгих ланцюгових завдань.

Рейтинг, зруйнований власними людьми

Місячна плата втрачена: з одного боку, платформа змінила правила оплати, а з іншого — люди, що використовують ШІ, самі активно витрачають кошти.

У травні Business Insider повідомив, що Amazon вивів з експлуатації внутрішній рейтинг використання штучного інтелекту під назвою KiroRank.

У цьому матеріалі з посиланням на осіб, що мають інформацію, зазначається, що цей рейтинг незамітно сприяв дивній робочій практиці: деякі співробітники, щоб піднятися вище у рейтингу, штучно збільшують споживання токенів, які не вирішують жодних реальних проблем, лише для того, щоб покращити свій рейтинг.

GitHub

Після того як це вийшло на поверхню, віцепрезидент Amazon Дейв Тредвелл звернувся до всіх співробітників: «Не використовуйте ШІ просто так. Використовуйте його для вирішення проблем клієнтів, бізнес-проблем, для інновацій».

Хоча це трохи дивно, але не дивно. Коли «знищення токенів» може потрапити у список, працівники природньо будуть знищувати токени.

У Сіліконовій долині цьому явищу дали спеціальну назву: Tokenmaxxing (екстремальне споживання токенів), де обсяг споживання вважається продуктивністю.

У матеріалі Axios також зазначається, що CTO виявив, як співробітники використовують AI-моделі для перевірки погоди та написання повсякденних листів — прості речі, які за допомогою найдорожчих передових моделей призводять до непомітного стрімкого зростання рахунків.

KiroRank не є офіційною системою оцінки Amazon, а є неформальним інструментом, створеним співробітниками. Але він чітко виявляє класичне правило менеджменту: коли KPI встановлено неправильно, люди використовують найрозумніший спосіб обійти їх.

Вважати «скільки використано» рівним «наскільки добре виконано» — це саме і є інституційна причина цієї хвилі витрат на ШІ.

Ті, хто обліковує токени, вже заробляють гроші

Інша сторона тривоги щодо токен-рахунків: хтось таємно перетворив це на бізнес.

Перший шлях: годувати AI контекстом.

Glean — це власна компанія Arvind. Вона створює корпоративні AI-асистенти: об’єднує розсіяну по компанії інформацію, щоб емплої могли отримувати контекст безпосередньо через AI, не шукаючи його по всіх кутках. AI менше блукає — і витрачає менше токенів.

Цей механізм дозволив Glean збільшити річний дохід утричі за 15 місяців, подолавши поріг у 300 мільйонів доларів США, серед клієнтів — Databricks, Reddit, Samsung.

Другий шлях: розподілити роботу між правильними моделями.

Стартап Factory AI спеціалізується саме на цьому: автоматично розподіляти кожне завдання найбільш підходящій моделі — прості завдання йдуть на дешевший рівень, складні — на топовий. Арвінд також зазначав: якщо правильно налаштувати маршрутизацію, можна заощадити в 10 разів.

Обидва шляхи призводять до одного й того ж: дайте ШІ працювати, але не дайте йому безконтрольно витрачати ресурси.

Дослідження в академічному середовищі також закладають основу для цього зсуву.

GitHub

https://arxiv.org/pdf/2604.22750

Стаття з arXiv за квітень 2026 року вперше систематично розібрала, як саме витрачаються кошти на завдання кодування агентів.

Висновок 1: Витрати Token на завдання агента можуть досягати тисячі разів більше, ніж у звичайних кодових міркуваннях і кодових діалогах, причиною зростання витрат є вхідні Token.

Висновок 2: При багаторазовому виконанні однієї і тієї ж задачі споживання токенів може відрізнятися в 30 разів.

Висновок 3: Більше споживання токенів не означає автоматично вищу точність. Точність часто досягає піку при середніх витратах — подальше розходування коштів призводить до насичення ефекту.

Дослідження також виявило, що передові моделі не здатні навіть передбачити, скільки токенів вони споживатимуть, і загалом занижують реальні витрати.

Ти думаєш, що чим більше витратиш, тим більше зробиш. Насправді гроші витрачені, а робота не обов’язково краща, і бюджет все ще важко оцінити.

Коли рахунки за ІО починають перевищувати витрати на людські ресурси

Це перший раз у моїй пам’яті, коли витрати на технології почали зрівнятися з витратами на людські ресурси.

29 травня, генеральний директор Glean Арвінд Джайн сказав це під час інтерв’ю з журналістом CNBC Дірдре Босою.

GitHub

Спостереження віце-президента з глибокого навчання NVIDIA Брайана Катанзаро також підтверджують це.

В інтерв’ю з Axios він зазначив: для його команди витрати на обчислювальну потужність вже значно перевищили заробітну плату співробітників.

Подібні явища з’являються у багатьох компаніях: від Glean, яка працює з корпоративним ШІ, до NVIDIA, яка продає обчислювальну потужність ШІ, і до Uber, яка використовує ШІ,— усі вони переглядають ці розрахунки.

За думкою Арвінда, історично технології становили лише невелику частину загальних витрат компаній, але зараз витрати на ШІ досягли рівня заробітної плати, і багато компаній витрачають свій річний бюджет на ШІ за один-два місяці.

GitHub

За останній рік використання ШІ було показником, яким захоплювалися: чим більше використовуєш, тим більш передовий, чим більше спалюєш токенів, тим більше відкриваєшся майбутньому. Зараз багато компаній починають переглядати ту просту думку: що саме отримали за ці спалені токени?

Період безкоштовного місячного доступу саме зараз закривається.

Наступне питання, що стоїть перед усіма розробниками: як економно використовувати кожен токен, щоб витягнути з нього максимальну цінність.

Найбільшими переможцями у майбутньому, без сумніву, стануть ті, хто навчиться рахувати токени першими.

Джерела:

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

Цей матеріал зі сторінки WeChat «Новий розум», автор: АСІ Апокаліпсис