Нова компанія з штучним інтелектом @subquadratic випустила м

Нова компанія з штучним інтелектом @subquadratic випустила модель, яка подолала одну з найдавніших меж сучасного ІІ. Щоб зрозуміти, чому це важливо, вам потрібно зрозуміти одну математичну задачу, яка тихо формувала кожен чат-бот, який ви коли-небудь використовували. — ➠ Проблема: ІІ читає парами, а пари не масштабуються Кожна сучасна LLM (ChatGPT, Claude, Gemini) читає текст, перевіряючи, як кожне слово пов’язане з кожним іншим. Це звучить нормально, поки ви не зробите розрахунки: ▸ 10 слів → 100 порівнянь ▸ 1 000 слів → 1 мільйон порівнянь ▸ 1 мільйон слів → 1 трильйон порівнянь Подвоєння вхідних даних не подвоює роботу. Воно збільшує її в чотири рази. Це називається квадратичним масштабуванням, і воно закладене в ІІ з 2017 року. Що це означає для вас: ▸ Довгі документи швидко стають дорогими ▸ Моделі часто пропускають факти, приховані глибоко в довгих вхідних даних ▸ Цілі кодові бази або наукові бібліотеки не вміщуються Тепер ви знаєте, чому чим довший контекст, тим гірше і дорожче стають ваші LLM. — ➠ Як сучасний ІІ приховує проблему Індустрія створила обхідні шляхи замість того, щоб виправити математику: ▸ RAG: пошукова система витягує кілька релевантних уривків і надає лише їх моделі ▸ Чанкування: довгі документи розрізаються на маленькі частини ▸ Системи агентів: кілька викликів ІІ обробляють різні частини, з’єднані кодом ▸ FlashAttention: хитрі трюки з пам’яттю, які роблять ту саму дорогу математику швидшою Це працює, але ніщо з цього не вирішує справжньої проблеми. Весь сучасний стек ІІ (векторні бази даних, пайплайни пошуку, прагматичне проектування запитів) існує тому, що моделі не можуть просто утримувати все це в полі зору. — ➠ Що робить SubQ інакше SubQ використовує новий підхід під назвою SSA (Subquadratic Sparse Attention). Ідея одним реченням: замість того, щоб порівнювати кожне слово з кожним іншим, модель визначає, які слова дійсно важливі для запиту, і ігнорує решту. Це змінює масштабування з квадратичного на лінійне. Подвоєння вхідних даних зараз подвоює роботу замість того, щоб збільшувати її в чотири рази. Складна частина — не сама ідея, бо люди вже намагалися це зробити раніше. Кожна попередня спроба жертвувала чимось: або точністю, або здатністю знаходити факти, приховані глибоко в тексті, або ефективністю. Subquadratic, співзаснована @alex_whedon, стверджує, що їм вдалося вирішити всі три проблеми одночасно. — ➠ Докази Незалежно перевірені бенчмарки: ▸ Демонструє такий самий результат, як Claude Opus 4.6 на RULER 128K (тест на довгий контекст) ▸ Перевершує Opus 4.7, GPT 5.4 і Gemini 3.1 Pro на MRCR v2 (багатоелементний пошук), але поступається Opus 4.6 і GPT 5.5 ▸ Перевершує Opus 4.6 і Gemini 3.1 Pro на SWE-Bench (реальні завдання програмування), але поступається Opus 4.7 ▸ На 52× швидший за FlashAttention при 1 мільйоні токенів ▸ Дослідна версія обробляє 12 мільйонів токенів з приблизно в 1000 раз меншими обчислювальними витратами на увагу, ніж інші передові моделі Коротко кажучи, це не «найкраща модель у світі». Це передовий рівень точності при фундаментально нижчих витратах. — ➠ Де з’являється Сем Альтман Два найбільш важливих публічних твердження Альтмана вказують на ту саму проблему, яку вирішує SubQ. Щодо витрат: У своєму блогу «Три спостереження» (лютий 2025) Альтман написав, що вартість використання ІІ знижується приблизно у 10 разів кожні 12 місяців. Він назвав це «неймовірно сильнішим», ніж закон Мура. Його теза: дешевша інференція — домінуюча сила, що формує те, чим може стати ІІ. Щодо розміру: З 2023 року Альтман стверджував, що ера все більших і більших моделей закінчується, і справжня конкуренція — це здатність за долар. Він порівнював гонку параметрів із гонкою Гц у чипах 90-х років. Неправильна вісь. SubQ буквально погоджується з обоїма цими припущеннями. Їх девіз: «Ефективність — це інтелект». Але: шлях Альтмана до дешевшого ІІ — це прогрес у апаратному забезпеченні, оптимізація програмного забезпечення та дистилляція моделей. Вона не публічно погодилася з переробкою математики уваги. Отже, позиція SubQ збагачує його економічну концепцію, але також є ставкою на те, що великi лабораторiї залишили архiтектурний долар на столi. — ➠ Чому це важливо Якщо SubQ реалізує це у промисловому масштабi: ▸ Кодовi бази як одна розмова. Бiльше не потрiбно багатоагентних систем, що перекидують файли. Модель утримує всю репозиторiю. ▸ RAG стає необов’язковим. Багато сучасної ІІ-инфраструктури існує для компенсацiї квадратичної межi. Позбавтеся межi — і каркас перетвориться на барахло. ▸ Довгостроковi агенти перестають бути обходом. Сесiї тривалiстю в днi з постiйною пам’яттю стають нативними. ▸ З’являються новi застосунки. Завдання, якi були занадто дорогими (повний огляд документiв, вичерпний пошук коду, сканування на вiдповiднiсть), стають звичними. — ➠ Щирi застереження ▸ Це у приватному бета-тестуваннi. Надiйнiсть у реальних умовах ще не перевiрена. Тому поки що сприймайте оголошення як прев’ю — багато хто сумнiвається, що це лише перформанс. ▸ Результат MRCR v2 (65.9%) хороший, але поступається Opus 4.6 (78.3%) і GPT 5.5 (74%). SSA ефективнiша, але не обов’язково точнiша. ▸ Бенчмарки опублiкованi самими авторами з незалежною перевiркою. Реальний тест — реплiкацiя академiчною спiльнотою. ▸ Результат з 12 млн токенiв — дослiдна модель, а не фiнальний продукт (який має 1 млн). — ➠ Висновок Протягом дев’яти рокiв кожна трансформерна модель платила однаковий квадратичний податок. Subquadratic стверджує, що їм нарештi вдалося зрозумiти, як його не платити. Бенчмарки свiдчать про те, що вони принаймнi рухаються у правильному напрямку. Альтман уже три роки каже індустрiї: нова битва — це здатнiсть за долар. SubQ — одна з перших компанiй, яка намагається перемогти у цьому конфлiктi шляхом змiни фундаментальної математики замiсть накопичення обхiдних шляхiв. Чи зможуть вони це зробити — тепер це публiчний емпiричний питання.