Tether AI відкриває код TurboQuant, зменшуючи використання пам’яті KV-кешу LLM у 5 разів

Tether AI щойно випустила TurboQuant як програмне забезпечення з відкритим кодом, надавши інструмент, який зменшує обсяг пам’яті, необхідний для висновку великих мовних моделей, до п’яти разів. Ця технологія спрямована на конкретний обмежуючий фактор, відомий як кеш ключ-значення (KV), який є основною пам’яттю, яку моделі трансформерів використовують для відстеження контексту під час розмови.

Що насправді робить TurboQuant

Алгоритм, що лежить в основі TurboQuant, походить з Google Research, яка опублікувала початкові деталі 24 березня 2026 року. Tether AI взяла цей науковий статтю і перетворила її на те, що розробники можуть реально впровадити у виробництві. Випуск Tether включає повний пайплайн квантування, адаптери фреймворків та всесторонню документацію.

Квантування — це техніка, яка зменшує точність чисел, використовуваних у обчисленнях нейромереж. Замість зберігання значень у вигляді 16- або 32-бітних чисел з рухомою комою, ви стискаєте їх до 4-бітних або навіть 2-бітних представлень. TurboQuant виконує це саме для KV-кешу.

Не потрібно переосвічувати чи доналаштовувати моделі. Розробники можуть застосувати TurboQuant до існуючих моделей та існуючих інференс-фреймворків, не починаючи з нуля.

Реліз з’явився у складі QVAC SDK версії 0.12.0, який також містить нові можливості, такі як генерація відео з тексту та керування роботами. QVAC — це ширша платформа Tether, спрямована на підтримку децентралізованого ШІ на споживчому обладнанні.

Чому компанія стейблкоїну розробляє інфраструктуру ШІ

Tether активно розширюється за межі свого стейблкоїна USDT, і ШІ є одним із найбільших інвестиційних покликань. Генеральний директор Паоло Ардоджо позиціонує зусилля компанії в галузі ШІ навколо конкретної теорії: високоякісні мовні моделі повинні працювати локально на споживачських пристроях, таких як телефони та ноутбуки, а не залежати від централизованих хмарних сервісів.

Проблема пам’яті — це основна перешкода для цієї ідеї. Модель, якій потрібно 16 ГБ пам’яті лише для свого KV-кешу, не вміститься на більшості споживчих пристроїв. Зменшіть це до 3,2 ГБ — і раптово математика починає працювати.

Ардойно підкреслив, що TurboQuant наближає ефективний локальний ІІ до реальності, вирішуючи обмеження пам’яті, з якими стикаються трансформерні моделі на споживчому обладнанні.

Платформа QVAC базується на кількох попередніх методах квантування, зокрема PolarQuant та Quantized Johnson-Lindenstrauss. Команда AI Tether поєднує кілька методів стиснення, кожен з яких спрямований на різні аспекти проблеми ефективності, а TurboQuant — це останній шар у цій структурі.

Що це означає для інвесторів

Відкритий характер випуску означає, що будь-який розробник може отримати код, інтегрувати його у свій пайплайн висновку та одразу скористатися економією пам’яті. Це стратегічний крок для розвитку екосистеми навколо QVAC та позиціонування платформи Tether як стандартного інструментарію для децентралізованих додатків штучного інтелекту.

Google Research опублікувала базовий алгоритм. Ніщо не заважає самій Google чи будь-якій іншій лабораторії з достатніми ресурсами випустити власну продукційну реалізацію. Включення функцій перетворення тексту у відео та керування роботами в одному оновленні SDK свідчить про швидке ітерування команди.

Слідкуйте, чи підтверджують незалежні тестування твердження про 5-кратне стиснення для різних архітектур моделей та довжин контексту, оскільки техніки квантування іноді погіршуються у реальних умовах під час довгих діалогів або складніших завдань міркування.