Tether AI открывает исходный код TurboQuant, снижая использование памяти KV-кэша LLM в 5 раз

Tether AI только что выпустила TurboQuant как программное обеспечение с открытым исходным кодом, предоставив инструмент, который сокращает объем памяти, используемый при выводе больших языковых моделей, до пяти раз. Технология направлена на конкретный узкое место, называемое ключ-значение (KV) кэш, который представляет собой рабочую память, используемую трансформерными моделями для отслеживания контекста во время разговора.

Что на самом деле делает TurboQuant

Алгоритм, лежащий в основе TurboQuant, был разработан Google Research и впервые опубликован 24 марта 2026 года. Tether AI взял эту научную работу и превратил её в решение, которое разработчики могут реально развернуть в продакшене. Релиз Tether включает полный пайплайн квантизации, адаптеры фреймворков и подробную документацию.

Квантование — это техника, которая снижает точность чисел, используемых в вычислениях нейронных сетей. Вместо хранения значений в виде 16- или 32-битных чисел с плавающей запятой они сжимаются до 4-битных или даже 2-битных представлений. TurboQuant выполняет это специально для кэша KV.

Перетренировка или тонкая настройка моделей не требуются. Разработчики могут применить TurboQuant к существующим моделям и существующим фреймворкам для вывода, не начиная с нуля.

Релиз поступил в составе QVAC SDK версии 0.12.0, который также включает новые возможности, такие как генерация видео из текста и управление роботами. QVAC — это более широкая платформа Tether, направленная на поддержку децентрализованного ИИ на потребительском оборудовании.

Почему компания стейблкоина создает инфраструктуру ИИ

Tether активно расширяется за пределы своего стейблкоина USDT, и ИИ представляет собой одну из его крупнейших ставок. Генеральный директор Паоло Ардодино позиционирует усилия компании в области ИИ вокруг конкретной теории: высококачественные языковые модели должны работать локально на потребительских устройствах, таких как телефоны и ноутбуки, а не зависеть от централизованных облачных сервисов.

Проблема памяти — это основное препятствие для этой идеи. Модель, которой требуется 16 ГБ памяти только для своего KV-кэша, не поместится на большинстве потребительских устройств. Сократите это до 3,2 ГБ — и внезапно математика начинает работать.

Ардойно подчеркнул, что TurboQuant приближает реальность эффективного локального ИИ, устраняя ограничения по памяти, с которыми сталкиваются трансформерные модели на потребительском оборудовании.

Платформа QVAC основана на нескольких предыдущих методах квантования, включая PolarQuant и Quantized Johnson-Lindenstrauss. Команда AI Tether последовательно объединяет несколько методов сжатия, каждый из которых направлен на решение различных аспектов проблемы эффективности, и TurboQuant является последним слоем в этой цепочке.

Что это значит для инвесторов

Открытый характер релиза означает, что любой разработчик может получить код, интегрировать его в свою инференс-цепочку и сразу же получить выгоду от экономии памяти. Это стратегический шаг для расширения экосистемы вокруг QVAC и позиционирования платформы Tether как стандартного инструментария для децентрализованных приложений ИИ.

Google Research опубликовала базовый алгоритм. Ничто не мешает самой Google или любой другой хорошо обеспеченной лаборатории выпустить свою собственную производственную реализацию. Включение функций текст-в-видео и управления роботами в одно и то же обновление SDK указывает на быструю итерацию команды.

Следите, подтверждают ли независимые тесты утверждение о 5-кратном сжатии для различных архитектур моделей и длин контекста, поскольку техники квантования иногда снижают эффективность в реальных условиях при более длинных беседах или более сложных задачах рассуждения.