Tether AI открывает исходный код TurboQuant, снижая использование памяти KV-кэша LLM в 5 раз

iconCryptoBriefing
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Tether AI открыла исходный код TurboQuant — инструмента, снижающего использование памяти KV-кэша LLM в 5 раз. Технология направлена на устранение ключевого узкого места в трансформерных моделях и основана на исследованиях Google от 24 марта 2026 года. Tether адаптировала её в готовое к производству решение с полной поддержкой квантизации. Релиз входит в состав QVAC SDK 0.12.0, который включает текст в видео и управление роботами. Генеральный директор Tether Паоло Ардойно заявил, что инструмент позволяет запускать высококачественные LLM локально на потребительских устройствах. Открытие исходного кода направлено на расширение экосистемы QVAC и позиционирование Tether как децентрализованной платформы ИИ. Это крупное обновление в новостях ИИ + криптовалют и новостях блокчейна.

Tether AI только что выпустила TurboQuant как программное обеспечение с открытым исходным кодом, предоставив инструмент, который сокращает объем памяти, используемый при выводе больших языковых моделей, до пяти раз. Технология направлена на конкретный узкое место, называемое ключ-значение (KV) кэш, который представляет собой рабочую память, используемую трансформерными моделями для отслеживания контекста во время разговора.

Что на самом деле делает TurboQuant

Алгоритм, лежащий в основе TurboQuant, был разработан Google Research и впервые опубликован 24 марта 2026 года. Tether AI взял эту научную работу и превратил её в решение, которое разработчики могут реально развернуть в продакшене. Релиз Tether включает полный пайплайн квантизации, адаптеры фреймворков и подробную документацию.

Квантование — это техника, которая снижает точность чисел, используемых в вычислениях нейронных сетей. Вместо хранения значений в виде 16- или 32-битных чисел с плавающей запятой они сжимаются до 4-битных или даже 2-битных представлений. TurboQuant выполняет это специально для кэша KV.

Перетренировка или тонкая настройка моделей не требуются. Разработчики могут применить TurboQuant к существующим моделям и существующим фреймворкам для вывода, не начиная с нуля.

Реклама

Релиз поступил в составе QVAC SDK версии 0.12.0, который также включает новые возможности, такие как генерация видео из текста и управление роботами. QVAC — это более широкая платформа Tether, направленная на поддержку децентрализованного ИИ на потребительском оборудовании.

Почему компания стейблкоина создает инфраструктуру ИИ

Tether активно расширяется за пределы своего стейблкоина USDT, и ИИ представляет собой одну из его крупнейших ставок. Генеральный директор Паоло Ардодино позиционирует усилия компании в области ИИ вокруг конкретной теории: высококачественные языковые модели должны работать локально на потребительских устройствах, таких как телефоны и ноутбуки, а не зависеть от централизованных облачных сервисов.

Проблема памяти — это основное препятствие для этой идеи. Модель, которой требуется 16 ГБ памяти только для своего KV-кэша, не поместится на большинстве потребительских устройств. Сократите это до 3,2 ГБ — и внезапно математика начинает работать.

Ардойно подчеркнул, что TurboQuant приближает реальность эффективного локального ИИ, устраняя ограничения по памяти, с которыми сталкиваются трансформерные модели на потребительском оборудовании.

Платформа QVAC основана на нескольких предыдущих методах квантования, включая PolarQuant и Quantized Johnson-Lindenstrauss. Команда AI Tether последовательно объединяет несколько методов сжатия, каждый из которых направлен на решение различных аспектов проблемы эффективности, и TurboQuant является последним слоем в этой цепочке.

Что это значит для инвесторов

Открытый характер релиза означает, что любой разработчик может получить код, интегрировать его в свою инференс-цепочку и сразу же получить выгоду от экономии памяти. Это стратегический шаг для расширения экосистемы вокруг QVAC и позиционирования платформы Tether как стандартного инструментария для децентрализованных приложений ИИ.

Google Research опубликовала базовый алгоритм. Ничто не мешает самой Google или любой другой хорошо обеспеченной лаборатории выпустить свою собственную производственную реализацию. Включение функций текст-в-видео и управления роботами в одно и то же обновление SDK указывает на быструю итерацию команды.

Следите, подтверждают ли независимые тесты утверждение о 5-кратном сжатии для различных архитектур моделей и длин контекста, поскольку техники квантования иногда снижают эффективность в реальных условиях при более длинных беседах или более сложных задачах рассуждения.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.