Группа исследований в области ИИ Tether открыла исходный код готового к производству реализации TurboQuant — алгоритма от Google Research, предназначенного для значительного снижения требований к памяти ИИ, согласно пресс-релизу в понедельник press release.
Технология теперь входит в состав QVAC Fabric — локального ИИ-движка Tether, и включает полный пайплайн квантизации, интеграции с фреймворками, документацию и профили развертывания для реальных сценариев использования.
Релиз направлен на снижение потребления памяти — одного из главных барьеров для запуска продвинутого ИИ на локальных устройствах. По мере того как ИИ-ассистенты обрабатывают более длинные беседы, большие файлы и более сложные задачи, их KV-кэш расширяется и может требовать значительных аппаратных ресурсов.
Согласно исследователям, TurboQuant снижает эти требования к памяти до 5 раз, сохраняя производительность модели, что делает возможным запуск мощных ИИ-систем на ноутбуках, телефонах, потребительских GPU и edge-устройствах.
Исследование Google показало, что память ИИ можно сжимать намного эффективнее, чем предполагали большинство людей. Наша работа превращает этот прорыв в производственное программное обеспечение, с которым могут работать разработчики, стартапы и пользователи», — прокомментировал выпуск генеральный директор Tether Паоло Ардойно.
По словам Ардойно, инструменты ИИ должны уметь обрабатывать длинные документы, сохранять контекст проекта, поддерживать разработку программного обеспечения и работать с частными данными локально, а не передавать каждую задачу через облачную инфраструктуру. Он сказал, что TurboQuant помогает сделать это возможным, предоставляя локальным системам ИИ большую емкость памяти и контекстное осознание.
«Если длинный контекст ИИ работает только внутри крупнейших центров обработки данных, то ИИ будет формироваться тем, кто владеет наибольшим количеством оборудования», — добавил он.
Tether считает, что технология может помочь перенести большую часть рабочих нагрузок ИИ с централизованных облачных сервисов за счет расширения окон контекста и улучшения производительности на локальном оборудовании.
В составе QVAC SDK 0.12.0 выпуск поддерживает цель компании по созданию ИИ-систем, работающих ближе к пользователям через персональные устройства, локальные сети и децентрализованную инфраструктуру.

