Google Research представляет TurboQuant: 3-битная квантизация без потери точности, ускоряющая вывод до 8 раз

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Исследователи Google представили TurboQuant — метод квантования с 3 битами, который снижает использование памяти KV-кэша в 6 раз без потери точности. На GPU NVIDIA H100 вычисления внимания с 4 битами работают до 8 раз быстрее, чем модели с 32 битами. Тестирование на моделях Gemma и Mistral с использованием LongBench, Needle In A Haystack и ZeroSCROLLS показало лучшие результаты. Разработано Амиром Зандиехом и Вахабом Миррокни при участии KAIST и NYU; статья будет опубликована на ICLR 2026. Данные в блокчейне демонстрируют растущий интерес к альткоинам, которые стоит отслеживать, поскольку повышение эффективности стимулирует их внедрение.

По данным мониторинга 1M AI News, исследовательский центр Google представил квантовый алгоритм сжатия TurboQuant, позволяющий сжать KV-кэш больших языковых моделей до 3 бит, сократив потребление памяти как минимум в 6 раз, без необходимости обучения или тонкой настройки и без потери точности модели. В режиме 4 бит скорость вычисления внимания на GPU NVIDIA H100 повышается до 8 раз по сравнению с базовой неквантованной версией 32 бит.

Исследовательская команда протестировала TurboQuant на длинноконтекстных бенчмарках LongBench, Needle In A Haystack и ZeroSCROLLS с использованием моделей Gemma и Mistral; TurboQuant показал наилучшие результаты во всех тестах. Алгоритм состоит из двух подалгоритмов: PolarQuant устраняет объем памяти, требуемый традиционными методами квантования, с помощью преобразования в полярные координаты, а QJL корректирует остаточные ошибки всего с использованием 1 бита.

Исследование проведено Амиром Зандиехом из Google Research и вице-президентом и Google Fellow Вахабом Миррокни в сотрудничестве с KAIST в Южной Корее и Нью-Йоркским университетом и будет опубликовано на ICLR 2026. Google отметило, что одним из основных применений этой технологии является устранение узких мест в KV-кэше моделей, таких как Gemini.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.