Google Research представляє TurboQuant: 3-бітна квантизація без втрат точності, прискорює висновки до 8 разів

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Google Research представила TurboQuant — метод квантування 3 біт, який зменшує використання пам’яті KV-кешу в 6 разів без втрати точності. На GPU NVIDIA H100 обчислення уваги з 4 бітами працюють до 8 разів швидше, ніж моделі з 32 бітами. Тестування на Gemma та Mistral за допомогою LongBench, Needle In A Haystack і ZeroSCROLLS показало найкращі результати. Розроблено Аміром Зандієм та Вахабом Міррокні з KAIST та NYU; стаття буде опублікована на ICLR 2026. Дані в ланцюгу показують зростаючий інтерес до альткоїнів, які варто стежити, оскільки підвищення ефективності сприяє їхньому впровадженню.

За даними 1M AI News, дослідницький центр Google опублікував квантований алгоритм стиснення TurboQuant, який дозволяє стиснути KV-кеш великих мовних моделей до 3 бітів, зменшивши використання пам’яті щонайменше в 6 разів, без необхідності навчання або доналаштування та без втрати точності моделі. У режимі 4 бітів швидкість обчислення уваги на GPU NVIDIA H100 зростає до 8 разів порівняно з базовою 32-бітною неквантованою версією.

Дослідницька команда перевірила TurboQuant на довгих контекстних тестах, таких як LongBench, Needle In A Haystack та ZeroSCROLLS, використовуючи моделі Gemma та Mistral — TurboQuant показав найкращі результати у всіх тестах. Алгоритм складається з двох підалгоритмів: PolarQuant видаляє пам’ять, що витрачається традиційними методами квантування, за допомогою перетворення в полярні координати, а QJL коригує залишкові похибки лише за допомогою 1 біта.

Дослідження провели Амір Зандіх з Google Research та віце-президент і Google Fellow Вахаб Міррокні у співпраці з KAIST (Корея) та Нью-Йоркським університетом; воно буде опубліковане на ICLR 2026. Google зазначила, що одним із основних застосувань цієї технології є вирішення обмежень KV-кешу в моделях, таких як Gemini.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.