Tether відкриває джерела TurboQuant від Google для зменшення використання пам’яті ШІ

Група з досліджень штучного інтелекту Tether відкрила код продуктивної реалізації TurboQuant — алгоритму від Google Research, розробленого для значного зменшення вимог до пам’яті штучного інтелекту, згідно з прес-релізом у понеділок press release.

Технологія тепер є частиною QVAC Fabric — локального AI-движка Tether — і включає повний пайплайн квантування, інтеграції з фреймворками, документацію та профілі розгортання для реальних сценаріїв використання.

Випуск спрямований на зменшення споживання пам’яті — однієї з найбільших перешкод для запуску просунутих ІІ на локальних пристроях. Коли асистенти ІІ обробляють довші розмови, більші файли та складніші завдання, їхній KV-кеш розширюється і може вимагати значних апаратних ресурсів.

За даними дослідників, TurboQuant зменшує ці вимоги до пам’яті до 5 разів, зберігаючи продуктивність моделі, що робить запуск потужних AI-систем на ноутбуках, телефонах, споживчих GPU та edge-пристроях простішим.

Дослідження Google показало, що пам’ять ШІ можна стиснути набагато ефективніше, ніж вважали більшість людей. Наша робота переносить цей прорив у програмне забезпечення для виробництва, яке розробники, стартапи та користувачі можуть реально використовувати», — прокоментував випуск генеральний директор Tether Паоло Ардойно.

За словами Ардойно, інструменти ШІ повинні вміти обробляти довгі документи, зберігати контекст проекту, підтримувати розробку програмного забезпечення та працювати з приватними даними локально, а не пересилаючи кожне завдання через хмарну інфраструктуру. Він сказав, що TurboQuant робить це можливим, надаючи локальним системам ШІ більшу ємність пам’яті та контекстну свідомість.

«Якщо AI з довгим контекстом працює лише всередині найбільших центрів обробки даних, то AI буде формуватися тим, хто володіє найбільшою кількістю обладнання. TurboQuant змінює те, що може робити локальний AI, зменшуючи обмеження, пов’язані з пам’яттю», — додав він.

Tether вважає, що ця технологія може допомогти перенести більше завантажень ШІ з централізованих хмарних сервісів, забезпечивши більш довгі вікна контексту та покращену продуктивність на локальному обладнанні.

У складі QVAC SDK 0.12.0 випуск підтримує мету компанії щодо створення AI-систем, які працюють ближче до користувачів завдяки персональним пристроям, локальним мережам та децентралізованій інфраструктурі.