Tether AI відкриває код TurboQuant, зменшуючи використання пам’яті KV-кешу LLM у 5 разів

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Tether AI відкрила код TurboQuant — інструмент, який зменшує використання пам’яті KV-кешу LLM у 5 разів. Технологія спрямована на вирішення ключового обмеження в моделях transformer і базується на дослідженнях Google від 24 березня 2026 року. Tether адаптувала її у виробниче рішення з повною підтримкою квантування. Випуск є частиною QVAC SDK 0.12.0, який включає текст у відео та керування роботами. Генеральний директор Tether Паоло Ардойно сказав, що цей інструмент дозволяє запускати якісні LLM локально на споживчих пристроях. Відкритий код спрямований на розвиток екосистеми QVAC та позиціонування Tether як децентралізованої платформи штучного інтелекту. Це важливий оновлення в новинах про ШІ + криптовалюту та на ланцюгових новинах.

Tether AI щойно випустила TurboQuant як програмне забезпечення з відкритим кодом, надавши інструмент, який зменшує обсяг пам’яті, необхідний для висновку великих мовних моделей, до п’яти разів. Ця технологія спрямована на конкретний обмежуючий фактор, відомий як кеш ключ-значення (KV), який є основною пам’яттю, яку моделі трансформерів використовують для відстеження контексту під час розмови.

Що насправді робить TurboQuant

Алгоритм, що лежить в основі TurboQuant, походить з Google Research, яка опублікувала початкові деталі 24 березня 2026 року. Tether AI взяла цей науковий статтю і перетворила її на те, що розробники можуть реально впровадити у виробництві. Випуск Tether включає повний пайплайн квантування, адаптери фреймворків та всесторонню документацію.

Квантування — це техніка, яка зменшує точність чисел, використовуваних у обчисленнях нейромереж. Замість зберігання значень у вигляді 16- або 32-бітних чисел з рухомою комою, ви стискаєте їх до 4-бітних або навіть 2-бітних представлень. TurboQuant виконує це саме для KV-кешу.

Не потрібно переосвічувати чи доналаштовувати моделі. Розробники можуть застосувати TurboQuant до існуючих моделей та існуючих інференс-фреймворків, не починаючи з нуля.

Реклама

Реліз з’явився у складі QVAC SDK версії 0.12.0, який також містить нові можливості, такі як генерація відео з тексту та керування роботами. QVAC — це ширша платформа Tether, спрямована на підтримку децентралізованого ШІ на споживчому обладнанні.

Чому компанія стейблкоїну розробляє інфраструктуру ШІ

Tether активно розширюється за межі свого стейблкоїна USDT, і ШІ є одним із найбільших інвестиційних покликань. Генеральний директор Паоло Ардоджо позиціонує зусилля компанії в галузі ШІ навколо конкретної теорії: високоякісні мовні моделі повинні працювати локально на споживачських пристроях, таких як телефони та ноутбуки, а не залежати від централизованих хмарних сервісів.

Проблема пам’яті — це основна перешкода для цієї ідеї. Модель, якій потрібно 16 ГБ пам’яті лише для свого KV-кешу, не вміститься на більшості споживчих пристроїв. Зменшіть це до 3,2 ГБ — і раптово математика починає працювати.

Ардойно підкреслив, що TurboQuant наближає ефективний локальний ІІ до реальності, вирішуючи обмеження пам’яті, з якими стикаються трансформерні моделі на споживчому обладнанні.

Платформа QVAC базується на кількох попередніх методах квантування, зокрема PolarQuant та Quantized Johnson-Lindenstrauss. Команда AI Tether поєднує кілька методів стиснення, кожен з яких спрямований на різні аспекти проблеми ефективності, а TurboQuant — це останній шар у цій структурі.

Що це означає для інвесторів

Відкритий характер випуску означає, що будь-який розробник може отримати код, інтегрувати його у свій пайплайн висновку та одразу скористатися економією пам’яті. Це стратегічний крок для розвитку екосистеми навколо QVAC та позиціонування платформи Tether як стандартного інструментарію для децентралізованих додатків штучного інтелекту.

Google Research опублікувала базовий алгоритм. Ніщо не заважає самій Google чи будь-якій іншій лабораторії з достатніми ресурсами випустити власну продукційну реалізацію. Включення функцій перетворення тексту у відео та керування роботами в одному оновленні SDK свідчить про швидке ітерування команди.

Слідкуйте, чи підтверджують незалежні тестування твердження про 5-кратне стиснення для різних архітектур моделей та довжин контексту, оскільки техніки квантування іноді погіршуються у реальних умовах під час довгих діалогів або складніших завдань міркування.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.