Cerebras тестує модель Kimi K2.6 зі швидкістю на 29 разів вищою у завданнях з довгими текстами

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Cerebras 20 травня (UTC+8) повідомила, що протестувала модель Kimi K2.6 з трильйоном параметрів за допомогою своїх чіпів масштабу вейфера. Завдяки прямому монтажу чіпів на повному вейфері діаметром 12 дюймів, компанія зменшила затримки зв’язку. За даними Artificial Analysis, модель генерувала текст зі швидкістю 981 токенів/с — у 6,7 раза швидше, ніж стандартні сервіси на GPU. У тесті з довгим текстом — 10 000 вхідних та 500 вихідних токенів — час відповіді знизився з 163,7 секунди до 5,6 секунди — покращення на 29 разів. Дані в блокчейні продовжують підтверджувати зростання продуктивності інфраструктури ШІ.

ME News повідомляє, 20 травня (UTC+8), за даними моніторингу Beating, компанія Cerebras, що виробляє чіпи на рівні вугілля, оголосила про запуск великої моделі з трильйоном параметрів Kimi K2.6 у корпоративному тестуванні, повністю усунувши затримки з’єднання традиційних платних комунікацій шляхом інтеграції чіпа на цілій 12-дюймовій кремнієвій вугіллі. За результатами незалежного тестування від Artificial Analysis, швидкість генерації досягла 981 токенів/с — у 6,7 раза швидше, ніж у популярних хмарних сервісах на базі GPU. У завданні з довгим текстом — 10 000 токенів на вхід і 500 на вихід — загальний час відповіді скоротився з 163,7 секунди через офіційний інтерфейс Kimi до 5,6 секунди, що становить прискорення у 29 разів. Оскільки ваги моделі розподілено між кількома вугіллями для потокової передачі активацій, а міжшарова комунікація повністю виконується на мережевому полотні всередині вугілля, фізична пропускна здатність з’єднання перевищує NVLink у архітектурі NVIDIA NVL72 більше ніж у 200 разів. У поєднанні з оптимізацією розподіленого обчислення, Kimi K2.6 зберігає ваги в оригінальному 4-бітному (4-бітному) форматі з мінімальними втратами, під час обчислень використовує 16-бітні (16-бітні) числа з плаваючою комою для збереження точності та застосовує кастомні ядра операторів та передбачувальне декодування для досягнення реального часу роботи. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.