Повідомлення AIMPACT, 16 травня (UTC+8): За даними моніторингу Beating, Nous Research відкрила код довготривалого механізму попереднього навчання Lighthouse Attention. При обробці текстів довжиною 512K на одній GPU B200 цей підхід прискорює обчислення приблизно в 17 разів порівняно з традиційними методами, а при довжині 98K досягає прискорення енд-ту-енд навчання в 1,4–1,7 рази. Традиційні механізми уваги вимагають обчислення парних зв’язків між усіма словами, і при збільшенні довжини тексту витрати обчислювальних ресурсів зростають квадратично. Lighthouse Attention використовує підхід «спочатку грубе відфільтрування, потім точне обчислення»: спочатку він швидко оглядає стислі зведення тексту на різних рівнях, оцінює та вибирає ключові фрагменти, щоб сформувати коротший текст, а потім передає його на обробку вже існуючому ефективному оператору FlashAttention. Оскільки логіка фільтрації повністю винесена за межі ядра, розробники не мають потреби писати нижчорівневий код вручну або додавати додаткові цілі навчання. Попередні прискорювальні рішення з подібним підходом часто мали побічні ефекти — моделі, звикші до стрибкового читання, втрачали здатність до точного посимвольного аналізу. Щоб уникнути цієї проблеми, команда розробників дозволила моделі пройти більшу частину навчання у прискореному режимі, а лише на завершальному етапі короткий час повернулася до традиційного повного механізму уваги для адаптації. У експерименті з моделлю розміром 5,3 мільярда параметрів та навчальними даними з 50 мiliардами токенів так навчена модель не лише значно скоротила час навчання, але й досягла результату, який повністю вирівнявся з базовою моделлю, навченою традиційним способом, а в деяких аспектах навіть перевершила її. (Джерело: BlockBeats)
Nous Research відкриває джерела Lighthouse Attention, досягає прискорення в 17 разів на B200
KuCoinFlashПоділитися






На блокчейн-новинному порталі MetaEra повідомили 16 травня (UTC+8), що Nous Research відкрила свій механізм Lighthouse Attention для попереднього навчання з довгим контекстом. Цей метод забезпечує в 17 разів швидше обчислення на одному GPU B200 для тексту довжиною 512K і прискорення навчання на 1,4–1,7 рази при довжині 98K. Він використовує двоетапний процес, щоб уникнути низькорівневого кодування або додаткових цілей навчання. У тестах модель з 530 мільйонами параметрів, навчена на 50 мільярдах токенів, показала результати, що дорівнюють або перевищують традиційні методи, при цьому скорочуючи час навчання. Крипто-новинні платформи підкреслюють ефективність цього підходу для розробників і дослідників.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.