Nous Research, Lighthouse Attention'ı açık kaynak hale getiriyor ve B200 üzerinde 17 kat hız artışı sağlıyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
MetaEra, 16 Mayıs'ta (UTC+8) Nous Research'in uzun bağlam ön-eğitim için Lighthouse Dikkat mekanizmasını açık kaynak hale getirdiğini raporladı. Bu yöntem, 512K uzunluğundaki metinlerde tek bir B200 GPU'da %170 daha hızlı hesaplama ve 98K uzunluğunda %1,4–1,7 daha hızlı eğitim sağlıyor. Düşük seviyeli kodlama veya ek eğitim hedeflerinden kaçınmak için iki aşamalı bir süreç kullanıyor. Testlerde, 50 milyar token üzerinde eğitilen 530 milyon parametreli bir model, geleneksel yöntemleri eşitliyor ya da aşıyor ve eğitim süresini azaltıyor. Kripto haber platformları, geliştiriciler ve araştırmacılar için elde edilen verimlilik kazanımlarını vurguluyor.

AIMPACT Mesajı, 16 Mayıs (UTC+8), Beating izleme sistemine göre, Nous Research uzun bağlam ön-eğitim mekanizması Lighthouse Attention’ı açık kaynak hale getirdi. Tek bir B200 GPU ile 512K uzunluğundaki metinler işlendiğinde, bu çözüm geleneksel mekanizmalara göre yaklaşık 17 kat daha hızlı hesaplama sağlıyor ve 98K uzunluğunda 1,4 ila 1,7 kat arasında端到端 eğitim hızlanması sağlıyor. Geleneksel dikkat mekanizmaları tüm kelimelerin ikili ilişkilerini hesaplamak zorunda kalır; metin uzadıkça hesaplama maliyeti kareye çıkar. Lighthouse Attention, önce genel tarama sonra ince hesaplama yaklaşımını kullanır. Farklı seviyelerde metnin sıkıştırılmış özetlerini hızlıca tarar, puanlama yaparak temel parçaları seçer ve bunları kısa bir metne birleştirir; ardından doğrudan mevcut verimli hesaplama birimi FlashAttention’e verir. Filtreleme mantığı çekirdeğin dışına taşındığı için geliştiriciler alt seviye kod yazma zorluğundan kurtulur ve ek eğitim hedefleri eklemek zorunda kalmaz. Önceki benzer hızlandırma çözümleri sıklıkla yan etkiler yaratırdı; model, sıçramalı okuma alışkanlığı kazandıkça orijinal kelime-by-kelime okuma yeteneğini kaybederdi. Bu tuzakten kaçmak için geliştirme ekibi, modelin büyük kısmını hızlandırılmış modda eğitmesini sağladı ve sadece eğitimin sonunda kısa bir süre için geleneksel tam dikkat hesaplamasına geçiş yaptı. 530 milyon parametrelik bir model üzerinde, 50 milyar Token veriyle yapılan testlerde, bu yöntemle eğitilen model hem süreyi büyük ölçüde kısalttı hem de tamamen geleneksel yöntemle eğitilen temel versiyonun performansını eşitledi ve hatta aştı. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.