AIMPACT Mesajı, 19 Mayıs (UTC+8), Beating izleme sistemine göre, Sapient Intelligence, 1 milyar parametreli (1B) metin üretimi temel modeli HRM-Text'i açık kaynak hale getirdi. Bu model, hiyerarşik çıkarım modeli (HRM) mimarisine dayalı saf ön-eğitimli bir modeldir. Mimarinin alt katmanlarına gizli uzay çıkarımı ekleyerek, temel model ön-eğitimindeki hesaplama tüketimini 130 ila 600 kat azaltır. Özellikle, HRM-Text, ön-eğitimi sadece 40 milyar (40B) yapılandırılmış Token kullanarak tamamladı; bu veri miktarı, aynı sınıftaki standart modellerin yaklaşık binde biridir. Resmi testlerde, iki adet 8 kartlı H100 sunucusuyla 1B sürümün sıfırdan eğitimi yaklaşık 46 saatte ve yaklaşık 1.472 ABD doları maliyetle tamamlanmıştır; 0,6B sürümü ise tek bir düğümde 50 saatte çalıştırılabilmekte ve donanım maliyeti yaklaşık 800 ABD dolarıdır. Veri çıkarma, dizi paketleme ve PyTorch dağıtık eğitimini içeren tam mühendislik çerçevesi aynı anda açık kaynak hale getirilmiştir. Mükemmel maliyet düşürme, benzersiz çift zaman ölçekli döngü (Dual-timescale recurrent) tasarımıyla desteklenmektedir. Model, hızlı (alt katman) ve yavaş (üst katman) olmak üzere iki ayrı Transformer modülünü içerir. Bu iki modül, aynı girdi seti üzerinde alternatif olarak yinelenir ve durum toplamı yoluyla bilgi paylaşır. Bu tasarım, fiziksel parametre sayısının sabit kalması koşuluyla, döngü sayısını artırarak hesaplama derinliğini dinamik olarak genişletmeyi sağlar. Ön-eğitim eşiğindeki keskin düşüş, geçmişte yüksek hesaplama maliyetleri nedeniyle ertelenen birçok model teorisini düşük maliyetle doğrulama fırsatı sunmaktadır. Özellikle dikkat edilmesi gereken nokta, bu kez serbest bırakılan modellerin hizalanmamış saf ön-eğitim ağırlıkları olduğudur; bu modeller yalnızca önek tamamlama görevlerini gerçekleştirebilir ve doğrudan soru-cevap asistanı olarak kullanılamaz. (Kaynak: BlockBeats)
Sapient, 1.300 kat daha düşük eğitim maliyetiyle 1 milyar parametreli HRM-Text modelini açık kaynak hale getiriyor
KuCoinFlashPaylaş






Sapient Intelligence, 19 Mayıs'ta (UTC+8) zincir üstü haber yayınladı ve HRM-Text adlı, hiyerarşik akıl yürütme mimarisine sahip 1 milyar parametreli bir metin modelini açık kaynak hale getirdi. Model, ön-eğitim maliyetlerini 130 ila 600 kat azaltmak için gizli uzay akıl yürütmesini kullanıyor. Model, benzer modeller tarafından kullanılan verinin bir kesiti olan 40 milyar yapılandırılmış token üzerinde eğitildi. 1 milyar sürümü, iki adet 8-GPU H100 sunucusu kullanılarak 46 saatte ve 1.472 dolar maliyetle eğitilebilir. 0,6 milyar sürümün maliyeti 800 dolar. Veri çıkarma ve PyTorch eğitimi dahil olmak üzere tam mühendislik çerçevesi de açık kaynak hale getirildi. Enflasyon verileri ve eğitim verimliliği, bu yayınla birlikte öne çıkan anahtar noktalar.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.