ByteDance เปิดแหล่งที่มา Cola DLM: แบบจำลองการแพร่กระจายสำหรับการสร้างข้อความ

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
ทีม Seed ของ ByteDance เปิดแหล่งที่มาของ Cola DLM ซึ่งเป็นโมเดลการแพร่กระจายสำหรับการสร้างข้อความ เมื่อวันที่ 16 พฤษภาคม (UTC+8) โดยอิงจาก MetaEra โมเดลนี้รวม Text VAE และ block-causal DiT เพื่อสร้างข้อความโดยจัดระเบียบความหมายระดับสูงก่อน รุ่นเปิดแหล่งที่มาขนาด 2B มีพารามิเตอร์ทั้งหมด 23 พันล้านตัว และแสดงประสิทธิภาพที่แข็งแกร่งบนแปดแบบทดสอบ อย่างไรก็ตาม ยังคงเป็นจุดตรวจสอบการวิจัย ไม่ใช่โมเดลการสนทนา เนื่องจากขาดการปรับแต่งตามคำสั่งหรือ RLHF ในขณะที่สภาพคล่องและตลาดคริปโตยังคงพัฒนาต่อไป โมเดลเช่นนี้อาจมีอิทธิพลต่อความพยายามในการต่อต้านการสนับสนุนการก่อการร้าย (CFT) ผ่านการกรองเนื้อหาและการตรวจจับการฉ้อโกงที่ดีขึ้น

ข่าว ME News เมื่อวันที่ 16 พฤษภาคม (UTC+8) ตามการติดตามของ Beating ทีม Seed ของ ByteDance เปิดตัว Cola DLM แบบโอเพ่นซอร์ส นี่คือโมเดลภาษาแบบกระจายศูนย์เชิงต่อเนื่องที่พยายามหลีกเลี่ยงเส้นทางการสร้างข้อความแบบดั้งเดิมของโมเดลภาษาขนาดใหญ่ซึ่งสร้างทีละโทเค็นจากซ้ายไปขวา โดยเปลี่ยนกระบวนการสร้างข้อความให้เริ่มจากการจัดระเบียบความหมายระดับสูงก่อน แล้วจึงลดระดับกลับมาเป็นตัวอักษรเฉพาะเจาะจง แกนหลักของ Cola DLM คือ Text VAE + block-causal DiT Text VAE จะแปลงข้อความที่เป็นแบบไม่ต่อเนื่องให้เป็นพื้นที่ศักยภาพเชิงต่อเนื่อง จากนั้น block-causal DiT จะเรียนรู้พื้นฐานศักยภาพผ่าน Flow Matching และสุดท้ายตัวถอดรหัสตามเงื่อนไขจะแปลงตัวแปรศักยภาพกลับเป็นข้อความ กระบวนการกระจายจัดการกับการแสดงผลเชิงความหมายศักยภาพ ไม่ใช่การลดเสียงรบกวนซ้ำๆ ในระดับโทเค็น รุ่นที่เปิดตัวครั้งนี้เป็นโมเดลระดับ 2B โดยมีพารามิเตอร์รวมประมาณ 2.3 พันล้านตัว โดย DiT หลักมี 1.8 พันล้านพารามิเตอร์ และ VAE เพิ่มเติมอีก 500 ล้านพารามิเตอร์ ในการประเมิน 8 แบบรวมถึง LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD และ Story Cloze งานวิจัยระบุว่าภายใต้โปรโตคอลการประเมินแบบสร้างแบบรวมเดียวกัน โมเดลนี้มีประสิทธิภาพการขยายตัวเทียบเท่ากับ AR / LLaDA เบสไลน์ในขนาดเดียวกัน และได้คะแนนเฉลี่ยสูงสุดในผลลัพธ์สุดท้าย อย่างไรก็ตาม ขณะนี้ยังเป็นเพียง checkpoint สำหรับการวิจัย ไม่ใช่โมเดลสนทนาที่ใช้งานได้ทันที ทางทีมงานระบุว่าโมเดลนี้ยังไม่ได้รับการปรับแต่งด้วยคำสั่งหรือ RLHF และมีจุดประสงค์หลักเพื่อศึกษาการใช้การกระจายศูนย์เชิงต่อเนื่องในการสร้างข้อความ นอกจากนี้ยังแสดงผลการทดลองเบื้องต้นในการขยายไปสู่การสร้างแบบรวมข้อความและภาพ แต่คลังโอเพ่นซอร์สครั้งนี้มีเพียงสายการผลิตข้อความเท่านั้น (ที่มา: BlockBeats)

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา