DiffusionGemma สร้างข้อความเร็วขึ้น 4 เท่าโดยใช้เทคนิคการกระจาย

เป็นเวลาหลายปี โมเดลภาษาขนาดใหญ่ทำงานเหมือนผู้พิมพ์ที่เร็วมาก: ทีละคำ จากซ้ายไปขวา โดยไม่หันกลับมามอง แต่ DiffusionGemma ทิ้งแผนการนั้นไปโดยสิ้นเชิง โมเดลแบบเปิดใช้เทคนิคการแพร่กระจายเพื่อสร้างบล็อกข้อความทั้งหมดพร้อมกัน ทำให้ความเร็วในการสร้างเร็วขึ้นถึงสี่เท่าเมื่อเทียบกับโมเดลแบบอัตโนมัติแบบดั้งเดิม

วิธีการทำงานของ DiffusionGemma จริงๆ

โมเดลภาษาแบบดั้งเดิมสร้างข้อความแบบลำดับ ทีละโทเค็น (โดยทั่วไปคือคำหรือส่วนของคำ) โดยแต่ละโทเค็นใหม่จะขึ้นอยู่กับทุกอย่างที่เกิดขึ้นก่อนหน้า

DiffusionGemma ยืมเทคนิคเดียวกันกับที่ปฏิวัติการสร้างภาพ โมเดลการแพร่กระจายทำงานโดยเริ่มจากสัญญาณรบกวนและปรับปรุงมันอย่างค่อยเป็นค่อยไปจนได้ผลลัพธ์ที่สอดคล้องกัน เมื่อประยุกต์ใช้กับข้อความ หมายความว่าโมเดลสามารถทำงานกับหลายส่วนของคำตอบพร้อมกัน โดยไม่ต้องรอให้แต่ละคำเสร็จสมบูรณ์ก่อนจะไปยังคำถัดไป

โฆษณา

ในการประเมิน DiffusionGemma บรรลุความเร็วในการสุ่มตัวอย่างประมาณ 1,479 โทเค็นต่อวินาที ความเร็วที่เพิ่มขึ้น 4 เท่านี้ไม่ใช่ขีดจำกัดเชิงทฤษฎี แต่เป็นมาตรฐานที่วัดได้

เนื่องจากโมเดลการแพร่กระจายปรับปรุงผลลัพธ์แบบวนซ้ำแทนที่จะยึดติดกับแต่ละโทเค็นอย่างถาวร DiffusionGemma จึงสามารถปรับแก้ข้อผิดพลาดได้ในระหว่างกระบวนการสร้างเอง โมเดลแบบดั้งเดิมไม่มีข้อได้เปรียบนี้ เมื่อคำใดคำหนึ่งถูกสร้างขึ้นแล้ว มันจะถูกตรึงไว้ และข้อผิดพลาดที่ตามมาจะแพร่กระจายไปข้างหน้า

มุมมองด้านฮาร์ดแวร์และความเชื่อมโยงกับ Google DeepMind

DiffusionGemma ได้รับแรงบันดาลใจจาก Gemini Diffusion ของ Google DeepMind ซึ่งเป็นผู้บุกเบิกแนวทางที่ใช้การแพร่กระจายเพื่อสร้างข้อความอย่างมีประสิทธิภาพ

DiffusionGemma ได้รับการปรับแต่งโดยเฉพาะสำหรับแพลตฟอร์ม NVIDIA รวมถึงระบบ RTX PRO และ DGX หมายความว่านักพัฒนาสามารถรันโมเดลนี้ได้แบบโลคัลพร้อมประสิทธิภาพที่เร่งความเร็ว โดยไม่ต้องพึ่งพา API บนคลาวด์เพียงอย่างเดียว

การประเมินมาตรฐานแสดงว่า DiffusionGemma มีประสิทธิภาพเทียบเท่ากับโมเดลขนาดใหญ่กว่า ขณะเดียวกันก็รักษาข้อได้เปรียบด้านความเร็วไว้ได้ โดยอ้างอิงจากผลการประเมิน Gemini Diffusion ได้คะแนน 30.9% เทียบกับ Gemini 2.0 Flash-Lite ที่ได้ 28.5%

สิ่งนี้หมายถึงอะไรต่อสภาพแวดล้อมของปัญญาประดิษฐ์และนักลงทุน

สำหรับธุรกิจที่พึ่งพาการสร้างข้อความอย่างรวดเร็ว ผลกระทบชัดเจน: สายการผลิตเนื้อหา ระบบอัตโนมัติสำหรับบริการลูกค้า เครื่องมือสร้างโค้ด และแอปพลิเคชันใดๆ ที่ต้องการความล่าช้าน้อยสามารถได้รับประโยชน์จากการเพิ่มความเร็วขึ้น 4 เท่า การประมวลผลที่เร็วขึ้นยังหมายถึงต้นทุนการคำนวณต่อคำขอที่ลดลง ซึ่งส่งผลโดยตรงต่อเศรษฐศาสตร์ของการนำ AI ไปใช้งานในระดับใหญ่

ความเสี่ยงหลักคือการรับรองการใช้งาน แม้โมเดลจะแสดงผลดีในการประเมินภายใต้สภาพแวดล้อมที่ควบคุม แต่ก็ยังอาจเผชิญกับความท้าทายที่ยุ่งเหยิงและไม่สามารถคาดเดาได้จากการนำไปใช้งานในโลกจริง ข้อเท็จจริงที่ว่ามันเป็นแบบเปิดและได้รับการปรับแต่งให้เหมาะกับฮาร์ดแวร์ NVIDIA ที่มีให้ใช้งานอย่างแพร่หลาย อย่างน้อยก็ช่วยลดอุปสรรคสองประการทั่วไปในการทดลองใช้งาน