การรันโมเดลปัญญาประดิษฐ์บนคอมพิวเตอร์ของคุณเองนั้นดีอยู่แล้ว—แต่ไม่ได้ดีเสมอไป
ให้คำมั่นว่าจะปกป้องความเป็นส่วนตัว ไม่มีค่าธรรมเนียมการสมัคร และข้อมูลจะไม่ออกจากอุปกรณ์ของคุณ แต่สำหรับผู้ใช้ส่วนใหญ่ ความเป็นจริงคือ ตัวชี้ตำแหน่งจะกระพริบเป็นเวลาห้าวินาทีระหว่างประโยค
ข้อจำกัดนี้มีชื่อว่า: ความเร็วในการประมวลผล การประมวลผลนี้ไม่เกี่ยวข้องกับระดับสติปัญญาของโมเดล แต่เป็นปัญหาด้านฮาร์ดแวร์ โมเดล AI ทั่วไปจะสร้างคำทีละส่วน (เรียกว่า “โทเค็น”) ฮาร์ดแวร์ต้องส่งพารามิเตอร์หลายพันล้านค่าจากหน่วยความจำไปยังหน่วยประมวลผลเพื่อสร้างแต่ละโทเค็น โครงสร้างการออกแบบนี้ช้าอยู่แล้ว บนฮาร์ดแวร์ระดับผู้บริโภค ความช้านี้แทบจะรับไม่ได้
วิธีการชั่วคราวที่ผู้คนส่วนใหญ่ใช้คือการรันโมเดลที่มีขนาดเล็กกว่าและประสิทธิภาพต่ำกว่า หรือรันเวอร์ชันที่บีบอัดอย่างมากซึ่งเรียกว่า โมเดลที่ถูกควอนตัม ทั้งสองวิธีนี้ไม่สมบูรณ์แบบ เพราะต้องแลกด้วยการสูญเสียคุณภาพบางส่วนเพื่อแลกกับความเร็ว แม้จะรันได้ แต่ก็ไม่ใช่รุ่นที่คุณต้องการจริงๆ
ตอนนี้กูเกิลได้เสนอแนวทางที่แตกต่างออกไป บริษัทเพิ่งเปิดตัวเครื่องมือร่างแบบหลายโทเค็นพยากรณ์ (MTP) สำหรับเทคโนโลยีโมเดลเปิดของพวกเขา Gemma 4 Family — เทคโนโลยีนี้สามารถเพิ่มความเร็วได้สูงถึง 3 เท่า โดยไม่ส่งผลกระทบต่อคุณภาพหรือความสามารถในการให้เหตุผลของโมเดลเลย
วิธีการนี้เรียกว่า speculative decoding โดยแนวคิดนี้มีอยู่มานานหลายปี นักวิจัยจากกูเกิลได้ตีพิมพ์งานวิจัยพื้นฐานตั้งแต่ปี 2022 จนถึงขณะนี้ แนวคิดนี้จึงค่อยๆ ได้รับการยอมรับในวงกว้าง เพราะต้องการสถาปัตยกรรมที่เหมาะสมเพื่อให้สามารถทำงานในระดับใหญ่ได้
โดยสรุปแล้ว วิธีการทำงานคือแทนที่จะให้โมเดลขนาดใหญ่ที่มีพลังสูงทำงานทั้งหมดเอง ให้รวมมันเข้ากับโมเดล “ตัวทำนาย” ขนาดเล็ก ตัวทำนายมีความเร็วสูงและต้นทุนต่ำ—มันสามารถทำนายหลายโทเค็นพร้อมกันในเวลาที่สั้นกว่าเวลาที่โมเดลหลักใช้ในการสร้างหนึ่งโทเค็น จากนั้น โมเดลขนาดใหญ่เพียงแค่ผ่านหนึ่งครั้งเพื่อตรวจสอบผลการคาดการณ์ทั้งหมด หากการคาดการณ์ถูกต้อง คุณจะได้ลำดับที่สมบูรณ์ด้วยต้นทุนเพียงหนึ่งครั้งของการดำเนินการแบบฟอร์เวิร์ด
ตามที่กูเกิลระบุ“หากโมเดลเป้าหมายตกลงร่างนี้ มันจะยอมรับลำดับทั้งหมดในหนึ่งการส่งแบบไปข้างหน้า—แม้แต่ในการสร้างแท็กเพิ่มเติมของตัวเองในกระบวนการนี้”
ไม่มีการสูญเสียใดๆ: โมเดลขนาดใหญ่—เช่น เวอร์ชันหนาแน่น 31 พันล้านของ Gemma 4—ยังคงตรวจสอบทุกโทเค็น และคุณภาพของการส่งออกก็เหมือนเดิมทั้งหมด คุณแค่ใช้พลังการคำนวณที่ว่างอยู่ในส่วนที่ทำงานช้า
Google ระบุว่า แบบจำลองการวาดภาพร่างและแบบจำลองเป้าหมายแชร์แคชคีย์-ค่า (KV cache) ซึ่งเป็นโครงสร้างหน่วยความจำที่เก็บบริบทที่ประมวลผลแล้ว ดังนั้นจึงไม่ต้องเสียเวลาคำนวณข้อมูลที่แบบจำลองขนาดใหญ่รู้อยู่แล้ว สำหรับแบบจำลองขอบขนาดเล็กที่ออกแบบมาเฉพาะสำหรับโทรศัพท์มือถือและอุปกรณ์ Raspberry Pi ทีมงานยังได้พัฒนาเทคนิคการจัดกลุ่มที่มีประสิทธิภาพเพื่อลดเวลาการสร้างเพิ่มเติม
นี่ไม่ใช่ความพยายามเพียงอย่างเดียวในด้านปัญญาประดิษฐ์ในการสร้างข้อความแบบขนาน การใช้โมเดลภาษาที่อิงการแพร่กระจาย—เช่น Mercury ของ Inception Labs—ใช้วิธีการที่ต่างออกไปอย่างสิ้นเชิง: แทนที่จะทำนายทีละโทเค็น พวกมันเริ่มต้นจากสัญญาณรบกวนและปรับปรุงผลลัพธ์ทั้งหมดแบบวนซ้ำ แม้จะมีศักยภาพด้านความเร็วสูงในทางทฤษฎี แต่โมเดลภาษาแบบแพร่กระจายยังไม่สามารถแข่งขันด้านคุณภาพกับโมเดล Transformer แบบดั้งเดิมได้ จึงมักถูกมองว่าเป็นหัวข้อการวิจัยมากกว่าเครื่องมือที่ใช้งานได้จริง
การถอดรหัสแบบคาดการณ์นั้นแตกต่างกันเพราะมันไม่ได้เปลี่ยนแปลงโมเดลพื้นฐานเลย มันเป็นการปรับปรุงประสิทธิภาพการให้บริการ ไม่ใช่การแทนที่สถาปัตยกรรม รุ่น Gemma 4 ที่คุณกำลังรันอยู่จะเร็วขึ้น
ผลจริงนั้นเด่นชัดมาก โดยตามการทดสอบมาตรฐานของกูเกิลเอง การเปิดใช้งานร่าง MTP บนชิป Gemma 4 26B ที่ใช้ GPU แบบเดสก์ท็อป Nvidia RTX Pro 6000 ทำให้ปริมาณโทเค็นต่อวินาทีเพิ่มขึ้นประมาณสองเท่า ในชิป Apple Silicon การประมวลผลแบบแบตช์ขนาด 4 ถึง 8 คำขอสามารถเพิ่มความเร็วได้ประมาณ 2.2 เท่า แม้ว่าจะไม่ใช่ทุกสถานการณ์จะสามารถบรรลุขีดจำกัดสูงสุดถึง 3 เท่า แต่นี่ยังคงเป็นความแตกต่างที่ชัดเจนระหว่าง “ใช้งานได้勉强” กับ “เร็วพอที่จะใช้งานจริง”
บริบทมีความสำคัญมาก เมื่อแบบจำลองจีน DeepSeek ทำให้ตลาดตกใจในเดือนมกราคม 2025 — ทำให้มูลค่าตลาดของ NVIDIA หายไป 6 แสนล้านดอลลาร์สหรัฐภายในหนึ่งวัน — บทเรียนหลักคือ: การเพิ่มประสิทธิภาพมีผลกระทบมากกว่าการเพิ่มความสามารถในการคำนวณเพียงอย่างเดียว การทำงานอย่างชาญฉลาดย่อมดีกว่าการลงทุนในฮาร์ดแวร์เพียงอย่างเดียว Google MTP เป็นก้าวถัดไปในทิศทางนี้ แต่มีเป้าหมายลูกค้าที่ชัดเจนคือผู้บริโภค
อุตสาหกรรมปัญญาประดิษฐ์ทั้งหมดในขณะนี้เหมือนรูปสามเหลี่ยม ประกอบด้วยสามส่วนคือ การให้เหตุผล การฝึกอบรม และการจัดเก็บข้อมูล การพัฒนาใดๆ ในสาขาหนึ่งจะส่งผลกระทบต่อระบบนิเวศทั้งหมด ตัวอย่างหนึ่งคือวิธีการฝึกอบรมของ DeepSeek (การสร้างโมเดลที่ทรงพลังด้วยฮาร์ดแวร์ระดับต่ำ) ส่วนของกูเกิล…TurboQuant (วิธีลดหน่วยความจำของปัญญาประดิษฐ์โดยไม่ลดคุณภาพ) เป็นอีกหนึ่งงานวิจัย งานวิจัยทั้งสองชิ้นนี้ทำให้ตลาดล่มสลาย เพราะบริษัทต่างๆ ต่างพยายามหาวิธีรับมือ
กูเกิลระบุว่าเครื่องมือการวาดภาพนี้สามารถ “เพิ่มความเร็วในการตอบสนอง: ลดความล่าช้าอย่างมากสำหรับแชทแบบใกล้เรียลไทม์ แอปพลิเคชันเสียงแบบมีส่วนร่วม และกระบวนการทำงานของตัวแทน” — งานประเภทนี้ต้องการความล่าช้าต่ำจึงจะสามารถทำงานได้อย่างแท้จริง
การใช้งานชัดเจนและรวดเร็ว: ผู้ช่วยโค้ดท้องถิ่นที่ไม่มีความล่าช้า; อินเทอร์เฟซเสียงที่ตอบสนองก่อนคุณจะลืมว่าคุณถามอะไรไป; กระบวนการทำงานอัจฉริยะที่ดำเนินการขั้นตอนเสร็จโดยไม่ต้องรอสามวินาที ทั้งหมดนี้สามารถทำได้บนฮาร์ดแวร์ที่คุณมีอยู่แล้ว
MTP ร่างฉบับปัจจุบันได้เปิดให้ใช้งานแล้ว拥抱脸 ซึ่งเข้ากันได้กับ Apache 2.0 License, Kaggle และ Ollama โดยรองรับ vLLM, MLX, SGLang และ Hugging Face Transformers แบบใช้งานทันที
