DeepSeek เปิดตัว Visual Primitives เพื่อเสริมสร้างการให้เหตุผลเชิงพื้นที่ของ AI

บทความ | LetterAI

วันก่อนวันหยุดเทศกาลวันแรงงาน ดีพซีกได้เปิดตัวรายงานเทคโนโลยีมัลติมอดัลเชิงภาพอย่างกะทันหัน

ก่อนที่จะคลิกเปิดดู ฉันมีความคาดหวังอยู่บ้างแล้ว แค่จะมองเห็นได้ไกลแค่ไหน และชัดเจนแค่ไหน

ในที่สุดปีที่ผ่านมา โมเดลแบบมัลติมอดัลแทบทั้งหมดต่างก็แข่งขันกันไปในทิศทางนี้ OpenAI พูดถึงการคิดด้วยภาพ โดยให้โมเดลตัด ซูม และหมุนภาพในกระบวนการให้เหตุผล ส่วน Gemini และ Claude ก็กำลังหาวิธีให้โมเดลจัดการกับอินพุตภาพที่มีความละเอียดสูงขึ้นและซับซ้อนยิ่งขึ้น

ข้อสมมติร่วมกันของทุกคนคือ ยิ่งโมเดลดูรายละเอียดได้ลึกเท่าใด การให้เหตุผลทางภาพก็จะยิ่งแข็งแกร่งขึ้น

แต่เมื่อคุณอ่านรายงานของ DeepSeek คุณจะพบว่าพวกเขาได้เดินบนเส้นทางที่ต่างออกไปอย่างสิ้นเชิง

DeepSeek ไม่ได้เน้นที่ “การทำให้โมเดลเห็นพิกเซลมากขึ้น” พวกเขาให้ความสนใจกับปัญหาที่ลึกกว่านั้น

แม้ว่าโมเดลจะมองเห็นชัดเจนแล้ว แต่ในกระบวนการให้เหตุผล คุณจะรับประกันได้อย่างไรว่าโมเดลหมายถึงสิ่งเดียวกับที่คุณหมายถึง?

ที่จริงแล้วนี่คือจุดอ่อนที่มักถูกมองข้ามมากที่สุดในการให้เหตุผลแบบหลายรูปแบบ

เมื่อมนุษย์ดูรูปภาพ สามารถใช้นิ้วชี้ระบุวัตถุ เช่น “คนนี้คือใคร” หรือ “คนนั้นคือใคร” แต่โมเดลจะรู้ได้อย่างไรว่าคุณหมายถึงอะไร

โมเดลสามารถใช้ภาษาพูดได้เฉพาะว่า “อันทางซ้าย” “อันด้านบน” “เส้นนี้” เท่านั้น เมื่อภาพซับซ้อนขึ้น การอ้างอิงด้วยภาษาจะเลื่อนไป และการให้เหตุผลก็จะพังตามไปด้วย

ดังนั้น DeepSeek จึงกล่าวว่า แค่ให้โมเดลหนึ่งนิ้วก็เพียงพอแล้ว

มันเปลี่ยนจุดและกรอบขอบเขตให้เป็นหน่วยพื้นฐานในการคิดของโมเดล ทำให้โมเดลสามารถชี้ไปที่วัตถุด้วยนิ้วไซเบอร์นี้ขณะทำการวิเคราะห์

01 จากภาพต่อเนื่องไปสู่สัญลักษณ์ที่แยกจากกัน

DeepSeek ได้เสนอคำถามที่น่าสนใจในรายงานเทคนิคนี้ โดยพวกเขาเชื่อว่าจุดที่ยากที่สุดของโมเดลแบบมัลติมอดัลไม่ใช่การมองเห็นภาพ แต่คือการชี้ไปยังวัตถุทางภาพเดียวกันอย่างมั่นคงตลอดกระบวนการให้เหตุผลอย่างต่อเนื่อง

เช่นคุณพูดกับเพื่อนว่า “ในตลาดสด ร้านของคุณยายจางขายผักสดที่สุด” แต่ในตลาดสดมีคุณตาคุณยายมากมาย จะรู้ได้อย่างไรว่าใครคือคุณยายจาง?

แต่ถ้าคุณชี้ด้วยนิ้วและพูดว่า “อันนั้นแหละ” เพื่อนของคุณจะเข้าใจทันที

DeepSeek ตั้งชื่อปัญหานี้ว่า “Reference Gap”

ในปีที่ผ่านมา โมเดลหลายโมดัลขั้นสูงเกือบทั้งหมดได้แก้ไขปัญหา “ช่องว่างการรับรู้” (Perception Gap)

สมมติว่ามีรูปภาพหนึ่งวางอยู่ตรงหน้าคุณ หากภาพเบลอหรือความละเอียดต่ำเกินไป คุณอาจมองไม่เห็นข้อความเล็กๆ หรือรายละเอียดที่อยู่ไกลๆ แอปพลิเคชัน AI ก็เช่นกัน หากคุณป้อนภาพที่คุณภาพไม่ดีหรือวิธีการประมวลผลไม่ถูกต้อง มันจะ “มองไม่เห็น” นี่คือช่องว่างด้านการรับรู้

แบบจำลอง GPT, Claude, Gemini กำลังเพิ่มความละเอียดอย่างต่อเนื่อง โดยนำการตัดภาพความละเอียดสูง, การแบ่งส่วนแบบไดนามิก, และการประมวลผลหลายระดับมาใช้ เพื่อให้แบบจำลองสามารถมองเห็นรายละเอียดได้มากขึ้น

ทิศทางนี้แน่นอนว่ามีคุณค่า แต่ DeepSeek ได้ชี้ให้เห็นในรายงานว่า แม้โมเดลจะมองเห็นได้ชัดเจนเพียงใด ก็ยังคงเกิดการล้มเหลวทางตรรกะในการทำงานเชิงเหตุผลเชิงพื้นที่ที่ซับซ้อน

ปัญหาอยู่ที่ภาษาธรรมชาติเอง

ในรูปมีสุนัขหลายสิบตัว คุณพูดว่า “สุนัขตัวทางซ้าย” แบบนั้นโมเดลจะไม่สามารถเข้าใจว่าคุณหมายถึงตัวไหนอย่างชัดเจน

ยังมีอีกที่รุนแรงกว่านั้น หากคุณให้โมเดลนับจำนวนสุนัขในรูปภาพ โมเดลจะง่ายมากที่จะสับสนว่าตนเองนับไปแล้วบ้างแล้วยังเหลืออีกบ้าง

รายงานยังกล่าวถึงสถานการณ์สุดขั้วเช่นการนำทางในเขาวงกต ซึ่งภาษาเพียงอย่างเดียวไม่สามารถอธิบายเส้นทางรูปร่างไม่สม่ำเสมอและความสัมพันธ์ทอพอโลยีที่ซับซ้อนได้อย่างแม่นยำ

ภาษาในฐานะเครื่องมืออ้างอิงนั้น มีความคลุมเครือโดยธรรมชาติในพื้นที่เชิงภาพที่ต่อเนื่องกัน มันเชี่ยวชาญในแนวคิดเชิงนามธรรมและความสัมพันธ์เชิงเหตุและผล แต่ในด้านการระบุตำแหน่งเชิงพื้นที่และความสัมพันธ์เชิงทอพอโลยี ความสามารถของภาษาในการสื่อสารมีข้อจำกัดพื้นฐาน

DeepSeek เองก็เป็นโมเดลภาษาทั่วไป แล้วควรแก้ไขอย่างไร?

ดังนั้นจึงเกิดขึ้นเป็น “นิ้วมือ” ที่กล่าวถึงในตอนต้นของบทความ

แนวคิดหลักที่พวกเขาเสนอคือ “ภาพพื้นฐาน” (Visual Primitives) โดยเฉพาะอย่างยิ่งการยกระดับกรอบขอบเขต (bounding boxes) และจุด (points) ซึ่งเป็นเครื่องหมายเชิงพื้นที่ที่พื้นฐานที่สุดในด้านการมองเห็นของคอมพิวเตอร์ ให้เป็น “หน่วยเล็กที่สุดของความคิด”

แบบจำลองหลายรูปแบบรุ่นก่อนหน้านี้แม้จะสามารถวาดกรอบระบุวัตถุได้ แต่ก็แค่แสดงผลลัพธ์สุดท้ายให้คุณเห็นเพื่อพิสูจน์ว่า “ฉันหาเจอแล้ว” เหมือนเวลาสอบ คุณส่งแค่คำตอบโดยไม่เขียนขั้นตอนการแก้ปัญหา

มีการวิจัยบางชิ้นที่ให้ AI วาดกรอบในกระบวนการคิด แต่จุดประสงค์คือเพื่อ “ดูได้แม่นยำยิ่งขึ้น” เท่านั้น กรอบเหล่านี้เป็นเพียงเครื่องมือช่วยเหลือ เช่นเดียวกับการใช้กระดาษทดเมื่อคุณทำโจทย์คณิตศาสตร์ กระดาษทดช่วยให้คุณคำนวณได้ชัดเจนขึ้น แต่ไม่ใช่ส่วนหนึ่งของแนวคิดในการแก้ปัญหา

DeepSeek ต้องการทำสิ่งที่ต่างออกไปอย่างสิ้นเชิง

พวกเขาฝังเครื่องหมายพื้นที่เหล่านี้โดยตรงเข้าไปในกระบวนการให้เหตุผลของโมเดล ทำให้พวกมันกลายเป็นส่วนประกอบที่เป็นอันหนึ่งอันเดียวกันของการให้เหตุผล ขณะที่โมเดลคิด ไม่เพียงแต่ใช้ภาษาอธิบายว่า “ฉันเห็นสุนัขตัวหนึ่ง” แต่ยังส่งออกพร้อมกันว่า “ฉันเห็นสุนัขตัวหนึ่ง มันอยู่ที่นี่: [[x1,y1,x2,y2]]”

กลไกนี้ถูก DeepSeek เรียกว่า "point while it reasons"

DeepSeek

ขั้นตอนการคิดของโมเดลแต่ละขั้นจะยึดอยู่กับพิกัดเฉพาะของภาพ

รายงานทางเทคนิคได้ให้ตัวอย่างนี้เพียงตัวเดียว: แบบจำลองเริ่มต้นจากจุดเริ่มต้น สำรวจ ย้อนกลับ และลองอีกครั้ง จนในที่สุดส่งออกเส้นทางพิกัดที่สมบูรณ์ ซึ่งแต่ละพิกัดสอดคล้องกับจุดหนึ่งๆ ที่ผ่านไปในเขาวงกต

ด้วยวิธีนี้ โมเดลจะไม่หลงทางในกระบวนการให้เหตุผล มันจะไม่สับสนว่าตัวเองกำลังพูดถึงหรือชี้ไปที่อะไร แต่ละวัตถุเชิงภาพจะมีจุดอ้างอิงเชิงพื้นที่ที่ชัดเจน ทำให้กระบวนการให้เหตุผลสามารถติดตามและตรวจสอบได้

เส้นทางเทคโนโลยีนี้สร้างความน่าสนใจเมื่อเปรียบเทียบกับทิศทางของ OpenAI

OpenAI ได้ระบุอย่างชัดเจนในคำอธิบายอย่างเป็นทางการของ o3 และ o4-mini ถึงแนวคิด “การคิดด้วยภาพ” ซึ่งหมายถึงโมเดลสามารถรวมภาพเข้าไปในห่วงโซ่การให้เหตุผล และจัดการกับภาพผ่านการตัด ซูม และหมุน จุดสำคัญของทิศทางนี้คือการทำให้ภาพเองกลายเป็นส่วนหนึ่งของห่วงโซ่การคิด โดยโมเดลสามารถสร้างภาพใหม่ แก้ไขภาพ หรือดำเนินการกับภาพในระหว่างกระบวนการให้เหตุผล

OpenAI ให้ความสำคัญกับความสามารถทั่วไป โดยให้การมองเห็น โค้ด การค้นหา ไฟล์ และการเรียกใช้เครื่องมือทำงานร่วมกัน โมเดลมี “เวิร์กสเปซการมองเห็น” ที่ทรงพลัง ซึ่งสามารถจัดการงานด้านภาพได้อย่างยืดหยุ่น

เส้นทางของ DeepSeek นั้นเป็นรูปแบบที่ “สัญลักษณ์” มากกว่าเล็กน้อย มันทำให้พิกัดเข้าสู่โซ่ความคิด โมเดลจะเขียนพิกัดกรอบขอบเขตและจุดอย่างชัดเจนในข้อความการให้เหตุผล ทำให้วัตถุเชิงภาพกลายเป็นจุดอ้างอิงที่สามารถใช้ซ้ำได้ในระหว่างการให้เหตุผล

สิ่งนี้ทำให้การให้เหตุผลเชิงภาพของ OpenAI เกิดขึ้นภายใน ผู้ใช้สามารถมองเห็นเพียงคำตอบสุดท้ายและการอธิบายที่จำเป็นเท่านั้น กระบวนการประมวลผลภาพระหว่างกลางเป็นกล่องดำ ในขณะที่ DeepSeek ออกแบบให้จุดอ้างอิงเชิงภาพระหว่างกลางแสดงออกมาอย่างชัดเจน เพื่อให้กระบวนการให้เหตุผลทั้งหมดโปร่งใส

การที่ DeepSeek ทำเช่นนี้ มีข้อดีคือกระบวนการให้เหตุผลสามารถฝึกฝน ตรวจสอบ และให้คะแนนได้ง่ายขึ้น ซึ่งยังช่วยให้การออกแบบรูปแบบ คุณภาพ และรางวัลในระดับงานทำได้ง่ายขึ้น โดยเฉพาะในงานเช่น พีระมิด การติดตามเส้นทาง สามารถให้ข้อเสนอแนะแบบละเอียดเกี่ยวกับความถูกต้องของเส้นทาง ระดับการครอบคลุมของเส้นทาง เป็นต้น

โมเดลไม่ได้แค่เรียนรู้ที่จะให้คำตอบที่ถูกต้อง แต่ยังเรียนรู้วิธีการใช้องค์ประกอบเชิงภาพในการให้เหตุผล

02 ประสิทธิภาพคือหัวใจหลัก

ในรายงานของ DeepSeek มีรายละเอียดหนึ่งที่อาจถูกมองข้ามแต่มีความสำคัญอย่างยิ่ง นั่นคือ โมเดลของพวกเขาใช้จำนวน token น้อยกว่ามากเมื่อประมวลผลภาพเทียบกับโมเดลชั้นนำอื่นๆ

ในรายงานมีแผนภูมิเปรียบเทียบที่แสดงจำนวน token ที่ใช้โดยโมเดลต่างๆ เมื่อประมวลผลภาพความละเอียด 800×800

Gemini-3-Flash ประมาณ 1,100 รายการ, Claude-Sonnet-4.6 ประมาณ 870 รายการ, GPT-5.4 ประมาณ 740 รายการ, Qwen3-VL ประมาณ 660 รายการ, DeepSeek ประมาณ 361 รายการ และเก็บไว้ใน KV cache เพียงประมาณ 90 รายการ

ช่องว่างนี้ไม่ใช่น้อยๆ DeepSeek ใช้จำนวน token เพียงหนึ่งในสามของ Gemini และรายการ KV cache น้อยกว่าประมาณหนึ่งในสิบ

ความมีประสิทธิภาพสุดขั้วนี้ทำได้อย่างไร?

DeepSeek ใช้กลไกที่เรียกว่า "Compressed Sparse Attention" (CSA)

คุณสามารถเข้าใจได้ว่า ถ้าคุณแสดงรูปครอบครัวให้เพื่อนดู คุณจะไม่พูดว่า “เริ่มจากพิกเซลที่ 237 จากซ้ายมีพื้นที่สีแดง…” แต่คุณจะพูดตรงไปตรงมาว่า “ทางซ้ายคือแม่ฉัน ทางขวาคือพ่อฉัน”

DeepSeek-ViT บีบอัดภาพให้เป็นโทเค็นภาพน้อยลง ก่อนที่ CSA จะบีบอัดการแทนค่าของโทเค็นภาพเหล่านี้ใน KV cache ต่อไป

กลไกนี้เคยใช้ในโมเดล DeepSeek-V4-Flash และตอนนี้ถูกนำมาใช้ในด้านวิสัยทัศน์แบบหลายโมดัล

กระบวนการบีบอัดแบบเฉพาะเจาะจงเป็นดังนี้ ภาพขนาด 756×756 ที่มีพิกเซล 571,536 พิกเซล จะถูกประมวลผลผ่าน ViT โดยตัดเป็น patch ขนาด 14×14 ซึ่งจะได้ patch token จำนวน 2,916 ตัว จากนั้นจะมีการบีบอัดเชิงพื้นที่แบบ 3×3 โดยรวม token ที่อยู่ติดกัน 9 ตัวตามมิติของช่องทางให้กลายเป็น 1 ตัว จึงได้ visual token จำนวน 324 ตัว

token 324 ตัวนี้จะถูกป้อนเข้าสู่โมเดลภาษาขนาดใหญ่เพื่อการเติมล่วงหน้า สุดท้าย กลไก CSA จะบีบอัด token ภาพเหล่านี้ใน KV cache อีก 4 เท่า ทำให้เหลือเพียง 81 รายการ

จาก 571536 พิกเซล เป็น 81 เข้าถึงแคช KV อัตราการบีบอัดทั้งหมดอยู่ที่ 7056 เท่า

บริษัท AI ทั่วไปมักใช้วิธีการใช้ทรัพยากรการคำนวณอย่างหนัก ในขณะที่ DeepSeek ทำการตัดสินใจบนพื้นฐานของทฤษฎีข้อมูล โดยเก็บเฉพาะข้อมูลที่ตรงที่สุดและเข้าใจได้ง่ายที่สุด

ผลที่ตรงที่สุดคือความเร็วในการประมวลผลเพิ่มขึ้นอย่างมาก

จำนวนโทเค็นภาพมีผลโดยตรงต่อความล่าช้าในการประมวลผลของโมเดล ในกระบวนการสร้างแบบอัตโนมัติ ทุกครั้งที่สร้างโทเค็นใหม่ โมเดลต้องคำนวณการให้ความสำคัญกับแคช KV ของโทเค็นทั้งหมดที่ผ่านมา หากภาพใช้โทเค็น 1,000 ตัว ทุกครั้งที่สร้างจะต้องคำนวณความสำคัญสำหรับโทเค็น 1,000 ตัวนี้ หากใช้เพียง 90 ตัว ปริมาณการคำนวณจะลดลงอย่างมาก

สำหรับแอปพลิเคชันที่ต้องการการตอบสนองแบบเรียลไทม์ เช่น ระบบภาพของหุ่นยนต์ การขับขี่อัตโนมัติ และการวิเคราะห์วิดีโอแบบเรียลไทม์ การเพิ่มความเร็วในการประมวลผลมีบทบาทสำคัญยิ่ง

แล้วมันก็ใช้หน่วยความจำน้อย

KV cache เป็นข้อจำกัดด้านหน่วยความจำในการให้เหตุผลแบบโมเดลขนาดใหญ่ โดยเฉพาะเมื่อจัดการกับบริบทยาวหรือการให้เหตุผลแบบแบตช์ KV cache จะใช้หน่วยความจำ GPU จำนวนมาก DeepSeek บีบอัด KV cache ของโทเค็นภาพให้เหลือเพียง 90 เข้าสู่ ซึ่งหมายความว่าสามารถประมวลผลภาพได้มากขึ้นหรือจัดการการสนทนาแบบหลายรอบที่ยาวนานขึ้นบนฮาร์ดแวร์เดียวกัน

สิ่งนี้มีความสำคัญอย่างยิ่งต่อการนำไปใช้งานจริง โมเดลหลายรูปแบบของบริษัทหลายแห่งแสดงผลลัพธ์ที่ดีในห้องปฏิบัติการ แต่เมื่อถึงขั้นนำไปใช้งานจริงกลับพบปัญหาด้านต้นทุน ยิ่งภาพแต่ละภาพใช้โทเค็นมากเท่าใด ต้นทุนการประมวลผลก็ยิ่งสูงขึ้น และผู้ใช้งานพร้อมกันที่สามารถรองรับได้ก็ยิ่งลดลง ข้อได้เปรียบด้านประสิทธิภาพของ DeepSeek จะถูกขยายใหญ่ขึ้นเมื่อทำการปรับใช้ในระดับใหญ่

นอกจากนี้ยังเพิ่มความจุบริบทของโมเดลอย่างไม่เป็นทางการ

หากภาพหนึ่งภาพใช้ทรัพยากร 1,000 token จะสามารถใส่ภาพได้เพียงกว่า 100 ภาพในหน้าต่างบริบท 128k หากใช้เพียง 300 token จะสามารถใส่ภาพได้กว่า 400 ภาพ ซึ่งมีความสำคัญอย่างยิ่งต่อสถานการณ์ที่ต้องจัดการกับการสนทนาหลายภาพ การวิเคราะห์วิดีโอความยาว และการเข้าใจเอกสารจำนวนมาก

โมเดลของ DeepSeek สามารถจัดการภาพจำนวนมากภายในการสนทนาเดียว สามารถเปรียบเทียบและวิเคราะห์ภาพหลายสิบถึงหลายร้อยภาพ และติดตามการเปลี่ยนแปลงระยะยาวในวิดีโอ

ที่สำคัญที่สุดคือต้นทุนการฝึกอบรม

แม้รายงานจะเน้นที่ประสิทธิภาพการให้เหตุผล แต่กลไกการบีบอัดนี้ก็มีประสิทธิภาพเช่นกันในขั้นตอนการฝึกอบรม จำนวน token ภาพที่น้อยลงหมายถึงกราฟการคำนวณที่เล็กลง ความเร็วในการฝึกอบรมที่เร็วขึ้น และความต้องการฮาร์ดแวร์ที่ต่ำลง

DeepSeek ได้รับการรู้จักในเรื่อง “การสร้างผลลัพธ์ที่ดีกว่าด้วยทรัพยากรน้อยลง” ตั้งแต่การฝึกอบรมการเรียนรู้แบบเสริมแรงใน R1 ไปจนถึงสถาปัตยกรรม MoE ใน V4 และจนถึงหลายโมดัลลิตี้ด้านภาพในปัจจุบัน ปรัชญาที่เน้นประสิทธิภาพนี้ยังคง贯穿อยู่อย่างต่อเนื่อง

แต่ที่นี่มีปัญหาสำคัญอย่างหนึ่ง การบีบอัดจะทำให้สูญเสียข้อมูลหรือไม่?

DeepSeek ไม่ได้ปฏิเสธว่าการบีบอัดจะทำให้สูญเสียข้อมูล ข้ออ้างของมันคือ ในชุดงานเชิงเหตุผลเชิงพื้นที่และการนับเหล่านี้ การแสดงผลที่ถูกบีบอัดยังคงมีประสิทธิภาพเพียงพอ

แต่ละขั้นตอนการบีบอัดจะรักษาข้อมูลที่สำคัญที่สุดสำหรับการให้เหตุผล และตัดข้อมูลที่ซ้ำซ้อนและสัญญาณรบกวนออก

ที่จริงแล้วกลไกพื้นฐานทางภาพของ DeepSeek ที่กล่าวถึงก่อนหน้านี้ ก็เป็นรูปแบบหนึ่งของการบีบอัดข้อมูล เช่น กล่องขอบสามารถระบุตำแหน่งวัตถุได้อย่างแม่นยำด้วยตัวเลข 4 ตัว จุดหนึ่งจุดสามารถระบุตำแหน่งได้ด้วยตัวเลข 2 ตัว สัญลักษณ์ที่แยกจากกันเหล่านี้มีความหนาแน่นของข้อมูลสูงกว่าพิกเซลดิบอย่างมาก

จากผลการทดลอง ความบีบอัดนี้ไม่ได้ทำให้ประสิทธิภาพเสียหาย แต่กลับช่วยเพิ่มประสิทธิภาพในบางงาน

นี่แสดงให้เห็นว่าสำหรับงานการให้เหตุผลเชิงภาพหลายอย่าง ข้อจำกัดไม่ได้อยู่ที่การมองไม่ชัดเจน แต่อยู่ที่การไม่พบวิธีการแทนค่าที่เหมาะสม

ข้อได้เปรียบด้านประสิทธิภาพนี้ยังพิสูจน์ว่าปัญญาประดิษฐ์แบบหลายรูปแบบไม่จำเป็นต้องใช้โมเดลที่ใหญ่ขึ้น ทรัพยากรการประมวลผลมากขึ้น หรือต้นทุนสูงขึ้น

ตั้งแต่เกิดขึ้นในช่วง DeepSeek บริษัทนี้ได้มีเส้นทางลับ一条ที่ว่า “ปัญญาที่แท้จริงไม่ได้อยู่ที่พลังการคำนวณ แต่อยู่ที่ความเข้าใจในแก่นของปัญหา”

เมื่อคุณเข้าใจอย่างแท้จริงว่าการให้เหตุผลทางภาพต้องการอะไร คุณก็ไม่จำเป็นต้องใช้โทเค็นมากมาย เมื่อคุณพบวิธีการแทนค่าที่เหมาะสม คุณก็ไม่จำเป็นต้องใช้โมเดลที่ใหญ่ขนาดนั้น

ในมุมมองนี้ ประสิทธิภาพสุดขั้วของ DeepSeek ไม่ใช่เป้าหมาย แต่เป็นผลพลอยได้ เป้าหมายที่แท้จริงคือการค้นหาแนวทางที่ถูกต้องสำหรับการให้เหตุผลเชิงภาพ ประสิทธิภาพเพียงแสดงให้เห็นว่าแนวทางนี้ถูกต้อง

03 สิ่งที่ยังค้างค่า

DeepSeek ได้ระบุอย่างตรงไปตรงมาถึงปัญหาบางประการที่มีอยู่ในวิธีการปัจจุบันในส่วนข้อจำกัดของรายงาน ปัญหาเหล่านี้ไม่ใช่ข้อบกพร่องเล็กน้อยด้านเทคนิค แต่ชี้ไปสู่ขั้นตอนถัดไปของการให้เหตุผลเชิงภาพ

ปัญหาข้อแรกคือการพึ่งพาคำกระตุ้น

รายงานระบุชัดเจนว่า ความสามารถในการ “คิดด้วยองค์ประกอบเชิงภาพ” ในปัจจุบันต้องการคำกระตุ้นที่ระบุชัดเจน (explicit trigger words) เพื่อเปิดใช้งาน กล่าวคือ โมเดลยังไม่สามารถตัดสินใจอย่างเป็นธรรมชาติและอิสระว่า “ควรวาดกรอบหรือจุดเมื่อใด”

มันหมายความว่าโมเดลยังไม่ได้เรียนรู้อย่างแท้จริงว่าควรใช้ภาพพื้นฐานเมื่อใด และเมื่อใดก็แค่ใช้ภาษาเพียงพอ

ในสถานการณ์ที่สมบูรณ์แบบ โมเดลควรสามารถตัดสินใจเองตามลักษณะของงาน แต่เมื่อผู้ใช้ถามว่า “นับดูว่าในรูปมีสุนัขกี่ตัว” โมเดลควรสลับไปยังโหมดพื้นฐานทางภาพโดยอัตโนมัติ และใช้กรอบขอบเขตช่วยในการนับ

ในเชิงเทคนิค นี่ต้องการการสร้างชั้นเมตาคอกนิชันภายในโมเดล ชั้นเมตาคอกนิชันนี้สามารถประเมินความซับซ้อนของงานปัจจุบัน ตัดสินว่าการให้เหตุผลด้วยภาษาเพียงอย่างเดียวเพียงพอหรือไม่ และตัดสินใจว่าจำเป็นต้องเรียกใช้ภาพพื้นฐานหรือไม่

DeepSeek ยังไม่ได้ดำเนินการชั้นเมตาคอกนิชันนี้ แต่พวกเขาก็ได้ระบุทิศทางชัดเจนแล้ว รุ่นในอนาคตอาจทำให้โมเดลสามารถเรียนรู้ที่จะตัดสินใจเลือกกลยุทธ์การให้เหตุผลด้วยตัวเอง โดยไม่ต้องพึ่งการกระตุ้นจากภายนอก

ปัญหาที่สองคือข้อจำกัดด้านความละเอียด

รายงานระบุว่า ด้วยข้อจำกัดของความละเอียดของอินพุต โมเดลยังแสดงประสิทธิภาพไม่ดีพอในสถานการณ์ที่ต้องการความละเอียดสูง และองค์ประกอบเชิงภาพที่สร้างขึ้นบางครั้งไม่แม่นยำพอ

ปัญหานี้เกี่ยวข้องกับกลยุทธ์ที่ DeepSeek เน้นประสิทธิภาพ เพื่อควบคุมจำนวนโทเค็น พวกเขาจึงจำกัดช่วงโทเค็นภาพไว้ระหว่าง 81 ถึง 384 สำหรับภาพที่เกินช่วงนี้ จะมีการปรับขนาด

การออกแบบนี้เหมาะสมในสถานการณ์ส่วนใหญ่ แต่จะพบข้อจำกัดในงานที่ต้องการความแม่นยำสูงมาก เช่น การวิเคราะห์ภาพทางการแพทย์ที่ต้องระบุจุดเล็กๆ ของโรค หรือการตรวจสอบคุณภาพในอุตสาหกรรมที่ต้องตรวจจับข้อบกพร่องเล็กน้อย ซึ่งสถานการณ์เหล่านี้ต้องการความละเอียดสูง

DeepSeek ระบุในรายงานว่า ปัญหานี้สามารถแก้ไขได้โดยการรวมวิธีความละเอียดสูงที่มีอยู่แล้ว กล่าวคือ โครงสร้างพื้นฐานภาพของพวกเขาและวิธีการตัดแบบความละเอียดสูงแบบดั้งเดิมไม่ได้ขัดแย้งกัน แต่เสริมซึ่งกันและกัน

ฉันคิดว่า DeepSeek ควรพัฒนาแนวทางแบบผสม

สำหรับงานทั่วไปส่วนใหญ่ ใช้การแทนค่าภาพที่บีบอัดและการให้เหตุผลด้วยองค์ประกอบภาพเพื่อรักษาประสิทธิภาพสูง สำหรับพื้นที่ย่อยที่ต้องการการวิเคราะห์แบบละเอียด ให้เรียกใช้การตัดภาพความละเอียดสูงแบบไดนามิก เพื่อดึงข้อมูลภาพที่ละเอียดยิ่งขึ้น วิธีนี้ช่วยรักษาประสิทธิภาพโดยรวมและตอบสนองความต้องการด้านความแม่นยำในระดับย่อย

กุญแจสำคัญของแนวทางผสมผสานนี้คือการให้โมเดลเรียนรู้ที่จะตัดสินใจว่าพื้นที่ใดต้องการการประมวลผลความละเอียดสูง ดังนั้นจึงกลับมาสู่ปัญหาเมตาคอกนิชันที่กล่าวถึงก่อนหน้านี้

คำถามที่สามคือการทั่วไปข้ามบริบท

รายงานระบุว่า การใช้จุดเป็นองค์ประกอบเชิงภาพเพื่อแก้ไขปัญหาการให้เหตุผลเชิงทอพอโลยีที่ซับซ้อนยังคงเป็นเรื่องยาก และความสามารถในการทั่วไปข้ามบริบทของโมเดลมีจำกัด

ปัญหานี้ปรากฏชัดเจนในงานการนำทางในเขาวงกตและการติดตามเส้นทาง แม้ว่า DeepSeek จะบรรลุความแม่นยำ 66.9% และ 56.7% บนชุดการทดสอบที่สร้างขึ้นเอง ซึ่งสูงกว่าโมเดลอื่นๆ แต่ตัวเลขเหล่านี้ยังไม่เพียงพอ

更重要的是，这些任务都是在合成数据上训练和测试的。迷宫是用算法生成的，路径追踪的曲线也是程序化绘制的。当模型遇到真实世界里的拓扑推理问题时，比如在真实地图上规划路径，在复杂管线图里追踪连接关系，表现可能会下降。

วิธีการของ DeepSeek คือการใช้ข้อมูลขนาดใหญ่และหลากหลายเพื่อเพิ่มความสามารถในการทั่วไป พวกเขาดึงข้อมูลจากแหล่งข้อมูล 97,984 แหล่ง ผ่านการกรองอย่างเข้มงวดแล้วเหลือ 31,701 แหล่ง สุดท้ายได้ตัวอย่างมากกว่า 40 ล้านตัวอย่าง ในงานอุโมงค์และภารกิจติดตามเส้นทาง พวกเขายังออกแบบโครงสร้างทอพอโลยี รูปแบบภาพ และระดับความยากหลายแบบ เพื่อครอบคลุมความหลากหลายให้มากที่สุด

อย่างไรก็ตาม ความหลากหลายของข้อมูลเป็นเพียงส่วนหนึ่งของความสามารถในการทั่วไป โมเดลเข้าใจแก่นแท้ของการให้เหตุผลเชิงทอพอโลยีจริงๆ หรือว่ามันแค่จดจำรูปแบบจากข้อมูลการฝึกสอนเท่านั้น?

นอกจากนี้ องค์ประกอบเชิงภาพของ DeepSeek เป็นระบบการแทนค่าใหม่ ที่ต้องการรูปแบบข้อมูลเฉพาะ กระบวนการฝึกอบรม และวิธีการประเมินเฉพาะ ซึ่งไม่สามารถใช้งานร่วมกับระบบนิเวศแบบหลายโมดัลปัจจุบันได้อย่างสมบูรณ์

ชุดข้อมูลและการประเมินผลแบบมัลติโมดาลส่วนใหญ่ถูกออกแบบมาบนพื้นฐานของรูปแบบแบบดั้งเดิม “ภาพ + ข้อความ” โดยไม่ได้พิจารณาองค์ประกอบภาพ หากต้องการประเมินโมเดลของ DeepSeek บนฐานการประเมินเหล่านี้ ต้องปิดใช้งานฟีเจอร์องค์ประกอบภาพ หรือต้องออกแบบวิธีการประเมินใหม่

นักวิจัยคนอื่นๆ ที่ต้องการทำซ้ำหรือปรับปรุงงานนี้ จะต้องสร้างกระบวนการข้อมูลและการฝึกอบรมใหม่ทั้งหมด ซึ่งมีอุปสรรคสูง

DeepSeek สามารถพูดถึงปัญหาเหล่านี้ในรายงานได้ แสดงว่าพวกเขามีความเข้าใจอย่างชัดเจนเกี่ยวกับงานของตนเอง

สิ่งนี้อาจมีคุณค่ามากกว่าการให้คำตอบที่สมบูรณ์แบบ เพราะมักจะไม่ใช่คำตอบ แต่คือคำถามที่ขับเคลื่อนความก้าวหน้าของสังคม