DeepSeek V4 แสดงประสิทธิภาพที่เสถียรบนชิปปัญญาประดิษฐ์ภายในประเทศ

icon MarsBit
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
รายงานข่าวบนโซ่ระบุว่า DeepSeek V4 ทำงานได้อย่างราบรื่นบนชิปปัญญาประดิษฐ์ภายในประเทศ เช่น Huawei Ascend 950 และ Cambricon โมเดลนี้ใช้การให้ความสำคัญแบบผสม CSA + HCA และการบีบอัด KV Cache เพื่อลดความต้องการทรัพยากร สถาปัตยกรรม MoE จำกัดพารามิเตอร์ที่ใช้งานในระหว่างการอนุมาน ทำให้เพิ่มประสิทธิภาพ การปรับปรุงที่ระดับเคอร์เนลและชั้นบริการช่วยเพิ่มความเร็วและการใช้พลังงาน ข่าว AI + crypto ชี้ให้เห็นถึงราคาที่มีความสามารถในการแข่งขัน โดยเฉพาะสำหรับงานที่ต้องใช้บริบทยาวและงานแบบ Agent ซึ่งช่วยส่งเสริมการรับรองจากองค์กร

บทความ | โลกโมเดลเวิร์กช็อป

DeepSeek V4 ทำให้ทั่วจีนตื่นเต้นอีกครั้ง

ขนาดพารามิเตอร์ ความยาวบริบท คะแนนมาตรฐาน… ตัวชี้วัดทางเทคนิคเหล่านี้ถูกเปรียบเทียบกันซ้ำแล้วซ้ำเล่าในรายงานต่างๆ

แต่หากหยุดอยู่แค่ข้อมูลพื้นผิว คุณจะพลาดแก่นสำคัญที่สุดของการเปิดตัวครั้งนี้

ในสามปีที่ผ่านมา แบบจำลองขนาดใหญ่ของจีนยังคงติดอยู่กับความจริงที่อึดอัด: การฝึกอบรมพึ่งพา NVIDIA และการให้บริการก็พึ่งพา NVIDIA เช่นกัน ชิปภายในประเทศถือเป็นตัวเลือกสำรองเท่านั้น

เมื่อ NVIDIA หยุดจัดหา ทั้งชุมชนโมเดลของจีนจะต้องรู้สึกกังวล

แต่วันนี้ DeepSeek V4 ได้พิสูจน์ด้วยความสามารถ:

แบบจำลองขนาดใหญ่ระดับล้านล้านพารามิเตอร์ขั้นสูง สามารถทำงานได้อย่างมั่นคงและมีประสิทธิภาพบนพลังการประมวลผลของประเทศ

ความหมายของเรื่องนี้ได้เกินกว่าตัวชี้วัดเทคโนโลยีของโมเดลแล้ว

การบุกเบิกแบบท้องถิ่น

เพื่อเข้าใจความยากลำบากของการปรับให้เข้ากับผลิตภัณฑ์ภายในประเทศครั้งนี้ ต้องเข้าใจจักรวรรดิชิปของ NVIDIA ก่อน

NVIDIA ไม่ได้มีเพียงชิป แต่ยังมีระบบนิเวศที่ปิดอย่างสมบูรณ์:

ในด้านฮาร์ดแวร์ มีครอบครัวชิป GPU พร้อม NVLink และ NVSwitch ที่สร้างเครือข่ายความเร็วสูงเชื่อมต่อระหว่างชิป

บนซอฟต์แวร์ CUDA เป็นระบบปฏิบัติการ AI ที่ NVIDIA ได้พัฒนาอย่างละเอียดมาตลอดกว่าสิบปี

มันเหมือนโรงงานที่ได้รับการปรับแต่งอย่างสูงสุด ตั้งแต่โอเปอเรเตอร์ระดับพื้นฐานสุด (หน่วยคำนวณแบบจำลอง) ไปจนถึงการคำนวณแบบขนาน การจัดการหน่วยความจำ และการสื่อสารแบบกระจาย ทั้งหมดถูกออกแบบมาเฉพาะสำหรับ GPU ของ NVIDIA

พูดอีกแบบคือ NVIDIA ไม่ได้แค่ขายเครื่องยนต์ แต่ยังซ่อมแซมถนน ปั๊มน้ำมัน ศูนย์ซ่อมบำรุง และระบบนำทางทั้งหมดแล้ว

แบบจำลองขนาดใหญ่ชั้นนำของโลกส่วนใหญ่เติบโตขึ้นบนระบบนิเวศนี้

การสลับไปใช้กำลังการประมวลผลภายในประเทศ กลับเผชิญกับสถานการณ์ที่ต่างอย่างสิ้นเชิง

โครงสร้างฮาร์ดแวร์ต่างกัน วิธีการเชื่อมต่อต่างกัน ความสุกงอมของซอฟต์แวร์สแต็กต่างกัน และระบบนิเวศเครื่องมือยังคงเร่งตามให้ทัน

DeepSeek ต้องการปรับให้เข้ากับชิปของประเทศ ไม่ใช่แค่การเปลี่ยนเครื่องยนต์อย่างง่ายๆ แต่เป็นการเปลี่ยนรถแข่งที่กำลังวิ่งด้วยความเร็วสูงบนทางด่วนไปเป็นเส้นทางภูเขาที่ยังอยู่ในระหว่างการก่อสร้าง

หากไม่ระมัดระวังเล็กน้อย อาจเกิดการสั่น ลดความเร็ว หรือแม้แต่รถทั้คันไม่สามารถเคลื่อนที่ไปข้างหน้าได้

ครั้งนี้ DeepSeek V4 ไม่ได้เลือกที่จะปรับปรุงเฉพาะบนเส้นทาง CUDA แต่เริ่มเข้าสู่กระบวนการปรับให้เข้ากับสแต็กซอฟต์แวร์ของพลังการประมวลผลภายในประเทศพร้อมกัน

จากข้อมูลสาธารณะ V4 ได้บรรลุความก้าวหน้าบนชิปการให้เหตุผลของประเทศเอง โดยปรับให้เข้ากับชิป HuaWei Ascend 950 อย่างลึกซึ้ง และสามารถทำงานได้อย่างมั่นคงบนชิป Cambricon ในวันที่เปิดตัวโมเดล ทำให้สามารถปรับให้เข้ากันได้ตั้งแต่วันแรก

นี่หมายความว่า แบบจำลองขั้นสูงเริ่มมีความเป็นไปได้ที่จะนำไปใช้งานภายในระบบชิปของประเทศ

DeepSeek V4 ทำได้อย่างไร?

ขั้นตอนที่หนึ่ง เกิดขึ้นที่ระดับสถาปัตยกรรมโมเดล

V4 ไม่ได้เลือกที่จะให้ชิปภายในประเทศรับภาระบริบท 1M แต่เริ่มจากการทำให้โมเดลเองมีประสิทธิภาพมากขึ้น

การออกแบบที่สำคัญที่สุดในรายงานเทคนิคอย่างเป็นทางการคือกลไกการให้ความสำคัญแบบผสม CSA + HCA และการบีบอัด KV Cache ฯลฯ เพื่อเพิ่มประสิทธิภาพบริบทยาว

พูดแบบง่ายๆ การให้เหตุผลด้วยบริบทยาวแบบดั้งเดิมคือการทำให้โมเดลเปิดหนังสือทั้งห้องสมุดทุกครั้งที่ตอบคำถาม ซึ่งจะทำให้หน่วยความจำแสดงผล แบนด์วิธ และพลังการประมวลผลถูกใช้หมดอย่างรวดเร็ว

วิธีการของ V4 คือการดัชนีใหม่ บีบอัด และกรองข้อมูลในห้องสมุดก่อน แล้วส่งเฉพาะข้อมูลที่สำคัญที่สุดเข้าสู่เส้นทางการคำนวณ

ดังนั้น บริบท 1M จึงไม่ได้พึ่งพาพลังฮาร์ดแวร์เพียงอย่างเดียว แต่เริ่มใช้อัลกอริทึมเพื่อลดขนาดบัญชีการคำนวณและบัญชีหน่วยความจำกราฟิก

This is crucial for domestic chips.

หากโมเดลยังคงพึ่งพาแบนด์วิธหน่วยความจำกราฟิกและไลบรารี CUDA ที่สุกงอมอย่างมาก ชิปภายในประเทศแม้จะรันได้ ก็ยากที่จะรันได้ในราคาถูกและเสถียร

V4 ลดภาระการประมวลผลก่อน ซึ่งโดยพื้นฐานแล้วคือการลดภาระให้กับพลังการคำนวณของประเทศเอง

ขั้นที่สอง เกิดขึ้นในสถาปัตยกรรม MoE และชั้นพารามิเตอร์การกระตุ้น

แม้ว่า V4-Pro จะมีพารามิเตอร์ทั้งหมด 1.6 ล้านล้าน แต่แต่ละครั้งในการประมวลผลจะเปิดใช้งานพารามิเตอร์ประมาณ 49 พันล้าน; V4-Flash มีพารามิเตอร์ทั้งหมด 284 พันล้าน และแต่ละครั้งจะเปิดใช้งานพารามิเตอร์ประมาณ 13 พันล้าน

นั่นหมายความว่ามันไม่ได้ดึงพารามิเตอร์ทั้งหมดมาคำนวณทุกครั้งที่เรียกใช้ แต่เหมือนทีมผู้เชี่ยวชาญขนาดใหญ่ ที่เมื่อมีงานมา ก็จะเรียกผู้เชี่ยวชาญที่เกี่ยวข้องเท่านั้นออกมาทำงาน

สำหรับชิปภายในประเทศ นี่ก็สำคัญเช่นกัน

มันลดภาระการคำนวณที่ต้องรับในแต่ละครั้งของการประมวลผล ทำให้บริบทยาวและสถานการณ์ Agent สามารถรองรับได้ง่ายขึ้นโดยการ์ดการประมวลผล

ขั้นที่สามคือการปรับให้เข้ากับระดับ Operator และ Kernel

จุดแข็งที่สุดของระบบนิเวศ CUDA คือการคำนวณระดับพื้นฐานจำนวนมากได้รับการปรับแต่งให้สมบูรณ์โดย NVIDIA ทำให้สามารถเรียกใช้การคำนวณประสิทธิภาพสูงได้โดยตรง

ความหมายของ V4 คือการดึงการคำนวณที่สำคัญบางส่วนออกจากกล่องดำของ NVIDIA และเปลี่ยนเป็นเส้นทางการคำนวณแบบกำหนดเองที่สามารถถ่ายโอนและปรับให้เข้ากับบริบทต่างๆ ได้มากขึ้น

พูดให้เข้าใจง่ายๆ คือ V4 เหมือนการถอดชิ้นส่วนที่สำคัญที่สุดของเครื่องยนต์ออก เพื่อให้ผู้ผลิตอย่าง Huawei Ascend และ Cambricon สามารถปรับแต่งตามโครงสร้างชิปของตนเอง

ขั้นที่สี่คือกรอบงานการให้เหตุผลและชั้นบริการ

หากการปรับใช้ชิปของจีนยังคงอยู่เพียงแค่ “รันเดโม” ความหมายทางอุตสาหกรรมจะไม่ใหญ่เท่าที่ควร สิ่งที่ควรให้ความสนใจอย่างแท้จริงคือ มันสามารถเข้าสู่ระบบบริการที่สามารถเรียกใช้และเรียกเก็บค่าบริการได้หรือไม่

จากการทดสอบภายใน บน Ascend 950PR ความเร็วในการให้บริการ V4 เพิ่มขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อนหน้า และการใช้พลังงานยังลดลงอย่างชัดเจน โดยประสิทธิภาพของหนึ่งการ์ดในสถานการณ์ความแม่นยำต่ำเฉพาะบางกรณี สูงกว่า NVIDIA H20 ถึงมากกว่าสองเท่า

DeepSeek ระบุว่าปัจจุบัน V4-Pro ถูกจำกัดด้วยพลังการประมวลผลระดับสูง ทำให้ความสามารถในการรับภาระงานมีจำกัด โดยคาดว่าหลังจากโนด siêu ของ Ascend 950 จำนวนมากเริ่มวางขายในช่วงครึ่งหลังของปี ราคาจะลดลงอย่างมาก

นี่แสดงให้เห็นว่า ด้วยการผลิตจำนวนมากของฮาร์ดแวร์ภายในประเทศ เช่น Ascend ความจุและการคุ้มค่าของ V4 ในอนาคตจะได้รับการปรับปรุงเพิ่มเติม

แต่ควรสังเกตว่า V4 ยังไม่ได้แทนที่ GPU และ CUDA ของ NVIDIA อย่างสมบูรณ์ การฝึกโมเดลอาจยังคงต้องพึ่ง NVIDIA แต่การให้บริการแบบอินเฟอเรนซ์สามารถค่อยๆ ผลิตในประเทศได้

นี่คือเส้นทางทางธุรกิจที่เป็นจริงมาก

การฝึกอบรมเป็นการลงทุนแบบเป็นขั้นตอน ฝึกอบรมหนึ่งครั้ง ปรับแต่งหนึ่งครั้ง ปรับปรุงหนึ่งครั้ง การอนุมานเป็นต้นทุนแบบต่อเนื่อง ผู้ใช้หลายล้านถึงพันล้านรายเรียกใช้งานทุกวัน ทุกครั้งต้องใช้พลังการคำนวณ

ค่าใช้จ่ายหลักของบริษัทโมเดลจะค่อยๆ เปลี่ยนไปสู่การให้บริการการให้เหตุผลในระยะยาว ผู้ที่สามารถรองรับความต้องการในการให้เหตุผลได้ถูกกว่าและเสถียรกว่า จะได้เปรียบจริงในแอปพลิเคชันอุตสาหกรรม

DeepSeek V4 ครั้งแรกได้เปิดเส้นทางการปรับใช้การประมวลผลแบบอินเฟอเรนซ์สำหรับโมเดลชั้นนำของจีน โดยไม่ถือว่า NVIDIA CUDA เป็นเงื่อนไขเริ่มต้น

ขั้นตอนนี้มีน้ำหนักเพียงพอแล้ว

ผลกระทบของ V4 ต่อการประยุกต์ใช้งานในอุตสาหกรรม

หากการปรับให้เข้ากับชิปภายในประเทศตอบคำถามว่าสามารถทำงานได้หรือไม่ ราคาจะตอบคำถามที่เป็นรูปธรรมกว่านั้น:

บริษัทจะจ่ายได้หรือไม่?

จุดแข็งที่สุดของ DeepSeek ในอดีตคือการลดความสามารถที่ใกล้เคียงกับโมเดลชั้นนำให้เหลือราคาต่ำมาก

ในยุค V3 และ R1 ก็เป็นเช่นนี้ และ V4 ก็ยังเป็นเช่นนี้

ความแตกต่างคือ ครั้งนี้มันไม่ได้แข่งราคาในบริบทหน้าต่างปกติ แต่ยังคงลดราคาต่อภายใต้เงื่อนไขของบริบท 1M พร้อมความสามารถของตัวแทน

ตามราคาอย่างเป็นทางการของ DeepSeek:

V4-Flash สำหรับการเข้าถึงแคช: 0.2 หยวนต่อล้านโทเค็น, ไม่พบในแคช: 1 หยวนต่อล้านโทเค็น, การส่งออก: 2 หยวนต่อล้านโทเค็น;

การเข้าถึงแคชของ V4-Pro: 1 หยวนต่อหนึ่งล้านโทเค็นสำหรับการเข้าถึงแคชสำเร็จ, 12 หยวนต่อหนึ่งล้านโทเค็นสำหรับการเข้าถึงแคชล้มเหลว, และ 24 หยวนต่อหนึ่งล้านโทเค็นสำหรับการส่งออก

เปรียบเทียบมันกับโมเดลในประเทศเดียวกัน:

เมื่อเทียบกับ Alibaba Qwen3.6-Plus ในระดับ 256K-1M ราคาเอาต์พุตของ V4-Pro อยู่ที่ประมาณครึ่งหนึ่ง และ V4-Flash ต่ำกว่านั้น

เมื่อเทียบกับรุ่น小米MiMo Pro Series ในระดับ 256K-1M ทั้ง V4-Flash และ V4-Pro ถูกกว่าอย่างชัดเจน

บริบทของ Kimi K2.6 อยู่ที่ 256K ในขณะที่ V4-Pro มีบริบทยาวกว่าและราคาต่ำกว่า; ส่วน V4-Flash ลดต้นทุนการเรียกใช้งานความถี่สูงลงไปอีกขั้น

This has great significance for enterprise applications.

เนื่องจากบริบท 1M หมายความว่าโมเดลสามารถอ่านโค้ดรีโพสิทอรีทั้งหมด ชุดสัญญาหนาๆ หนังสือชี้ชวนหลายร้อยหน้า หรือบันทึกการประชุมระยะยาว หรือสถานะประวัติที่สะสมขึ้นขณะ Agent ดำเนินการงานอย่างต่อเนื่อง

ก่อนหน้านี้ บริษัทหลายแห่งติดอยู่ที่จุดนี้: ความสามารถของโมเดลเพียงพอ แต่บริบทไม่เพียงพอ; บริบทเพียงพอ แต่ราคาสูงเกินไป; ราคาสามารถรับได้ แต่ความสามารถของโมเดลไม่มั่นคง

ตัวอย่างเช่น บริษัทหนึ่งสร้าง Agent สำหรับการวิจัยและการลงทุน โดยต้องให้โมเดลอ่านรายงานประจำปีของบริษัท รายงานการประชุมทางโทรศัพท์ด้านการเงิน รายงานอุตสาหกรรม ข่าวสารคู่แข่ง และบันทึกภายใน

เมื่อบริบทมีเพียง 128K หรือ 256K เท่านั้น ระบบมักต้องตัดข้อมูลออกเป็นชิ้นส่วน ค้นหา และสรุปอย่างต่อเนื่อง ทำให้ข้อมูลสูญหายระหว่างการบีบอัดหลายครั้ง

บริบท 1M ช่วยให้โมเดลเก็บรักษาวัสดุต้นฉบับได้มากขึ้น ลดการมองข้ามหรือขาดหาย

ตัวอย่างเช่น Agent รหัส

มันไม่ใช่การเขียนโค้ดหลายบรรทัดในครั้งเดียว แต่ต้องอ่านรีโพสิทอรี เข้าใจการพึ่งพา แก้ไขไฟล์ รันการทดสอบ และแก้ไขตามข้อผิดพลาดที่เกิดขึ้น กระบวนการนี้จะใช้โทเค็นซ้ำๆ

หากแต่ละขั้นตอนมีค่าใช้จ่ายสูง เอเจนต์จะจำกัดอยู่แค่การสาธิต แต่หากโทเค็นมีราคาถึงเพียงพอ มันจึงอาจเข้าสู่กระบวนการวิจัยและพัฒนาจริง

นี่คือมูลค่าอุตสาหกรรมของ V4

มันอาจไม่ใช่โมเดลที่แข็งแกร่งที่สุด แต่อาจกลายเป็นโมเดลที่ถูกใช้งานบ่อยที่สุดในองค์กร

DeepSeek ทำให้ AI กลับมาเป็นเครื่องมือผลิตภาพที่สามารถนำไปใช้งานในเชิงพาณิชย์ได้อย่างกว้างขวาง แทนที่จะเป็นของเล่นเฉพาะของบริษัทใหญ่เพียงไม่กี่แห่ง

คุณค่าที่แท้จริงของ V4

เมื่อบริบท 1M ถูกส่งไปยังเส้นหน้าของอุตสาหกรรมในราคาที่ต่ำมาก น้ำหนักที่แท้จริงของ DeepSeek V4 จึงปรากฏขึ้น

ทั้งหมดนี้ถูกสร้างขึ้นบนพื้นฐานของพลังการประมวลผลภายในประเทศที่ยังไม่สุกงอม

ในขณะที่เผชิญกับช่องว่างเชิงระบบในระบบนิเวศชิปของจีน ทีม DeepSeek ไม่ได้เลือกที่จะรอให้ระบบนิเวศสุกงอมก่อนเปิดตัว

พวกเขาเลื่อนช่วงเวลาเปิดตัวออกไปหลายครั้ง และใช้เวลาหลายเดือนร่วมกับพันธมิตร เช่น Huawei เพื่อดำเนินการปรับแต่งอย่างลึกซึ้ง ความซับซ้อนทางวิศวกรรมนี้สูงกว่าที่ผู้ภายนอกจินตนาการได้

ด้วยเหตุนี้ การที่ V4 สามารถบรรลุความสามารถในการให้เหตุผลและ Agent ที่ใกล้เคียงกับโมเดลปิดที่ดีที่สุดบนพลังการประมวลผลภายในประเทศ จึงเป็นเรื่องที่ยากยิ่ง

V4 ได้พิสูจน์ด้วยตัวเองว่า แม้จะเผชิญกับช่องว่างระยะแรกในระบบนิเวศฮาร์ดแวร์ ทีมจีนยังสามารถบรรลุประสิทธิภาพที่มีความสามารถในการแข่งขันได้ผ่านการลงทุนด้านวิศวกรรมอย่างสุดยอดและการสร้างนวัตกรรมร่วมกันระหว่างซอฟต์แวร์และฮาร์ดแวร์

Of course, there is still a gap from full maturity.

เครื่องมือของแพลตฟอร์ม Ascend ความมั่นคงของคลัสเตอร์ขนาดใหญ่พิเศษ และการปรับแต่งเชิงลึกสำหรับสถานการณ์เฉพาะเพิ่มเติม จำเป็นต้องได้รับความร่วมมืออย่างต่อเนื่องจากทุกฝ่ายในอุตสาหกรรม

แต่ความสำเร็จของ V4 ได้สร้างเส้นทางที่สามารถเรียนรู้ได้สำหรับรุ่นถัดไป

มันเป็นการเติมแรงกระตุ้นให้กับความเป็นอิสระและการควบคุมตนเองของซัพพลายเชน AI ทั้งหมด

ในยุคที่สภาพแวดล้อมภายนอกเต็มไปด้วยความไม่แน่นอน ความยืดหยุ่นที่สามารถก้าวข้ามข้อจำกัดเหล่านี้ น่าเคารพมากกว่าตัวชี้วัดทางเทคนิคเพียงอย่างเดียว

ไม่ถูกหลอกด้วยคำชื่นชม ไม่กลัวด้วยคำกล่าวร้าย ดำเนินชีวิตตามทางที่ถูกต้อง และปรับตนเองให้เป็นระเบียบเรียบร้อย

ข้อความนี้จากทาง DeepSeek คือคำอธิบายที่ดีที่สุดสำหรับมัน

แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา