อดีตนักวิจัยของ xAI เอธัน ฮี เปิดเผยโครงสร้างต้นทุนจริงของการฝึกอบรม AI วิดีโอ: การจัดเก็บวิดีโอ 1 พันล้านวิดีโอต้องการพื้นที่ 5 PB ค่าใช้จ่ายการจัดเก็บรายเดือนเกิน 100,000 ดอลลาร์สหรัฐ; ข้อมูลคุณลักษณะที่บีบอัดมีขนาดเท่ากับวิดีโอต้นฉบับ เมื่อรวมกันแล้วค่าใช้จ่ายการจัดเก็บรายเดือนเกิน 200,000 ดอลลาร์สหรัฐ; ค่าใช้จ่ายในการส่งและรับข้อมูลสูงกว่าค่าใช้จ่ายการจัดเก็บอีก ประเมินโดยรวมต้นทุนข้อมูลต่อเดือนสูงถึงหลายล้านดอลลาร์สหรัฐ โดยยังไม่รวมต้นทุน GPU ผู้เขียนชี้ว่าแนวป้องกันของโมเดลวิดีโอไม่ได้อยู่ที่อัลกอริธึม แต่อยู่ที่โครงสร้างพื้นฐาน ขีดจำกัดนี้จะจำกัดการแข่งขันให้เหลือเพียงผู้เล่นไม่กี่รายเท่านั้น รูปแบบอุตสาหกรรมคล้ายคลึงกับโรงงานผลิตวเฟอร์เซมิคอนดักเตอร์
ผู้เขียนบทความ แหล่งที่มา: ยูฮังยวน
เกี่ยวกับการใช้จ่ายเงินจำนวนมากเพื่อ AI มีตัวเลขที่น่าตกใจมากมายที่ถูกพูดถึงในอุตสาหกรรม xAI ใช้เงินมากกว่า 1 พันล้านดอลลาร์สหรัฐในการสร้างคลัสเตอร์ซูเปอร์คอมพิวเตอร์ Colossus; ค่าใช้จ่ายด้านพลังการคำนวณรายเดือนของ OpenAI ถูกกล่าวว่าสูงถึงหลายร้อยล้านดอลลาร์สหรัฐ; เงินทุนที่ Anthropic ระดมได้ในการระดมทุนหลายรอบในสายตาของสาธารณชนแทบจะเทียบเท่ากับ “ชั่วโมง GPU” โดยตรง
สิ่งที่ทุกคนพูดถึงเกือบทั้งหมดคือพลังการคำนวณ GPU กลายเป็นสกุลเงินมาตรฐานในการวัดความแข็งแกร่งของบริษัท AI และเป็นตัวเลขที่เด่นที่สุดในรายงานการระดมทุนทุกฉบับ
แต่เมื่อเร็วๆ นี้ ฉันได้ฟังพอดี Latent Space ซึ่งสัมภาษณ์ Ethan He นักวิจัยเดิมของ xAI—เมื่อ Ethan เข้าร่วม xAI ในช่วงกลางปี 2025 เขาต้องเผชิญกับสถานการณ์ที่ไม่มีโครงสร้างพื้นฐาน ไม่มีข้อมูล และไม่มีโมเดลสำเร็จรูปใดๆ เลย แต่เขาและทีมเล็กๆ ได้สร้างระบบ Grok Imagine สำหรับการสร้างวิดีโอขึ้นมาตั้งแต่ศูนย์ภายในสามเดือน และบรรลุมาตรฐานระดับแนวหน้าของอุตสาหกรรมในเวลานั้น
เมื่อพูดถึงต้นทุนการฝึกโมเดลวิดีโอขนาดใหญ่ เขาได้กล่าวตัวเลขชุดหนึ่ง ทำให้ฉันตระหนักทันทีว่า อุตสาหกรรมนี้อาจคำนวณบัญชีผิดมาโดยตลอด
การจัดเก็บวิดีโอและข้อมูลคุณลักษณะเหล่านี้เพียงอย่างเดียว ต้องใช้เงินหลายล้านดอลลาร์ต่อเดือน—ยังไม่รวมต้นทุนการประมวลผล
ค่าใช้จ่ายที่ซ่อนอยู่ในใบแจ้งหนี้
จากศูนย์ถึงหนึ่ง การฝึกโมเดลวิดีโอขนาดใหญ่ต้องใช้เงินเท่าไหร่? สมมติว่าทีมของคุณมีแหล่งแร่และสามารถใช้พลังการประมวลผล GPU ได้ตามต้องการ แม้เช่นนั้น คุณอาจยังประเมินต้นทุนอันมหาศาลของเรื่องนี้ต่ำเกินไป
สมมติว่าคุณต้องการฝึกโมเดลการสร้างวิดีโอระดับโลก โดยดึงวิดีโอจากอินเทอร์เน็ตจำนวน 1 พันล้านวิดีโอ โดยแต่ละวิดีโอเฉลี่ย 5 เมกะไบต์—นี่ยังถือเป็นการประมาณการที่ค่อนข้างอนุรักษ์นิยม เพียงแค่ส่วนนี้ คุณจะต้องการพื้นที่จัดเก็บ 5 พีตาไบต์ โดยอิงตามราคาของ AWS S3 การจัดเก็บแบบมาตรฐาน 5 พีตาไบต์ จะมีค่าใช้จ่ายประมาณ 100,000 ดอลลาร์สหรัฐต่อเดือน
แต่นี่ยังเป็นวิดีโอต้นฉบับเท่านั้น
ก่อนการฝึกโมเดลวิดีโอ วิธีที่อุตสาหกรรมนิยมใช้คือการบีบอัดวิดีโอให้เป็นเวกเตอร์คุณลักษณะใน "พื้นที่เชิงศักยภาพ" โดยใช้ VAE (Variational Autoencoder) เนื่องจากวิดีโอหนึ่งช่วงเมื่อแยกออกเป็นพิกเซลอาจมีจำนวนท็อกเก็นหลายพันล้านตัว ซึ่ง Transformer ใดๆ ก็ไม่สามารถจัดการได้ จึงจำเป็นต้องบีบอัดให้เป็นเวกเตอร์ต่อเนื่องที่โมเดลสามารถเข้าใจได้
ปัญหาคือ ข้อมูลคุณลักษณะที่บีบอัดนี้ มีขนาดเท่ากับวิดีโอต้นฉบับ และต้องจัดเก็บระยะยาวไว้ใช้งานเมื่อจำเป็น
เมื่อรวมกันสองอย่าง ทำให้เกิดการจัดเก็บหลายสิบพีบี ค่าใช้จ่ายในการจัดเก็บรายเดือนเกิน 200,000 ดอลลาร์สหรัฐ
จากนั้นคือรายการที่ไม่คาดคิดที่สุด: ค่าธรรมเนียมการรับส่งข้อมูล (egress/ingress)
อีธานกล่าวว่า ค่าแบนด์วิดธ์ในการดาวน์โหลดวิดีโอ 1 พันล้านวิดีโอจากอินเทอร์เน็ตบน AWS นั้นแพงกว่าค่าจัดเก็บวิดีโอเหล่านั้นเอง ทุกครั้งที่ฝึกโมเดล ข้อมูลต้องถูกดึงจากชั้นการจัดเก็บไปยังชั้นการประมวลผลเพื่อทำงานซ้ำทั้งหมด ไม่เหมือนโมเดลภาษาที่ฝึกเสร็จแล้วก็จบ—สำหรับโมเดลวิดีโอ ต้องมีการวนซ้ำ ปรับพารามิเตอร์ และทดสอบสัดส่วนข้อมูลต่างๆ ทุกการทดลองหมายถึงการผ่านข้อมูลทั้งหมดอีกครั้ง การทดลองยิ่งทำมาก ค่าใช้จ่ายก็จะเพิ่มขึ้นเป็นเท่าตัวตามจำนวนครั้ง

เมื่อรวมทั้งหมดแล้ว เอธาน ประมาณการว่า แค่ส่วนข้อมูลก็ต้องใช้เงินหลายล้านดอลลาร์สหรัฐต่อเดือน ยังไม่รวมค่าใช้จ่ายของ GPU
ฉันไม่เคยเห็นรายงานใดๆ เกี่ยวกับอุตสาหกรรม AI คำนวณรายละเอียด这笔账 อย่างละเอียด
ค่าแบนด์วิดธ์ที่รับไม่ไหว
บริษัทอย่าง xAI ที่สร้างศูนย์ข้อมูล Colossus ของตัวเอง ช่วยประหยัดค่าใช้จ่ายด้านการจัดเก็บข้อมูลและแบนด์วิดธ์ได้มากไหม?
คำตอบของอีธานตรงไปตรงมา: “แน่นอน ประหยัดไปมาก”
เบื้องหลังประโยคนี้ซ่อนอยู่ความลับเชิงโครงสร้างที่ไม่ค่อยถูกพูดถึงในอุตสาหกรรม AI วิดีโอ
ข้อมูลการฝึกโมเดลภาษาขนาดใหญ่เป็นข้อความ ซึ่งมีขนาดค่อนข้างเบา และหลังจากฝึกเสร็จ ข้อมูลต้นฉบับก็แทบจะเสร็จสิ้นภารกิจแล้ว—คุณไม่จำเป็นต้องดึงข้อมูลทั้งหมดมาใช้ซ้ำสำหรับการให้คำตอบหรือการปรับแต่งเพิ่มเติม แต่ข้อมูลวิดีโอนั้นต่างออกไป: มีขนาดใหญ่กว่าข้อความหลายระดับของขนาด และในการทดลองฝึกแต่ละครั้ง คุณต้องผ่านข้อมูลทั้งหมดอย่างสมบูรณ์
ยิ่งความเร็วในการวนซ้ำเร็วเท่าใด ต้นทุนในการย้ายข้อมูลก็ยิ่งสูงขึ้น; แต่ Ethan ย้ำซ้ำๆ ว่า ความเร็วในการวนซ้ำ คือตัวแปรที่สำคัญที่สุดในการพัฒนาโมเดลวิดีโอ
นี่จึงสร้างสถานการณ์ที่ติดขัดซึ่งพึ่งพากัน: คุณต้องทำการปรับปรุงแบบจำลองอย่างรวดเร็วเพื่อเพิ่มคุณภาพของโมเดล แต่การปรับปรุงอย่างรวดเร็วหมายถึงการย้ายข้อมูลบ่อยครั้ง ซึ่งการย้ายข้อมูลบ่อยครั้งจะทำให้ใบแจ้งหนี้บนคลาวด์สาธารณะของคุณพุ่งสูงขึ้นอย่างไม่อาจรับได้
เส้นทางของ Ethan เองก็เป็นหลักฐานชัดเจน เขาเคยร่วมพัฒนาโมเดลจักรวาล Cosmos ที่ NVIDIA และในระหว่างนั้นเขาก็ตระหนักว่า โมเดลวิดีโอมี “กฎแห่งขนาด” ที่คล้ายกับโมเดลภาษา และยังมีพื้นที่สำหรับการพัฒนาอีกมาก เขาเผชิญกับทางเลือกที่ดูเหมือนว่า “ฉันต้องการ GPU เพิ่มเติม” แต่คำพูดที่เขาไม่ได้พูดออกมาอย่างชัดเจนแต่มีความสำคัญไม่แพ้กันคือ—he ต้องการสถานที่ที่ไม่ต้องคิดค่าใช้จ่ายตามบิล AWS เพื่อจัดเก็บและถ่ายโอนข้อมูล นี่คือเหตุผลหลักที่เขาไปที่ xAI และ Colossus ได้ให้สภาพแวดล้อมนั้นกับเขา
สำหรับทีมที่ไม่มีโครงสร้างพื้นฐานของตนเอง ค่าใช้จ่ายนี้คำนวณอย่างไร? ค่าใช้จ่ายข้อมูลหลายล้านดอลลาร์ต่อเดือน ที่ถูกเพิ่มเข้าไปบนพลังการประมวลผล GPU หมายความว่า แม้คุณจะมีทีมอัลกอริทึมชั้นนำ หรือระดมทุนได้เพียงพอ แต่หากคุณยังคงใช้คลาวด์สาธารณะ คุณก็กำลังแข่งขันกับศัตรูที่มีศูนย์ข้อมูลของตนเองด้วยใบแจ้งหนี้ที่ไม่มีจุดสิ้นสุด
อุปสรรคขั้นนี้ ไม่ใช่สิ่งที่บริษัทสตาร์ทอัพที่มีอัลกอริทึมที่ยอดเยี่ยมสามารถข้ามผ่านได้ด้วย “ความได้เปรียบทางเทคโนโลยี”
ความได้เปรียบของวิดีโอโมเดลไม่ได้อยู่ที่โมเดล
สิ่งนี้ทำให้ฉันนึกถึงการเปรียบเทียบที่น่าสนใจ
ในสาขาโมเดลภาษาขนาดใหญ่ การแข่งขันระหว่าง “เปิดแหล่งที่มา” กับ “ปิดแหล่งที่มา” รุนแรงมาก การปรากฏตัวของซีรีส์ Llama ทำให้ทีมขนาดเล็กหลายทีมสามารถพัฒนาผลิตภัณฑ์ที่มีความสามารถแข่งขันได้ในด้านโมเดลภาษา จนบังคับให้ OpenAI และ Anthropic ต้องลดราคา API อย่างต่อเนื่อง แต่ในด้านการสร้างวิดีโอ เราเห็นสถานการณ์ที่ต่างกันอย่างสิ้นเชิง: ทีมที่สามารถสร้างโมเดลวิดีโอชั้นนำได้อย่างต่อเนื่อง มีเพียง Sora, Veo, และ Keling เท่านั้น ซึ่งเป็นทีมที่มีทรัพยากรมหาศาล ไม่มีทีมใดที่สร้างขึ้นจากชุมชนเปิดแหล่งที่มาในโรงรถ
หลายคนสรุปว่าเป็นเพราะ “ช่องว่างของข้อมูลและพลังการคำนวณ” ซึ่งถูกต้องแล้ว แต่ตัวเลขที่ Ethan เปิดเผยชี้ให้เห็นว่าปัญหานี้ลึกซึ้งกว่านั้น: ต้นทุนโครงสร้างพื้นฐานของ AI วิดีโอ ได้ปิดกั้นขีดจำกัดการแข่งขันไว้ที่ระดับสูงมากตั้งแต่เริ่มต้น
สิ่งนี้มีความคล้ายคลึงกับตรรกะของอุตสาหกรรมเซมิคอนดักเตอร์ ไถฟังไม่สามารถถูกท้าทายได้ง่ายๆ ไม่เพียงเพราะพวกเขามีการออกแบบที่ดีกว่า แต่ยังเพราะการสร้างโรงงานผลิตวัฟเฟิลใหม่ต้องใช้ทุนเริ่มต้นหลายร้อยพันล้านดอลลาร์สหรัฐ ซึ่งอุปสรรคทางการเงินนี้เองคือกำแพงป้องกันที่ดีที่สุด กำแพงป้องกันของ AI วิดีโอคือโครงสร้างพื้นฐานข้อมูลขนาดหลายสิบพีตาไบต์และบิลแบนด์วิดธ์ที่เกิดขึ้นทุกเดือน
อีธานยังเสริมข้อสรุปที่ลึกซึ้งยิ่งขึ้นในพอดีคือ: ความ“ฉลาด”ของโมเดลวิดีโอ ส่วนใหญ่มาจากการใช้งานโมเดลภาษาเบื้องหลัง ไม่ใช่จากโมเดลการแพร่กระจายวิดีโอโดยตรง
โมเดลวิดีโอสร้างภาพค่อนข้าง“โง่” มันจะสร้างภาพตามคำอธิบายข้อความอย่างเคร่งครัด หากคุณเขียนว่า “แมวหนึ่งตัว” มันก็จะสร้างแมวหนึ่งตัวยืนนิ่งๆ หน้าพื้นหลังสีขาวบริสุทธิ์—เพราะคุณไม่ได้บอกมันว่าพื้นหลังควรเป็นอย่างไรหรือแมวกำลังทำอะไร
ผู้ที่เข้าใจเจตนาของผู้ใช้อย่างแท้จริงและขยายความว่า “แมวตัวหนึ่ง” ให้กลายเป็นคำอธิบายเชิงภาพที่ละเอียดอ่อน คือโมเดลภาษาขนาดใหญ่ที่ทำหน้าที่ “เขียนใหม่คำแนะนำ” Ethan กล่าวว่า ในช่วง Cosmos เขาเคยใช้ “แกะที่มีความสุข” เป็นการทดสอบ: เมื่อไม่ผ่านการเขียนใหม่คำแนะนำ ภาพที่สร้างขึ้นมีลักษณะ CGI อย่างชัดเจนและไร้คุณภาพ; แต่เมื่อเพิ่มการเขียนใหม่แล้ว ผลลัพธ์แตกต่างกันอย่างสิ้นเชิง—ในขณะที่โมเดลการแพร่กระจายวิดีโอทั้งหมดไม่ได้เปลี่ยนแปลงใดๆ
นั่นหมายความว่า สิ่งที่กำหนดว่าบริษัทหนึ่งจะไปได้ไกลแค่ไหนในด้าน AI วิดีโอ ไม่ได้ขึ้นอยู่กับขนาดพารามิเตอร์ของโมเดลวิดีโอเพียงอย่างเดียว แต่ขึ้นอยู่กับความสามารถในการรองรับโครงสร้างพื้นฐานทั้งสองระบบ ได้แก่ โมเดลภาษาและโมเดลวิดีโอ พร้อมทำให้ทั้งสองระบบทำงานร่วมกันอย่างมีประสิทธิภาพ
นี่คือการแข่งขันที่ต้องใช้พลังกายโดยรวม
สนามรบถัดไป ถูกกำหนดไว้แล้ว
แน่นอน อุตสาหกรรมก็ยังอยู่ในกระบวนการค้นหาทางออก
การเขียนคำแนะนำใหม่ในรูปแบบเอเจนต์ ทำให้โมเดลภาษาทำหน้าที่เหมือน “ผู้บัญชาการ” ในการจัดการเครื่องมือสร้างวิดีโอหลายตัว และใช้ซอฟต์แวร์ดั้งเดิมเช่น FFmpeg ในการจัดการขั้นตอนกลาง—แนวทางเหล่านี้มีตรรกะร่วมกันคือ การแยกการคำนวณต้นทุนการให้เหตุผลของโมเดลภาษาออกจากต้นทุนการสร้างของโมเดลการแพร่กระจายวิดีโอ เพื่อให้การเรียกใช้งานการสร้างวิดีโอแต่ละครั้งแม่นยำยิ่งขึ้น และลดการคำนวณและโอนย้ายข้อมูลที่ไม่จำเป็น
อีธานมั่นใจอย่างมากเกี่ยวกับทิศทางของ “วิดีโอเอเจนต์” เขาคาดการณ์ว่าปลายปีนี้จะเกิดจุดเปลี่ยน—เมื่อคุณภาพวิดีโอที่เอเจนต์สร้างขึ้นสามารถคงที่ในระดับ “สามารถใช้ในการโฆษณาเชิงพาณิชย์” ได้ บริษัทต่างๆ จึงจะจริงจังพร้อมจ่ายเงินซื้อ และโครงสร้างต้นทุนโดยรวมก็จะเปลี่ยนแปลงตามไปด้วย
แต่มีจุดหนึ่งที่จะไม่เปลี่ยนแปลง: ผู้ที่ควบคุมการจัดเก็บและการไหลเวียนของข้อมูล จะเป็นผู้ควบคุมจุดเริ่มต้นของเกมนี้
ในเส้นทางของ AI “กำแพงที่แท้จริง” จะสลับเปลี่ยนไปทุกระยะเวลา แรกคือจำนวนพารามิเตอร์ ตามด้วยขนาดข้อมูลการฝึกอบรม แล้วก็เทคโนโลยีการจัดตำแหน่ง ต่อมาคือประสิทธิภาพการให้เหตุผล ตอนนี้ AI วิดีโอกำลังเปิดเผยกำแพงถัดไป—ไม่ใช่การก้าวหน้าทางอัลกอริทึมลึกลับใดๆ แต่เป็นใบแจ้งหนี้โครงสร้างพื้นฐานที่เย็นชา
บัญชีนี้ ตั้งแต่เริ่มต้นก็ไม่ได้ตั้งใจให้ทุกคนจ่ายได้
*รูปภาพหัวข้อจาก: iMini AI
