หลังจากโมเดล AI เข้าสู่การใช้งานในระดับใหญ่ ความต้องการพลังการประมวลผลสำหรับการให้เหตุผลในตลาดยังคงเพิ่มขึ้น ต่างจากระยะการฝึกอบรม ในการสร้างคำตอบแบบออนไลน์หรือดำเนินงานตัวแทน โมเดลต้องการข้อกำหนดที่แตกต่างกันในด้านสถาปัตยกรรมชิป ความล่าช้า และต้นทุนการปรับใช้ TechCrunch รายงานว่า ผู้ให้บริการคลาวด์สำหรับการให้เหตุผล General Compute กำลังพยายามเข้าสู่ตลาดนี้ด้วยแนวทางการปรับใช้ที่เบากว่า
General Compute เพิ่งเสร็จสิ้นการระดมทุนแบบ种子มูลค่า 15 ล้านดอลลาร์สหรัฐ โดยมีมูลค่าบริษัทหลังการระดมทุนอยู่ที่ 60 ล้านดอลลาร์สหรัฐ การระดมทุนครั้งนี้ได้รับการนำโดย FUSE VC พร้อมการร่วมลงทุนจาก Carya Venture Partners และ Village Global Ventures บริษัทมีตำแหน่งเป็น “推理 neocloud” โดยเน้นให้เช่าความสามารถในการประมวลผล AI ที่จำเป็นสำหรับขั้นตอนการรันโมเดล
เดิมพันบนชิปการประมวลผล SambaNova
ในตลาดโครงสร้างพื้นฐานด้าน AI GPU ยังคงเป็นตัวเลือกหลัก แต่บริษัทจำนวนมากเริ่มลงทุนในชิปที่ออกแบบมาเฉพาะสำหรับการให้บริการแบบอินเฟอเรนซ์ รายงานระบุว่า General Compute เลือกความร่วมมือกับ SambaNova แทนการแข่งขันเพื่อเข้าถึงทรัพยากร GPU ที่มีจำกัด
SambaNova เป็นบริษัทชิปที่ได้รับการสนับสนุนจาก Intel ซึ่งมุ่งเน้นมาโดยตลอดเกี่ยวกับการคำนวณแบบอินเฟอเรนซ์ ผู้ร่วมก่อตั้ง General Compute ระบุว่าชิปใหม่ที่ SambaNova จะเปิดตัวในปีนี้จะมีความสามารถในการจัดเก็บบริบทที่สูงขึ้นในระหว่างการอินเฟอเรนซ์ และมีสถาปัตยกรรมที่ยืดหยุ่นมากขึ้น ตามคำอ้างของบริษัท ชิปใหม่นี้สามารถประมวลผลได้เร็วถึง 600 ถึง 700 token ต่อวินาที ในขณะที่ GPU อยู่ที่ประมาณ 250 token ต่อวินาที
General Compute ระบุว่าได้สั่งซื้อชิป SambaNova SN50 มูลค่า 3 พันล้านดอลลาร์สหรัฐ และจะเป็นบริษัท neocloud รายแรกที่ติดตั้งชิปชุดนี้
สามารถติดตั้งได้ทันทีในศูนย์ข้อมูลปัจจุบัน
นอกเหนือจากปัญหาการจัดหาชิปแล้ว อีกหนึ่งอุปสรรคในการขยายกำลังการประมวลผล AI คือการติดตั้งศูนย์ข้อมูล ชิป AI ประสิทธิภาพสูงหลายตัวต้องการระบบระบายความร้อนด้วยของเหลวและการจ่ายไฟที่สูงขึ้น ซึ่งจะเพิ่มต้นทุนการปรับปรุงศูนย์ข้อมูลและยืดระยะเวลาการเปิดใช้งาน
แนวทางของ General Compute คือการใช้ชิปการให้บริการแบบระบายความร้อนด้วยอากาศและใช้พลังงานต่ำกว่า ซึ่งหมายความว่าอุปกรณ์สามารถติดตั้งได้ทันทีในศูนย์ข้อมูลที่มีอยู่ โดยไม่จำเป็นต้องอัปเกรดโครงสร้างพื้นฐานขนาดใหญ่ก่อน สำหรับบริษัทคลาวด์การให้บริการรายใหม่ที่เพิ่งเข้าสู่ตลาด นี่หมายถึงการสร้างกำลังการประมวลผลที่สามารถให้เช่าได้เร็วขึ้น
บริษัทปัจจุบันกำลังผลักดันความร่วมมือด้านการจัดเก็บแบบโฮสติ้ง โดยการนำฮาร์ดแวร์ของตนเองไปติดตั้งในศูนย์ข้อมูลของบุคคลที่สาม ผู้ร่วมมือไม่เพียงแต่รวมถึงผู้ให้บริการศูนย์ข้อมูลแบบดั้งเดิม แต่ยังรวมถึงบริษัทขุดคริปโตที่ต้องการเปลี่ยนแปลงรูปแบบธุรกิจ รายงานชี้ว่า ในช่วงเวลาบางช่วง ต้นทุนการผลิตบิทคอยน์สูงกว่าราคาตลาด ทำให้ฟาร์มขุดบางแห่งมองหาการใช้งานโครงสร้างพื้นฐานใหม่
การแข่งขันในคลาวด์การคำนวณเปลี่ยนไปสู่ความเร็วและต้นทุน
General Compute ได้เปิดตัวบริการคลาวด์เมื่อสัปดาห์ที่แล้ว และอ้างว่ามีความเร็วนำหน้าในการรันโมเดลขนาดใหญ่แบบโอเพ่นซอร์ส MiniMax 2.7 บริษัทต้องการลดเวลาสำหรับงานตัวแทนการเขียนโค้ดที่เคยใช้เวลาหนึ่งชั่วโมงให้เหลือเพียง 5 ถึง 10 นาที และยังต้องการลดต้นทุนการประมวลผลในสถานการณ์แบบเรียลไทม์ เช่น ตัวแทนเสียงบริการลูกค้า
นักลงทุน Joe Hassleman มองว่าความร่วมมือครั้งนี้มีความคล้ายคลึงกับช่วงแรกที่ CoreWeave ใช้ Nvidia ขยายกำลังการประมวลผล สำหรับ SambaNova การใช้ General Compute ก็เป็นช่องทางสำคัญที่จะนำชิปของพวกเขาเข้าสู่สถานการณ์ที่มีการเติบโตสูง
รายงานระบุว่า คลาวด์การให้เหตุผล本质上กำลังเดิมพันบนตลาดที่มี “โมเดลหลายตัว ตัวแทนหลายตัว” อยู่ร่วมกัน หากในอนาคตไม่มีผู้ให้บริการโมเดลรายใดผูกขาดอย่างยั่งยืน ความเร็วในการให้เหตุผลและต้นทุนต่อหน่วยจะกลายเป็นตัวชี้วัดการแข่งขันที่ชัดเจนยิ่งขึ้น การที่ OpenRouter ระดมทุนรอบ B มูลค่า 113 ล้านดอลลาร์สหรัฐเมื่อเร็วๆ นี้ ยังสะท้อนถึงความต้องการที่เพิ่มขึ้นต่อการเชื่อมต่อโมเดลหลายตัวและการปรับปรุงต้นทุนโทเค็น

