Sau khi các mô hình AI được áp dụng quy mô lớn, nhu cầu về năng lực suy luận trên thị trường tiếp tục tăng lên. So với giai đoạn huấn luyện, yêu cầu đối với kiến trúc chip, độ trễ và chi phí triển khai khi mô hình tạo câu trả lời trực tuyến hoặc thực hiện các tác vụ đại diện là khác nhau. TechCrunch báo cáo rằng nhà cung cấp dịch vụ điện toán suy luận General Compute đang nỗ lực thâm nhập vào lĩnh vực này bằng một giải pháp triển khai nhẹ hơn.
General Compute vừa hoàn thành vòng gọi vốn seed trị giá 15 triệu USD, với định giá sau vòng gọi vốn là 60 triệu USD. Vòng đầu tư này do FUSE VC dẫn đầu, với sự tham gia của Carya Venture Partners và Village Global Ventures. Công ty định vị mình là “推理 neocloud”, chủ yếu cho thuê năng lực xử lý AI cần thiết trong giai đoạn chạy mô hình.
Đặt cược vào chip suy luận của SambaNova
Trong thị trường cơ sở hạ tầng AI, GPU vẫn là lựa chọn chính, nhưng ngày càng nhiều công ty bắt đầu đầu tư vào các chip được thiết kế chuyên biệt cho các kịch bản suy luận. Bài báo cho biết, General Compute đã chọn hợp tác với SambaNova thay vì trực tiếp cạnh tranh để giành nguồn GPU khan hiếm.
SambaNova là một công ty chip được Intel hỗ trợ, tập trung lâu dài vào tính toán suy luận. Đồng sáng lập General Compute cho biết, chip mới mà SambaNova sẽ ra mắt năm nay sẽ cung cấp khả năng lưu trữ ngữ cảnh cao hơn khi suy luận và kiến trúc linh hoạt hơn. Theo công ty, chip mới có tốc độ lên tới 600 đến 700 token mỗi giây, trong khi GPU khoảng 250 token mỗi giây.
General Compute cho biết đã đặt hàng 300 triệu USD chip SambaNova SN50 và sẽ trở thành công ty neocloud đầu tiên triển khai lô chip này.
Cơ sở hiện tại có thể triển khai trực tiếp
Ngoài nguồn cung chip, một thách thức khác trong việc mở rộng năng lực tính toán AI là việc triển khai trung tâm dữ liệu. Nhiều chip AI hiệu năng cao yêu cầu làm mát bằng chất lỏng và cấu hình điện năng cao hơn, điều này làm tăng chi phí cải tạo trung tâm dữ liệu và kéo dài chu kỳ đưa vào hoạt động.
Giải pháp do General Compute đưa ra là sử dụng chip suy luận làm mát bằng không khí và tiêu thụ điện năng thấp hơn. Nhờ đó, thiết bị có thể được lắp đặt trực tiếp vào các trung tâm dữ liệu hiện có mà không cần nâng cấp cơ sở hạ tầng quy mô lớn trước. Đối với một công ty đám mây suy luận mới gia nhập thị trường, điều này có nghĩa là nhanh chóng tạo ra năng lực tính toán có thể cho thuê.
Công ty hiện đang thúc đẩy các hợp tác lưu trữ, đưa phần cứng tự có vào các cơ sở bên thứ ba. Các đối tác hợp tác không chỉ bao gồm các nhà vận hành trung tâm dữ liệu truyền thống, mà còn cả các doanh nghiệp khai thác tiền mã hóa muốn chuyển đổi. Báo cáo chỉ ra rằng, trong một số giai đoạn, chi phí sản xuất bitcoin cao hơn giá thị trường, thúc đẩy một số trang trại khai thác tìm kiếm các mục đích sử dụng cơ sở hạ tầng mới.
Cạnh tranh trong điện toán đám mây đang chuyển sang tốc độ và chi phí
General Compute đã ra mắt dịch vụ điện toán đám mây vào tuần trước và tuyên bố rằng nó dẫn đầu về tốc độ khi chạy mô hình lớn mã nguồn mở MiniMax 2.7. Công ty mong muốn giảm thời gian thực hiện các tác vụ đại diện mã hóa từ một giờ xuống còn 5 đến 10 phút, đồng thời giảm chi phí suy luận trong các tình huống thời gian thực như đại diện giọng nói hỗ trợ khách hàng.
Nhà đầu tư Joe Hassleman cho rằng mối quan hệ hợp tác này có điểm tương đồng với giai đoạn đầu khi CoreWeave tận dụng Nvidia để mở rộng năng lực tính toán. Đối với SambaNova, General Compute cũng là kênh quan trọng giúp chip của họ tiếp cận các bối cảnh tăng trưởng cao.
Bài báo cho rằng điện toán suy luận thực chất đang đặt cược vào một thị trường tồn tại song song nhiều mô hình và nhiều đại lý. Nếu trong tương lai không có nhà cung cấp mô hình đơn lẻ nào thống trị lâu dài, tốc độ suy luận và chi phí trên đơn vị sẽ trở thành các chỉ số cạnh tranh trực tiếp hơn. Việc OpenRouter mới đây huy động được 113 triệu USD trong vòng tài trợ B cũng phản ánh nhu cầu ngày càng tăng đối với việc kết nối nhiều mô hình và tối ưu hóa chi phí token.

