Setelah model AI memasuki penerapan skala besar, permintaan terhadap daya komputasi inferensi terus meningkat. Berbeda dengan tahap pelatihan, saat model menghasilkan jawaban secara daring atau menjalankan tugas agen, persyaratan terhadap arsitektur chip, latensi, dan biaya deploy berbeda. TechCrunch melaporkan bahwa penyedia cloud inferensi General Compute berusaha memasuki pasar ini dengan solusi deploy yang lebih ringan.
General Compute baru saja menyelesaikan putaran pendanaan seed senilai $15 juta, dengan valuasi setelah investasi sebesar $60 juta. Putaran ini dipimpin oleh FUSE VC, dengan partisipasi dari Carya Venture Partners dan Village Global Ventures. Perusahaan ini memposisikan dirinya sebagai "neocloud inferensi", yang terutama menyewakan kapasitas pemrosesan AI yang diperlukan selama tahap pelaksanaan model.
Bertaruh pada chip inferensi SambaNova
Di pasar infrastruktur AI, GPU tetap menjadi pilihan utama, tetapi semakin banyak perusahaan yang mulai mempertaruhkan chip yang secara khusus dirancang untuk skenario inferensi. Laporan tersebut menyebutkan bahwa General Compute memilih bekerja sama dengan SambaNova, alih-alih langsung bersaing untuk sumber daya GPU yang semakin ketat.
SambaNova adalah perusahaan chip yang didukung Intel, yang secara jangka panjang berfokus pada komputasi inferensi. Co-founder General Compute menyatakan bahwa chip baru yang akan diluncurkan SambaNova tahun ini menawarkan kapasitas penyimpanan konteks yang lebih tinggi saat inferensi, dengan arsitektur yang lebih fleksibel. Menurut perusahaan, kecepatan chip baru ini mencapai 600 hingga 700 token per detik, sementara GPU sekitar 250 token per detik.
General Compute menyatakan telah memesan chip SambaNova SN50 senilai 300 juta dolar AS dan akan menjadi perusahaan neocloud pertama yang menerapkan chip tersebut.
Infrastruktur saat ini dapat langsung dideploy
Selain pasokan chip, tantangan lain dalam perluasan daya komputasi AI adalah penerapan ruang server. Banyak chip AI berkinerja tinggi memerlukan pendinginan cair dan konfigurasi daya yang lebih tinggi, yang akan meningkatkan biaya modifikasi pusat data serta memperpanjang siklus peluncuran.
Solusi yang diberikan oleh General Compute adalah menggunakan chip inferensi yang menggunakan pendinginan udara dan konsumsi daya lebih rendah. Dengan demikian, perangkat dapat langsung dipasang di pusat data yang sudah ada tanpa perlu meningkatkan infrastruktur besar-besaran terlebih dahulu. Bagi perusahaan cloud inferensi baru yang memasuki pasar, ini berarti pembentukan daya komputasi yang dapat disewakan menjadi lebih cepat.
Perusahaan saat ini sedang mempercepat kolaborasi penyimpanan, dengan menempatkan perangkat keras miliknya di fasilitas pihak ketiga. Mitra kolaborasi tidak hanya mencakup operator pusat data tradisional, tetapi juga perusahaan pertambangan kripto yang ingin bertransformasi. Laporan tersebut menunjukkan bahwa pada beberapa periode, biaya produksi bitcoin lebih tinggi daripada harga pasar, mendorong beberapa tambang untuk mencari penggunaan infrastruktur baru.
Persaingan cloud computing beralih ke kecepatan dan biaya
General Compute telah meluncurkan layanan cloud minggu lalu dan menyatakan bahwa kecepatannya unggul saat menjalankan model besar open-source MiniMax 2.7. Perusahaan berharap dapat memperpendek tugas agen pemrograman yang sebelumnya memerlukan satu jam menjadi 5 hingga 10 menit, serta mengurangi biaya inferensi untuk skenario real-time seperti agen suara layanan pelanggan.
Investor Joe Hassleman percaya bahwa kemitraan ini mirip dengan ekspansi daya komputasi CoreWeave yang dulunya memanfaatkan Nvidia. Bagi SambaNova, General Compute juga merupakan saluran penting bagi chip mereka untuk memasuki skenario pertumbuhan tinggi.
Laporan tersebut berpendapat bahwa cloud inferensi pada dasarnya sedang mempertaruhkan pasar yang diisi oleh berbagai model dan agen. Jika di masa depan tidak ada penyedia model tunggal yang mendominasi jangka panjang, kecepatan inferensi dan biaya per unit akan menjadi indikator persaingan yang lebih langsung. Pendanaan Seri B senilai $113 juta yang baru saja diselesaikan oleh OpenRouter juga mencerminkan meningkatnya permintaan pasar terhadap akses multi-model dan optimasi biaya token.

