Selepas model AI memasuki penggunaan berskala besar, permintaan terhadap kuasa pengiraan inferens pasaran terus meningkat. Berbeza dengan peringkat latihan, semasa model menghasilkan jawapan secara dalam talian atau menjalankan tugas agen, keperluan terhadap arsitektur cip, latensi, dan kos penghantaran berbeza. TechCrunch melaporkan bahawa penyedia awan inferens, General Compute, cuba memasuki pasaran ini dengan penyelesaian penghantaran yang lebih ringan.
General Compute baru saja menyelesaikan pembiayaan biji sebanyak $15 juta, dengan valuasi pasca-pembiayaan sebanyak $60 juta. Pembiayaan ini dipimpin oleh FUSE VC, dengan penyertaan dari Carya Venture Partners dan Village Global Ventures. Perusahaan ini berposisi sebagai "neocloud inferensi", yang terutama menyewakan kekuatan pemprosesan AI yang diperlukan pada peringkat pelaksanaan model.
Bertaruh pada cip inferens SambaNova
Di pasaran infrastruktur AI, GPU masih menjadi pilihan utama, tetapi semakin banyak syarikat yang beralih ke cip yang secara khusus direka untuk skenario inferens. Laporan tersebut menyebut bahawa General Compute memilih bekerjasama dengan SambaNova, bukan terus mengejar sumber GPU yang semakin ketat.
SambaNova adalah syarikat cip yang disokong oleh Intel, yang secara berterusan fokus pada pengiraan inferens. Pengasas General Compute menyatakan bahawa cip baharu yang akan dilancarkan oleh SambaNova tahun ini akan menawarkan kapasiti penyimpanan konteks yang lebih tinggi semasa inferens, dengan arsitektur yang lebih fleksibel. Menurut syarikat tersebut, cip baharu ini mampu mencapai kelajuan 600 hingga 700 token per saat, manakala GPU kira-kira 250 token per saat.
General Compute menyatakan bahawa ia telah memesan chip SambaNova SN50 bernilai US$300 juta dan akan menjadi syarikat neocloud pertama yang melaksanakan chip ini.
Infrastruktur sedia ada boleh dideploy secara langsung
Selain bekalan cip, satu cabaran lain dalam pengembangan kuasa AI ialah pelaksanaan pusat data. Banyak cip AI berprestasi tinggi memerlukan penyejukan cecair dan konfigurasi kuasa yang lebih tinggi, yang akan meningkatkan kos pembaikpulih pusat data serta memanjangkan tempoh pelancaran.
Solusi yang diberikan oleh General Compute adalah menggunakan cip inferensia yang menggunakan pendinginan udara dan konsumsi kuasa yang lebih rendah. Dengan cara ini, peralatan boleh dipasang terus ke pusat data sedia ada tanpa perlu meningkatkan infrastruktur besar-besaran terlebih dahulu. Bagi sebuah syarikat awan inferensia yang baharu memasuki pasaran, ini bermaksud pembentukan kuasa pengiraan yang boleh disewa akan lebih cepat.
Syarikat semasa ini sedang mempercepat kerjasama pengurusan, dengan meletakkan peralatan sendiri ke dalam fasiliti pihak ketiga. Pihak yang bekerjasama tidak hanya termasuk operator pusat data tradisional, tetapi juga syarikat penambang kripto yang ingin berubah bentuk. Laporan tersebut menunjukkan bahawa pada beberapa masa, kos penghasilan bitcoin melebihi harga pasaran, mendorong beberapa penambang mencari penggunaan infrastruktur baru.
Pertandingan awan logik beralih kepada kelajuan dan kos
General Compute telah melancarkan perkhidmatan awan minggu lepas dan menyatakan ia mempunyai kelajuan terdepan apabila menjalankan model besar sumber terbuka MiniMax 2.7. Syarikat berharap dapat mengurangkan tugas agen kod yang biasanya memakan masa satu jam kepada 5 hingga 10 minit, serta mengurangkan kos inferens untuk skenario masa nyata seperti agen suara pelanggan.
Pelabur Joe Hassleman percaya bahawa kerjasama ini serupa dengan ekspansi kuasa pengiraan CoreWeave pada peringkat awal dengan bantuan Nvidia. Bagi SambaNova, General Compute juga merupakan saluran penting untuk memasukkan cipnya ke dalam skenario pertumbuhan tinggi.
Laporan tersebut berpendapat bahawa awan inferens pada dasarnya sedang bertaruh pada pasaran yang menampung "banyak model, banyak agen". Jika di masa depan tiada penyedia model tunggal yang mendominasi secara jangka panjang, kelajuan inferens dan kos unit akan menjadi indikator persaingan yang lebih langsung. Pendanaan Siri B sebanyak US$113 juta baru-baru ini oleh OpenRouter juga mencerminkan peningkatan permintaan pasaran terhadap akses pelbagai model dan pengoptimuman kos token.

