Google baru saja memperbarui struktur penagihan Gemini API, meluncurkan lima tingkat layanan: standar, elastis, prioritas, batch, dan cache. Tingkat elastis dan batch menawarkan diskon 50% dari tarif standar, masing-masing cocok untuk skenario yang tidak sensitif terhadap latensi (1–15 menit) dan pemrosesan data skala sangat besar (latensi hingga 24 jam); tingkat cache dibebankan berdasarkan jumlah token dan durasi penyimpanan, cocok untuk panggilan instruksi kompleks frekuensi tinggi; tingkat prioritas dikenai premi 75%–100% untuk menjamin respons dalam milidetik hingga detik, melayani aplikasi kritis seperti robot layanan pelanggan dan deteksi penipuan real-time. Penyesuaian ini memperkuat kemampuan penjadwalan sumber daya berlapis untuk layanan AI inference, menyediakan model penetapan harga komputasi yang lebih halus bagi berbagai aplikasi AI dengan tingkat sensitivitas latensi dan batasan biaya yang berbeda.
Penulis artikel, sumber: AIBase
Google baru saja memperbarui struktur penagihan untuk Gemini API-nya, bertujuan untuk lebih memenuhi kebutuhan pengguna dalam penggunaan inferensi. Pembaruan ini membawa berbagai tingkat layanan baru, termasuk standar, elastis, prioritas, batch, dan versi cache. Pengguna dapat memilih tingkat yang paling sesuai berdasarkan kebutuhan nyata mereka.
Pertama, tier standar menyediakan layanan inferensi dasar, yang dapat dipilih oleh pengguna sesuai kebutuhan penggunaan mereka. Tier elastis adalah pilihan inovatif yang memanfaatkan sumber daya komputasi yang menganggur di luar jam sibuk, menawarkan diskon 50% dari harga standar. Latensi target untuk tier ini berada di antara 1 hingga 15 menit, tetapi tidak menjamin latensi tetap, sehingga cocok untuk skenario aplikasi yang tidak terlalu menuntut waktu.
Selain itu, tier batch juga menawarkan diskon 50% terhadap tarif standar, cocok untuk pengguna yang perlu menangani volume data besar, dengan keterlambatan maksimal hingga 24 jam. Tier ini sangat cocok untuk skenario pemrosesan data skala besar, memungkinkan pengguna menghemat biaya secara signifikan saat melakukan banyak pencarian informasi.
Untuk tier cache, biaya akan dihitung berdasarkan jumlah token yang di-cache dan durasi penyimpanannya, sangat cocok untuk chatbot yang sering memanggil perintah kompleks, analisis video panjang, atau pencarian pada kumpulan dokumen skala besar. Tier ini memungkinkan pengguna untuk mengelola sumber daya penyimpanan dan komputasi secara efektif, meningkatkan efisiensi sistem.
Harga tier prioritas 75% hingga 100% lebih tinggi daripada harga standar, tetapi mampu mengendalikan latensi dalam hitungan milidetik hingga detik. Tier ini sangat cocok untuk aplikasi yang membutuhkan respons real-time, seperti chatbot layanan pelanggan, deteksi penipuan real-time, dan asisten cerdas bisnis kritis. Google merekomendasikan pengguna yang membutuhkan untuk memilih tier prioritas guna memastikan kinerja terbaik dalam kecepatan respons dan efisiensi aplikasi mereka.
Poin penting:
🌟 Menambahkan berbagai tingkatan layanan Gemini API untuk memenuhi kebutuhan pengguna yang berbeda.
⏳ Level fleksibel dan batch menawarkan diskon 50%, cocok untuk pemrosesan data skala besar.
⚡ Priority tier ensures millisecond-level response, ideal for real-time applications.
