Google baru saja memperbaharui struktur penagihan API Gemini, melancarkan lima peringkat perkhidmatan: Standard, Fleksibel, Prioriti, Batch, dan Cache. Peringkat Fleksibel dan Batch menawarkan diskaun 50% terhadap kadar standard, masing-masing sesuai untuk skenario yang tidak peka kepada latensi (1–15 minit) dan pemprosesan data berskala sangat besar (latensi sehingga 24 jam); peringkat Cache dikenakan bayaran berdasarkan bilangan token dan tempoh penyimpanan, sesuai untuk panggilan arahan kompleks yang kerap; peringkat Prioriti dikenakan tambahan 75%–100%, menjamin respons dalam milisaat hingga saat, digunakan untuk aplikasi penting seperti robot perkhidmatan pelanggan dan pengesanan penipuan secara masa nyata. Penyesuaian ini memperkuat kemampuan pengagihan sumber secara berperingkat bagi perkhidmatan inferens AI, memberikan model penetapan harga kuasa pengiraan yang lebih tepat untuk aplikasi AI dengan kepekaan latensi dan batasan kos yang berbeza.
Penulis artikel, sumber: AIBase
Google baru saja memperbaharui struktur penagihan untuk Gemini API mereka, dengan tujuan untuk lebih memenuhi keperluan pengguna dalam penggunaan inferens. Pembaruan ini membawa pelbagai peringkat perkhidmatan baharu, termasuk standard, fleksibel, prioriti, pukal, dan versi cache. Pengguna boleh memilih peringkat yang paling sesuai berdasarkan keperluan sebenar mereka.
Pertama, peringkat standard menyediakan perkhidmatan penalaran asas, di mana pengguna boleh memilih berdasarkan keperluan penggunaan mereka. Peringkat fleksibel pula merupakan pilihan inovatif yang memanfaatkan sumber komputasi yang tidak digunakan semasa waktu lalai, memberikan diskaun 50% daripada harga standard. Latensi yang ditargetkan untuk peringkat ini adalah antara 1 hingga 15 minit, tetapi tidak dijamin latensi yang tetap, sesuai untuk aplikasi yang tidak memerlukan keperluan masa yang ketat.
Selain itu, tier borong juga memberikan diskaun 50% terhadap kadar standard, sesuai untuk pengguna yang perlu mengendalikan data dalam jumlah besar, dengan masa tunda sehingga 24 jam. Tier ini khusus sesuai untuk skenario pemprosesan data berskala besar, membolehkan pengguna menjimatkan kos secara signifikan semasa melakukan pemeriksaan maklumat dalam jumlah besar.
Dalam segi penyimpanan cache, caj akan ditentukan berdasarkan jumlah token yang disimpan dan tempoh penyimpanan, sesuai khusus untuk bot perbualan yang memerlukan pemanggilan kerap arahan kompleks, analisis video panjang, atau soalan ke atas set dokumen berskala besar. Tahap ini membolehkan pengguna mengurus sumber penyimpanan dan pengiraan dengan berkesan, serta meningkatkan kecekapan sistem.
Harga untuk tier unggulan adalah 75% hingga 100% lebih tinggi daripada harga standard, tetapi mampu mengawal latensi dalam masa milisaat hingga saat. Tier ini sangat sesuai untuk aplikasi yang memerlukan respons segera, seperti chatbot pelanggan, pengesanan penipuan secara masa nyata, dan pembantu pintar penting untuk bisnis. Google mencadangkan pengguna yang memerlukan untuk memilih tier unggulan untuk memastikan prestasi terbaik dalam kelajuan dan kecekapan aplikasi mereka.
Tandakan yang penting:
🌟 Tambahkan pelbagai peringkat perkhidmatan API Gemini untuk memenuhi keperluan pengguna yang berbeza.
⏳ Kedudukan fleksibel dan borong menawarkan diskaun 50%, sesuai untuk pemprosesan data berskala besar.
⚡ Kedudukan utama memastikan respons dalam milisaat, sesuai untuk aplikasi masa nyata.
