Ipinakilala ng Google ang bagong estratehiya ng pagbabayad para sa Gemini API na may mga opsyon ng serbisyo na may mga antas

Kamakailang inayos ng Google ang pricing structure ng Gemini API at ipinakilala ang limang antas ng serbisyo: Standard, Elastic, Priority, Batch, at Cache. Ang mga antas na Elastic at Batch ay nag-aalok ng 50% discount sa standard rate, na angkop para sa mga escenario na hindi kritikal ang latency (1–15 minuto) at para sa malaking saklaw ng pagproseso ng data (hanggang 24 oras na latency); ang antas ng Cache ay binabayaran batay sa bilang ng tokens at haba ng panahon ng pag-iimbak, na idinisenyo para sa madalas at kumplikadong pagtawag sa mga utos; samantalang ang Priority antas ay may premium na 75%–100% upang jaminan ang response sa oras na millisecond hanggang second, na idinisenyo para sa mga kritikal na aplikasyon tulad ng customer service bots at real-time fraud detection. Ang pagbabagong ito ay pinapalakas ang kakayahan ng AI inference service sa resource grading at pagpaplanong pang-iskedyul, at nagbibigay ng mas detalyadong pricing model para sa mga AI application na may iba’t ibang antas ng latency sensitivity at cost constraints.

May-akda ng artikulo, pinagkukunan: AIBase

Kamakailan ay in-upgrade ng Google ang kanilang billing structure para sa Gemini API upang mas mabuting tugunan ang mga pangangailangan ng mga user sa pagpapatakbo. Ang pag-update na ito ay nagdala ng iba’t ibang bagong antas ng serbisyo, kabilang ang Standard, Elastic, Priority, Batch, at Cached. Maaari ngayon ng mga user piliin ang pinakamauunang antas batay sa kanilang tunay na pangangailangan.

Una, ang standard tier ay nag-aalok ng pangunahing serbisyo sa pag-iisip, kung saan ang mga user ay maaaring pumili batay sa kanilang paggamit. Ang elastic tier naman ay isang inobatibong pagpipilian na gumagamit ng mga nag-iisang computing resources sa panahon ng off-peak para magbigay ng 50% discount sa standard presyo. Ang target latency para sa tier na ito ay 1 hanggang 15 minuto, ngunit hindi ito garantisado, kaya ito ay angkop para sa mga aplikasyon na hindi kailangan ng mahigpit na oras.

Dagdag pa rito, ang bulk tier ay nag-aalok din ng 50% discount sa standard rate, ideal para sa mga user na kailangang magproseso ng malaking dami ng data, na may maximum latency na hanggang 24 na oras. Ang tier na ito ay partikular na mainam para sa malalaking data processing scenarios, kung saan ang mga user ay makakapag-save ng malaki sa gastos habang nagpapatakbo ng malalaking query.

Sa mga cache tier, ang pagbabayad ay batay sa bilang ng mga token na naka-cache at ang tagal ng pag-iimbak, na perpekto para sa mga chatbot na nangangailangan ng madalas na pagtawag sa mga kumplikadong utos, pag-analisa ng mahabang video, o pagtanong sa malalaking set ng dokumento. Ang tier na ito ay nagpapahintulot sa mga user na maaaring mabisa na pamahalaan ang kanilang mga yunit ng imbakan at kompyutasyon, na nagpapataas ng epekto ng sistema.

Ang presyo ng priority tier ay 75% hanggang 100% mas mataas kaysa sa standard price, ngunit nagbibigay ng latency control sa antas ng millisecond hanggang second. Ang tier na ito ay idinudulot para sa mga aplikasyon na nangangailangan ng real-time response, tulad ng chatbots para sa customer service, real-time fraud detection, at critical business intelligence assistants. Inirerekomenda ng Google na piliin ng mga user na may kailangan ang priority tier upang siguraduhin ang pinakamahusay na performance sa bilis at efficiency ng kanilang mga aplikasyon.

Mga pangunahing punto:

🌟 Dagdag na mga antas ng serbisyo ng Gemini API para sa iba’t ibang pangangailangan ng mga user.

⏳ Ang mga antas ng弹性 at batch ay nag-aalok ng 50% discount, perpektong para sa malalaking proseso ng data.

⚡ Ang priority tier ay nagtataguyod ng response sa millisecond level, ideal para sa mga real-time application.