Google gần đây đã cập nhật cấu trúc tính phí của Gemini API, giới thiệu năm cấp dịch vụ: Tiêu chuẩn, Linh hoạt, Ưu tiên, Hàng loạt và Bộ nhớ đệm. Các cấp Linh hoạt và Hàng loạt cung cấp ưu đãi 50% so với mức phí tiêu chuẩn, lần lượt phù hợp với các kịch bản không nhạy cảm với độ trễ (1–15 phút) và xử lý dữ liệu quy mô cực lớn (độ trễ tối đa 24 giờ); cấp Bộ nhớ đệm tính phí theo số lượng token và thời gian lưu trữ, lý tưởng cho các lệnh gọi phức tạp và tần suất cao; cấp Ưu tiên có mức phí cao hơn 75%–100%, đảm bảo phản hồi trong khoảng miligiây đến giây, phục vụ các ứng dụng then chốt như robot hỗ trợ khách hàng và phát hiện gian lận thời gian thực. Điều chỉnh này tăng cường khả năng phân cấp và phân bổ tài nguyên cho dịch vụ suy luận AI, cung cấp mô hình định giá năng lực tính toán tinh vi hơn cho các ứng dụng AI với các mức độ nhạy cảm với độ trễ và ràng buộc chi phí khác nhau.
Tác giả bài viết, nguồn: AIBase
Google gần đây đã cập nhật cấu trúc tính phí cho Gemini API nhằm đáp ứng tốt hơn nhu cầu sử dụng suy luận của người dùng. Cập nhật này mang đến nhiều cấp dịch vụ mới, bao gồm tiêu chuẩn, linh hoạt, ưu tiên, hàng loạt và phiên bản bộ nhớ đệm. Người dùng có thể chọn cấp phù hợp nhất dựa trên nhu cầu thực tế của mình.
Trước hết, cấp độ tiêu chuẩn cung cấp dịch vụ suy luận cơ bản, cho phép người dùng lựa chọn tùy theo nhu cầu sử dụng của mình. Cấp độ linh hoạt là một lựa chọn sáng tạo, tận dụng nguồn tài nguyên tính toán rảnh rỗi trong giờ thấp điểm, mang lại ưu đãi giảm 50% so với giá tiêu chuẩn. Mục tiêu độ trễ của cấp độ này nằm trong khoảng 1 đến 15 phút, nhưng không đảm bảo thời gian trễ cố định, phù hợp với các kịch bản ứng dụng không yêu cầu khắt khe về thời gian.
Ngoài ra, mức phí hàng loạt cũng cung cấp cho người dùng ưu đãi 50% so với mức phí tiêu chuẩn, phù hợp với những người cần xử lý khối lượng dữ liệu lớn, thời gian trễ tối đa lên đến 24 giờ. Mức này đặc biệt lý tưởng cho các kịch bản xử lý dữ liệu quy mô lớn, giúp người dùng tiết kiệm đáng kể chi phí khi thực hiện nhiều truy vấn thông tin.
Về cấp bộ nhớ đệm, phí sẽ được tính dựa trên số lượng token được lưu đệm và thời gian lưu trữ, rất phù hợp với các robot hội thoại cần gọi thường xuyên các lệnh phức tạp, phân tích video dài hoặc truy vấn tập tài liệu quy mô lớn. Cấp độ này giúp người dùng quản lý hiệu quả tài nguyên lưu trữ và tính toán, nâng cao hiệu suất hệ thống.
Giá của cấp độ ưu tiên cao hơn 75% đến 100% so với giá tiêu chuẩn, nhưng có thể kiểm soát độ trễ ở mức miligiây đến giây. Cấp độ này rất phù hợp với các ứng dụng yêu cầu phản hồi thời gian thực, chẳng hạn như chatbot hỗ trợ khách hàng, phát hiện gian lận thời gian thực và trợ lý thông minh cho các tác vụ quan trọng. Google khuyến nghị người dùng có nhu cầu chọn cấp độ ưu tiên để đảm bảo hiệu suất phản hồi và hiệu quả tối ưu cho ứng dụng của họ.
Điểm nổi bật:
🌟 Đã thêm nhiều cấp dịch vụ API của Gemini, đáp ứng nhu cầu của các người dùng khác nhau.
⏳ Các cấp độ linh hoạt và hàng loạt đang ưu đãi 50%, lý tưởng cho xử lý dữ liệu quy mô lớn.
⚡ Vị trí ưu tiên đảm bảo phản hồi ở mức miligiây, phù hợp với các ứng dụng thời gian thực.
