Các phương tiện truyền thông nước ngoài cho biết, các nhà sản xuất mô hình tiên tiến của Trung Quốc gần đây tiếp tục giảm giá API, với DeepSeek và Xiaomi lần lượt công bố các kế hoạch định giá mới, trong khi các mô hình mới của các phòng thí nghiệm hàng đầu Mỹ lại hướng đến mức giá cao hơn. Điều này làm gia tăng thêm khoảng cách về chi phí suy luận giữa các mô hình tiên tiến của Trung Quốc và Mỹ.
Đối với khách hàng doanh nghiệp, giá mô hình chủ yếu thể hiện qua chi phí API tính theo token. Sau khi ứng dụng tích hợp mô hình, các đầu vào, đầu ra và các lần tìm thấy trong bộ nhớ đệm đều tạo ra chi phí, do đó sự thay đổi đơn giá sẽ直接影响 tính khả thi thương mại của sản phẩm AI.
DeepSeek và Xiaomi đồng thời giảm giá
DeepSeek đã chuyển mức chiết khấu 75% cho V4-Pro từ ngày 22 tháng 5 thành mức giá vĩnh viễn. Sau điều chỉnh, giá đầu vào của mô hình là 0,435 USD mỗi triệu token và giá đầu ra là 0,87 USD.
Xiaomi đã giảm giá API MiMo-V2.5 vào ngày 26 tháng 5, trong đó giá đầu vào cho bộ nhớ đệm phiên bản Pro giảm xuống còn 0,0036 USD mỗi triệu token, với mức giảm tối đa lên đến 99% đối với một số dự án. Theo gói mới của Xiaomi, số lượng token nhận được với cùng một mức giá đã tăng lên 5 đến 8 lần.
Sau sự giảm giá là tối ưu hóa suy luận
Bài viết cho biết, đợt giảm giá này không chỉ là hành động tiếp thị đơn thuần. Luo Fuli, trưởng nhóm MiMo của Xiaomi và cựu nhà phát triển cốt lõi của DeepSeek, cho biết khoản tiết kiệm chính đến từ việc tối ưu bộ nhớ đệm và khung推理. Hệ thống có thể tái sử dụng nhiều thông tin đã xử lý hơn, giảm tính toán lặp lại, từ đó giảm chi phí lưu trữ và推理.
Theo lời họ, các tối ưu hóa liên quan đã giúp tăng đáng kể khả năng xử lý token được lưu trong bộ nhớ đệm, giảm khoảng 80% chi phí lưu trữ và xử lý tổng thể. Với mức giá API mới, khi engine suy luận trong môi trường sản xuất hoạt động gần như đầy tải, vẫn có thể duy trì mức hòa vốn.
DeepSeek tiếp cận bằng cách nén chi phí tính toán ngữ cảnh thông qua kiến trúc mô hình. Bài viết cho biết, V4 sử dụng hai cơ chế chú ý xen kẽ, giúp giảm đáng kể kích thước bộ nhớ đệm KV và chi phí suy luận cho từng token trong các ngữ cảnh dài. Với ngữ cảnh lên đến triệu token, bộ nhớ đệm KV của V4-Pro chỉ bằng khoảng một phần mười so với thế hệ trước, và chi phí suy luận cho từng token chỉ khoảng 27% so với thế hệ trước.
Giá mô hình Mỹ đi ngược chiều
Bài viết chỉ ra rằng các mô hình hàng đầu của Mỹ gần đây không đi theo xu hướng giảm giá. OpenAI đã phát hành GPT-5.5 vào cuối tháng 4, tăng giá đầu ra lên 30 USD mỗi triệu token, khoảng gấp đôi so với thế hệ trước. Giá của Claude Opus 4.7 của Anthropic vẫn giữ nguyên, nhưng do cập nhật bộ phân tích từ, cùng một văn bản có thể tạo ra nhiều token hơn, khiến hóa đơn thực tế có thể tăng tối đa khoảng 35%.
Để so sánh, DeepSeek V4-Pro đạt điểm 80,6% trên bộ tiêu chuẩn mã SWE-Verified, gần với 80,8% của Claude Opus 4.6, nhưng chênh lệch giá đầu ra lên đến hàng chục lần. Sau khi điều chỉnh giá mới nhất, Xiaomi MiMo-V2.5-Pro cũng đạt mức giá đầu vào và đầu ra tương đương với DeepSeek V4-Pro.
Bài viết cũng đề cập rằng, ngoài DeepSeek và Xiaomi, các nhà cung cấp mô hình Trung Quốc như MiniMax, Moonshot AI, Z.AI cũng duy trì mức giá thấp. Theo so sánh trong bài viết, trong quý hai năm 2026, chênh lệch giá giữa các mô hình tiên tiến của Trung Quốc và Mỹ dao động khoảng 15 đến 30 lần; nếu tính đến ưu đãi bộ nhớ đệm, khoảng cách này sẽ còn lớn hơn nữa.
