Chi tiêu 500 triệu USD trong 1 tháng!
Gần đây, cộng đồng công nghệ đã tiết lộ một sự cố lớn. Theo Axios, một doanh nghiệp đã chi tới 500 triệu USD trên Claude chỉ trong vòng một tháng.
Lý do khiến người ta vừa buồn vừa cười: Ban quản lý khi cấp quyền truy cập Claude cho nhân viên đã quên thiết lập giới hạn mức sử dụng.

Thực tế, có rất nhiều công ty khác cũng bị thanh lý do AI.
Tháng 4 năm nay, một người dùng Google Cloud đã nhận hóa đơn 18.000 USD trong một đêm do khóa API còn sót lại trong dịch vụ công khai bị lạm dụng, trong khi ngân sách ban đầu của tài khoản chỉ là 7 USD.

Tên người dùng may mắn này là Jesse Davies, một chuyên gia tư vấn AI người Úc và sáng lập viên của Agentic Labs. Anh ấy đã thiết lập hai lớp bảo vệ cho tài khoản Google Cloud của mình: một cảnh báo ngân sách 10 AUD (khoảng 7 USD) và một giới hạn chi tiêu cứng 1.400 USD.
Theo Tom's Hardware, kẻ tấn công đã phát hiện ra một dịch vụ Cloud Run mà anh ta đã phát hành cách đây vài tháng, gửi hơn 60.000 yêu cầu, và cả hai lớp bảo vệ đều không ngăn được: việc tính hóa đơn có độ trễ, khi hệ thống phản ứng lại thì số tiền đã tăng lên 18.000 USD.
Vào giữa tháng 5, Peter Steinberger, người sáng lập dự án mã nguồn mở OpenClaw, đã đăng một ảnh chụp màn hình trên X: hóa đơn OpenAI API trong 30 ngày là 1,3 triệu USD.

Đội ngũ của anh ấy chỉ có ba người, nhưng họ điều khiển 100 tác nhân Codex chạy song song: trong 30 ngày tiêu thụ 60,3 tỷ token và thực hiện 7,6 triệu yêu cầu. May mắn thay, 1,3 triệu USD này không phải là tiền túi của anh ấy.
Steinberger đã gia nhập OpenAI vào tháng 2 năm nay, 1,3 triệu đô la này được coi là một thí nghiệm nội bộ:
Kiểm tra xem nếu không tính chi phí token, AI lập trình có thể đạt đến giới hạn nào. Anh ấy bổ sung rằng đây là kết quả của chế độ «Fast Mode» của Codex, khi tắt đi sẽ tốn khoảng 300.000 USD.
Trước đó, CTO của Uber, Praveen Neppalli Naga, cũng từng thừa nhận với The Information rằng công ty đã tiêu hết toàn bộ ngân sách Claude Code cho cả năm vào tháng Tư, và COO của họ cũng công khai cho biết chi phí AI ngày càng trở nên “khó biện minh”.
500 triệu, 1,3 triệu, 18 nghìn, dù số tiền chênh lệch vài bậc độ lớn, nhưng đều hướng đến cùng một sự thật:
Trong thời đại tác nhân, chìa khóa bị mất kiểm soát, đội ngũ tác nhân hoạt động không ngừng nghỉ, tài khoản không đặt giới hạn: chỉ cần một trong số đó cũng có thể khiến hóa đơn Token của bạn tăng vọt trong một đêm.
Tại sao hóa đơn AI lại bị đóng lệnh?
Đáp án chủ yếu nằm trong sự thay đổi cách tính phí.
Từ tháng 4 năm nay, mô hình tính phí theo gói hàng tháng của OpenAI đã chuyển sang tính phí theo lượng Token sử dụng.
Ngày 2 tháng 4, hệ thống tính phí của Codex đã chuyển từ tính theo ước lượng tin nhắn sang tính theo lượng Token sử dụng: phân biệt tính riêng cho ba loại Token là đầu vào, bộ nhớ đệm đầu vào và đầu ra. Ngày 23 tháng 4, quy tắc này được mở rộng đến tất cả các gói Enterprise, Edu, Health và Gov: khoản chiết khấu ẩn trong phí hàng tháng đã bị loại bỏ.
GitHub cũng đã làm theo, vừa chính thức thông báo: kể từ ngày 1 tháng 6 năm 2026, tất cả các gói Copilot sẽ chuyển sang mô hình tính phí theo mức sử dụng. Logic yêu cầu nâng cao cũ sẽ bị hủy bỏ và thay thế bằng hạn mức AI, được tính toán dựa trên lượng Token đầu vào, Token đầu ra và Token bộ nhớ đệm thực tế tiêu thụ, theo mức phí API của từng mô hình.

GitHub đã giải thích lý do cho hành động này:
Hiện tại, người dùng chi cùng một số tiền cho một câu hỏi trò chuyện nhanh và một nhiệm vụ mã hóa tự chủ kéo dài nhiều giờ. GitHub đã luôn chi trả cho những người dùng chạy các tác vụ nặng, nhưng mô hình này đã không còn bền vững.
Trước khi các tác nhân AI nổi lên, chi phí trò chuyện và hoàn thành gần như bằng nhau, đủ để bao phủ bằng phí hàng tháng.
Sau khi các tác nhân thông minh nổi lên, một nhiệm vụ có thể chạy liên tục vài giờ và thay đổi toàn bộ kho mã nguồn, sự chênh lệch chi phí giữa người dùng nặng và người dùng nhẹ có thể kéo dài đến vài cấp độ. Mô hình trả phí hàng tháng hoàn toàn sụp đổ trước sự chênh lệch này.
Sau khi tin tức được công bố, cộng đồng trên Reddit và X đã dậy sóng.
Một nhà phát triển có ID JBusu đã đăng ảnh chụp hóa đơn và thẳng thắn cho rằng mức giá mới “chỉ là một trò cười”. Chi phí trước đây là 28,12 USD/tháng, nhưng theo mức giá mới sẽ phải trả 746,01 USD; anh ấy đã quyết định hủy đăng ký, “với mức giá này, tôi còn thuê máy chủ đám mây riêng rẻ hơn”.


Một người dùng khác đăng ảnh chụp màn hình còn cực đoan hơn, phí tăng từ 50 USD vọt lên 3.000 USD, anh ta cho biết không ngờ giá lại cao đến vậy: “Vẫn còn ai đăng ký tiếp không?”

Tuy nhiên, một số người dùng lâu năm của Copilot đã phản bác: những hóa đơn cực đoan này phần lớn là do những “vibe-coder” (người lập trình theo cảm hứng) không coi trọng việc tiêu Token, chứ không đại diện cho việc sử dụng bình thường.
Một người dùng cũ để lại bình luận: “Tôi dùng nó cả ngày, cuối tháng gần như không vượt ngân sách, khó tin đây là sự khác biệt về độ phức tạp công việc.” Một người khác còn trực tiếp hơn: “Chính là có người muốn phát triển chế độ YLO hoàn toàn tự động, để AI chạy tùy ý. Việc loại bỏ sự lãng phí này thực ra lại là điều tốt cho những người khác.”
Cần làm rõ một điểm: GitHub không xóa bỏ phí hàng tháng, giá cơ bản của gói đăng ký không thay đổi. Điều thực sự thay đổi là mức sử dụng bổ sung, tác vụ đại lý và chi phí gọi mô hình đắt hơn, từ nay chuyển sang mô hình tính phí theo mức sử dụng.
Những người dùng agent nặng ký phụ thuộc vào Copilot để chạy các tác vụ chuỗi dài là những người bị ảnh hưởng nhiều nhất.
Bảng xếp hạng bị chính người trong cuộc làm hỏng
Chi phí hàng tháng bị mất, một mặt là nền tảng đã thay đổi quy tắc tính phí, mặt khác là những người dùng AI cũng đang cố gắng tiêu hết tiền.
Tháng 5, Business Insider đưa tin, Amazon đã gỡ bỏ một bảng xếp hạng AI nội bộ có tên KiroRank.
Báo cáo trích dẫn lời các nguồn thạo tin cho biết, danh sách này đã âm thầm thúc đẩy một cách làm việc kỳ lạ: một số nhân viên để leo lên cao hơn trên danh sách, đã tiêu tốn các Token không giải quyết vấn đề thực tế, chỉ để tăng thứ hạng.

Sau khi sự việc được phơi bày, Phó Chủ tịch cấp cao của Amazon, Dave Treadwell, đã trực tiếp nhắn nhủ toàn thể nhân viên: “Đừng sử dụng AI chỉ vì muốn dùng AI. Hãy dùng nó để giải quyết các vấn đề của khách hàng, giải quyết các vấn đề kinh doanh, và để sáng tạo.”
Dù chuyện này có phần荒唐, nhưng hoàn toàn không gây ngạc nhiên. Khi việc "đốt Token" có thể lọt vào danh sách, nhân viên tất nhiên sẽ đi đốt Token.
Thung lũng Silicon đã đặt cho hiện tượng này một cái tên riêng: Tokenmaxxing (đốt Token cực đại), coi lượng tiêu thụ là năng suất.
Báo cáo của Axios cũng đề cập rằng, một CTO phát hiện nhân viên sử dụng mô hình AI để tra cứu thời tiết, viết email hàng ngày—những việc đơn giản đến mức không cần thiết phải dùng đến mô hình tiên tiến nhất và đắt nhất, khiến hóa đơn tăng vọt một cách lặng lẽ.
KiroRank không phải là hệ thống đánh giá chính thức của Amazon, mà là một công cụ phi chính thức do nhân viên tự xây dựng. Nhưng nó rõ ràng phơi bày một quy luật quản trị kinh điển: khi KPI được thiết lập sai, con người sẽ tìm cách khôn ngoan nhất để lợi dụng kẽ hở.
Đồng nhất “đã sử dụng bao nhiêu” với “làm tốt hay không” — đây chính là nguồn gốc hệ thống của sự lãng phí AI trong đợt này.
Người tính toán Token đã đang kiếm tiền
Một mặt khác của nỗi lo về hóa đơn token, có người đã âm thầm biến nó thành một công việc kinh doanh.
Con đường đầu tiên: Dùng ngữ cảnh để nuôi dưỡng AI.
Glean chính là công ty do Arvind tự thành lập. Nó cung cấp trợ lý AI doanh nghiệp: thống nhất và kết nối các nguồn tri thức rải rác trong công ty, giúp AI của nhân viên trực tiếp tiếp cận ngữ cảnh, thay vì phải lục lọi khắp nơi. AI ít phải đi vòng, lượng Token tiêu tốn tất nhiên sẽ giảm.
Cơ chế này giúp doanh thu hàng năm của Glean tăng gấp ba lần trong 15 tháng, vượt mốc 300 triệu USD, với các khách hàng bao gồm Databricks, Reddit, Samsung.
Con đường thứ hai: Phân công công việc cho mô hình phù hợp.
Công ty khởi nghiệp về định tuyến mô hình Factory AI làm chính xác điều này: tự động phân bổ mỗi nhiệm vụ vào mô hình phù hợp nhất—nhiệm vụ đơn giản dùng mô hình giá rẻ, nhiệm vụ phức tạp dùng mô hình cao cấp. Arvind cũng từng nói: nếu định tuyến đúng, có thể tiết kiệm tới 10 lần.
Hai con đường này đều dẫn đến cùng một đích: để AI làm việc, nhưng đừng để nó tiêu xài bừa bãi.
Nghiên cứu trong cộng đồng học thuật cũng đang tạo nền tảng cho sự chuyển hướng này.

https://arxiv.org/pdf/2604.22750
Một bài báo trên arXiv vào tháng 4 năm 2026 đã lần đầu tiên phân tích hệ thống cách các tác vụ mã hóa tác nhân tiêu tốn tiền bạc.
Kết luận một: Lượng Token tiêu thụ cho nhiệm vụ tác nhân có thể lên đến hàng nghìn lần so với suy luận mã và hội thoại mã, nguyên nhân chính làm tăng chi phí là Token đầu vào.
Kết luận hai: Cùng một nhiệm vụ chạy nhiều lần, lượng Token tiêu thụ có thể chênh lệch đến 30 lần.
Kết luận 3: Việc tiêu tốn nhiều Token hơn không nhất thiết mang lại độ chính xác cao hơn. Độ chính xác thường đạt đỉnh ở mức chi phí trung bình—tiếp tục chi thêm tiền sẽ không mang lại hiệu quả tăng thêm.
Nghiên cứu cũng phát hiện rằng các mô hình tiên tiến nhất thậm chí không thể dự đoán được mình sẽ tiêu tốn bao nhiêu token, và thường đánh giá thấp chi phí thực tế.
Bạn nghĩ rằng chi nhiều tiền hơn sẽ làm được nhiều việc hơn. Thực tế là tiền đã chi, công việc chưa chắc đã tốt hơn, và ngân sách vẫn không tính chính xác.
Khi hóa đơn AI bắt đầu vượt chi phí nhân lực
Đây là lần đầu tiên trong ký ức của tôi mà chi phí kỹ thuật bắt đầu bằng với chi phí nhân lực.
Vào ngày 29 tháng 5, CEO của Glean, Arvind Jain, đã nói như vậy trong cuộc phỏng vấn với phóng viên Deirdre Bosa của CNBC.

Quan sát của Bryan Catanzaro, Phó chủ tịch ứng dụng học sâu của NVIDIA, cũng xác nhận điều này.
Anh ấy đã nhắc đến trong cuộc phỏng vấn với Axios: Đối với đội ngũ của mình, chi phí tính toán đã vượt xa mức lương nhân viên.
Hiện tượng tương tự đang xuất hiện tại nhiều công ty: từ Glean chuyên về AI doanh nghiệp, đến NVIDIA bán sức mạnh tính toán AI, và cả Uber sử dụng AI, đều đang xem xét lại con số này.
Theo Arvind, trong quá khứ, công nghệ chỉ là một phần rất nhỏ trong tổng chi phí của doanh nghiệp, nhưng hiện nay chi phí AI đã có thể ngang bằng với bảng lương, và ngân sách AI hàng năm của nhiều doanh nghiệp thường bị tiêu hết trong một đến hai tháng.

Trong năm qua, tỷ lệ sử dụng AI đã trở thành chỉ số được ngưỡng mộ: dùng càng nhiều càng tiên tiến, đốt Token càng nhiều càng đón nhận tương lai. Bây giờ, nhiều doanh nghiệp bắt đầu suy ngẫm lại câu nói giản dị đó: Những Token đã đốt đi rốt cuộc đã đổi lấy được gì?
Khoảng thời gian miễn phí sử dụng hàng tháng đã đóng lại ngay lúc này.
Tiếp theo, vấn đề đặt ra với tất cả các nhà phát triển là: làm thế nào để chi tiêu tiết kiệm để mỗi Token phát huy tối đa giá trị.
Người chiến thắng thực sự trong tương lai, không nghi ngờ gì nữa, sẽ là người đầu tiên học cách tính toán sổ sách Token.
Tài liệu tham khảo:
https://x.com/dee_bosa/status/2060791500049613306%20
https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20
https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20
https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5
Bài viết này đến từ tài khoản WeChat “New Intelligence Yuan”, tác giả: ASI Khải Huyền
