AIトークンの Bills が爆発：1晩で5億、130万、1万8千

1か月で5億ドルの請求額を削減！

最近，科技圈爆出一桩惊天乌龙。Axiosの報道によると、ある企業がたった1か月でClaudeに5億ドルを消費したという。

理由令人哭笑不得：管理層が従業員にClaudeアカウントの権限を付与する際、使用枠の上限を設定し忘れた。

GitHub

実際、AIの決済強制ロスカットはこの1社だけではありません。

今年4月、あるGoogle Cloudユーザーの公開サービスに残されていたAPIキーが悪用され、元々7ドルの予算しかなかったアカウントが一夜にして1万8,000ドルの請求書を受け取った。

GitHub

この不運なユーザー名はJesse Daviesで、オーストラリアのAIコンサルタントであり、Agentic Labsの創設者である。彼は自分のGoogle Cloudアカウントに二重の保護を設定した：10オーストラリアドル（約7ドル）の予算アラートと、1400ドルの厳格な消費上限。

Tom's Hardwareの報道によると、攻撃者は数ヶ月前にAI Studioから公開したCloud Runサービスを発見し、6万件以上のリクエストを送信しました。二重のセキュリティ対策も機能せず、請求の計算に遅れがあり、システムが対応した頃には金額が1万8千ドルにまで跳ね上がっていました。

5月中旬、オープンソースプロジェクトOpenClawの創設者であるPeter SteinbergerがXにスクリーンショットを投稿した。30日間でOpenAI APIの請求額は130万ドル。

GitHub

彼のチームはたった3人だが、彼らが指揮する100のCodexエージェントが並列で動作し、30日間で6030億トークンを消費し、760万回のリクエストを実行した。幸いにも、この130万ドルは彼自身の懐から出たものではない。

シュタインベルガーは今年2月にOpenAIに加入し、この130万ドルは内部実験として扱われた：

トークンコストを考慮しない場合、AIプログラミングはどの程度の限界に達するかをテストしました。彼は、これはCodexの「Fast Mode」（高速モード課金）の結果であり、これをオフにすると約30万ドルになると補足しました。

より以前に、UberのCTOであるPraveen Neppalli NagaはThe Informationに対して、同社が4月に全年のClaude Code予算を使い切ったことを認めた。また、同社のCOOも公開で、AIコストがますます「説明しづらくなっている」と述べた。

5億、130万、1.8万。金額は数桁異なるが、同じ事実を示している：

エージェント時代において、管理を失った鍵、昼夜を問わず活動するエージェント軍団、上限設定を忘れてしまったアカウント——そのいずれか一つでも、あなたのトークンの明細が一夜で急増する可能性があります。

AIの請求書が強制ロスカットされる理由は？

答えは主に課金方式の変化に隠されています。

今年4月から、OpenAIの月額課金方式はトークン使用量に基づく課金に移行しました。

4月2日、Codexの課金方式がメッセージ単位の推定から、入力、キャッシュ入力、出力の3種類のトークン使用量に準拠する方式に変更されました。4月23日、このルールがすべてのEnterprise、Edu、Health、Govプランに拡張され、月額料金に含まれていた見えない割引が廃止されました。

GitHubもその後に続き、先ほど発表しました：2026年6月1日より、すべてのCopilotプランが使用量課金制に移行します。従来の高級リクエストロジックは廃止され、入力トークン、出力トークン、キャッシュトークンの実際の消費量に基づき、各モデルのAPI料金に従って課金されます。

GitHub

GitHubはその理由を公式に説明しました：

今、迅速なチャットの質問と数時間にわたる自発的なコーディングタスクに対して、ユーザーは同じ金額を支払っている。GitHubは重いタスクを実行するユーザーの費用を肩代わりしてきたが、このモデルは持続不可能になっている。

AIエージェントが台頭する前は、チャットと補完のコストがほぼ同じで、月額料金で賄えました。

エージェントの台頭により、1つのタスクが数時間連続で実行され、コードベース全体が変更されるようになり、重度ユーザーと軽度ユーザーのコスト差が数桁に広がった。このような差異の前で、月額制は崩壊した。

メッセージが公開されると、RedditとX上で大騒ぎとなった。

IDがJBusuの開発者が請求書のスクリーンショットを公開し、新価格を「馬鹿げている」と断言した。元々の月額料金28.12ドルが新制度では746.01ドルに跳ね上がり、彼は解約を決定。「この価格なら、自分でクラウドサーバーをレンタルした方がまだ安い」

GitHub

別のユーザーはスクリーンショットをより誇張して、手数料が50ドルから3000ドルまで急騰したと述べ、その価格設定の異常さに驚き、「まだ誰かがサブスクリプションを継続しているのでしょうか？」と問いかけました。

GitHub

しかし、Copilotの長期利用者の中には反論する人もおり、これらの極端な請求額は「vibe-coder」（感覚でコーディングする人）たちがTokenの消費を軽視して発生したものであり、通常の使用を代表するものではないと指摘している。

ある長期利用者がコメント欄に残した：「私は一日中使っているが、月末には基本的に予算オーバーしない。これが作業の複雑さの差とは信じられない。」別のユーザーはより直接的にこう述べた：「誰かが完全自動のYOLOモードを開発して、AIを好きに動かさせているのだ。このような無駄が排除されることは、他の人にとってはむしろ良いことだ。」

明確にしておく必要があります：GitHubは月額料金を廃止しておらず、基本的なサブスクリプション料金は変更されていません。変更されたのは、追加使用量、エージェントタスク、より高価なモデル呼び出しであり、これより用量課金制に移行します。

最も影響を受けたのは、Copilotを使って長距離タスクを実行する重度のエージェントユーザーである。

自らの仲間によって台無しにされたランキング

月額料金が守られず、一方ではプラットフォームが課金ルールを変更し、他方ではAIを利用する人々自身もひたすらコストを消費している。

5月、Business Insiderは、Amazonが内部AI使用ランキング「KiroRank」を削除したと報じた。

この報道は、関係者を引用して、このランキングが奇妙な働き方を密かに生み出したと述べている。一部の従業員は、ランキングを上げるために、実際の問題を解決しないトークン消費を繰り返し、単に順位を上げようとしている。

GitHub

事実が明らかになった後、Amazonの上級副社長であるDave Treadwellは全社員に直接呼びかけました。「AIを使うためではなく、顧客の問題やビジネスの問題を解決し、イノベーションを起こすためにAIを使いましょう。」

これは少し馬鹿げているが、驚くには当たらない。「Tokenを燃やす」ことでランキング入りできるなら、従業員は自然とTokenを燃やすだろう。

シリコンバレーでは、この現象に専用の名前を付けました：Tokenmaxxing（トークンを極限まで消費する）、消費量を生産性と見なします。

Axiosの報道では、CTOが従業員がAIモデルを使って天気を調べたり、日常的なメールを書いたりしているのを発見したと述べており、非常に単純な作業に最も高価な最先端モデルを適用することで、請求額が静かに急増しているという。

KiroRankはAmazonの公式評価システムではなく、従業員が自発的に構築した非公式なツールである。しかし、それは管理学における古典的な法則を明確に示している：KPIが誤っている場合、人々は最も賢い方法で抜け穴を見つける。

「どれだけ使ったか」を「どれだけうまくやったか」と同一視すること——これが今回のAI無駄遣いの制度的根源である。

トークンの計算をしている人は、すでに利益を上げている

トークン請求書の不安の裏側で、誰かがそれをビジネスに変えている。

第一の道：コンテキストでAIを満たす。

GleanはArvind自身の会社です。同社は企業用AIアシスタントを提供しており、会社全体に散在する知識を統合し、従業員のAIが文脈を直接取得できるようにします。これにより、従業員が情報を手探りで探す必要がなくなります。AIが無駄な移動を減らすことで、消費されるトークンも自然と削減されます。

このメカニズムにより、Gleanの年間収益は15か月で3倍に増加し、3億ドルを突破。Databricks、Reddit、Samsungなどが顧客に含まれます。

第二の道：タスクを適切なモデルに割り当てる。

モデルルーティングのスタートアップであるFactory AIは、まさにこのことを実現しています：各タスクを最適なモデルに自動で割り当て、簡単なタスクは低コストのモデル、複雑なタスクはハイエンドのモデルに処理させます。Arvindも述べています：ルーティングを正しく実行すれば、10倍のコスト削減が可能です。

この二つの道は同じ目的地に至る：AIに仕事をさせても、無駄に消費させないこと。

学術界の研究も、この転換を支えています。

GitHub

https://arxiv.org/pdf/2604.22750

2026年4月のarXiv論文が、エージェントコーディングタスクがどのようにして資金を消費するかを初めて体系的に解明した。

結論1：エージェントタスクのトークン消費量は、通常のコード推論やコード対話の数千倍に達し、コスト上昇の主な原因は入力トークンである。

結論2：同じタスクを複数回実行すると、トークン消費量が30倍差が出る。

結論3：トークン消費量が増えても、必ずしも精度が向上するとは限らない。精度は中程度のコストでピークに達し、それ以上コストをかけても、効果は飽和してしまう。

論文はまた、最先端のモデルでさえ、自分がどの程度のトークンを消費するかを予測できず、一般的に実際のコストを過小評価していることを発見した。

もっとお金を払えばもっとできると思うかもしれないが、実際にはお金を費やしても仕事の質が必ずしも良くなるわけではないし、予算の見込みも正確に立てられない。

AIの請求額が人件費を上回り始めている

これは私の記憶では、技術コストが人件費と初めて同等になった瞬間です。

5月29日、GleanのCEOであるArvind Jainは、CNBCの記者Deirdre Bosaのインタビューでこう語った。

GitHub

NVIDIAのディープラーニングアプリケーション副社長であるBryan Catanzaroの観察も、この点を裏付けている。

彼はAxiosのインタビューで、自分のチームにとって、計算能力のコストが従業員の給与をはるかに上回っていると述べました。

類似の現象が複数の企業で見られている：企業AIのGleanから、AI計算能力を販売するNVIDIA、そしてAIを利用するUberまで、すべてがこの計算を見直している。

アルヴィンドによると、歴史的に見れば技術は企業の全体コストのほんの一部に過ぎなかったが、現在ではAIコストが給与明細と同等の規模にまで達しており、多くの企業の年間AI予算は通常1〜2ヶ月で使い切ってしまう。

GitHub

過去1年間、AIの使用率は称賛の指標だった：多く使うことが先進的で、トークンを消費することが未来への対応とされた。しかし今、多くの企業が、このシンプルな問いを見直し始めている：これらの消費されたトークンは、果たして何をもたらしたのか？

無料で月額利用できる期間が、まさに今閉じられます。

次に、すべての開発者に問われるのは、どのようにして各トークンの価値を最大限に引き出すかという問題です。

未来の真の勝者は、間違いなく最初にトークンの帳簿を理解する者になるだろう。

参考資料：

https://x.com/dee_bosa/status/2060791500049613306%20

https://www.cnbc.com/2026/05/29/-tokens-or-humans-the-new-corporate-trade-off.html%20

https://www.axios.com/2026/05/28/ai-spending-roi-enterprise-costs%20

https://www.businessinsider.com/amazon-ai-leaderboard-tokenmaxxing-2026-5

本文は微信公众号「新智元」より、著者：ASI启示録