Microsoft ngừng sử dụng nội bộ Claude Code vì chi phí token AI vượt quá chi phí nhân viên

Ngày 14 tháng 5 năm 2026, Microsoft đã bắt đầu hủy giấy phép nội bộ Claude Code cho phần lớn nhân viên. Hạn chót là ngày 30 tháng 6 — cũng là ngày cuối năm tài chính của Microsoft.

Chỉ mới 6 tháng trước, Microsoft đang làm hoàn toàn ngược lại — vào tháng 12 năm 2025, họ đã mở rộng Claude Code cho hàng ngàn nhân viên, bao gồm kỹ sư, sản phẩm manager, nhà thiết kế, khuyến khích tất cả mọi người tái cấu trúc quy trình làm việc theo cách vibe coding. Nhân viên rất yêu thích công cụ này, nhưng có lẽ là yêu thích quá mức.

Nhưng sau 6 tháng, chính Microsoft đã rút lui.

Và gần như cùng tuần đó, đối tác của YC, Tom Blomfield, đã nói một câu khác trong một buổi batch talk: “Nếu hóa đơn API của bạn không khiến bạn đau lòng, thì bạn đang tiêu chưa đủ.”

Cùng một mùa xuân, Thung lũng Silicon đang đưa ra hai câu trả lời hoàn toàn trái ngược cho cùng một vấn đề – sử dụng AI rốt cuộc có đắt hơn con người không?

Hiện trường thất bại của 01 vibe coding

Microsoft không hủy bỏ mô hình Claude. Các mô hình của Anthropic vẫn sẽ tiếp tục được cung cấp cho nhân viên Microsoft thông qua Copilot CLI. Điều họ hủy bỏ là chính cửa hàng sản phẩm Claude Code.

Bộ phận bị ảnh hưởng nhiều nhất là “Experiences + Devices” – tức là đội ngũ kỹ sư đằng sau Windows, Microsoft 365, Outlook, Teams và Surface. EVP Rajesh Jha đã mô tả quyết định này trong memo nội bộ là “sự thống nhất công cụ” (toolchain unification), nhưng theo nguồn tin nội bộ của Microsoft được The Verge trích dẫn, cách diễn đạt trực tiếp hơn là: nhân viên普遍 cho rằng Claude Code dễ sử dụng hơn Copilot CLI, và công cụ của Anthropic đã trở nên phổ biến trong nội bộ Microsoft đến mức Copilot CLI của chính Microsoft bị “bỏ quên”.

Nói cách khác, Microsoft gỡ bỏ Claude Code không phải vì nó không tốt, mà vì nó quá xuất sắc.

Ngày hết hạn vào ngày 30 tháng 6 cũng không phải là ngẫu nhiên—đó là ngày cuối cùng của năm tài chính Microsoft. Việc loại bỏ một công cụ được nhân viên ưa thích và thay thế bằng sản phẩm của chính mình, đồng thời chọn thời điểm trùng với mốc năm tài chính—có bao nhiêu phần là quyết định sản phẩm, bao nhiêu phần là cân nhắc tài chính, mọi người đều rõ.

Claude Code

Microsoft không phải là trường hợp duy nhất.

Một tháng trước, CTO của Uber, Praveen Neppalli Naga, tiết lộ với The Information: Ngân sách dành cho công cụ lập trình AI của công ty trong cả năm 2026 đã bị tiêu hết chỉ trong bốn tháng đầu tiên. Trước đó, Uber còn từng lập bảng xếp hạng nội bộ, tổ chức cuộc thi để khuyến khích nhân viên sử dụng AI nhiều hơn—kết quả là ngân sách bị phá sản.

Đơn giản hơn, đó là câu mà Bryan Catanzaro, Phó chủ tịch ứng dụng học sâu của NVIDIA, đã nói trong cuộc phỏng vấn với Axios: “Đối với đội ngũ của tôi, chi phí tính toán cao hơn nhiều so với chi phí nhân sự.” Đây là lời nói từ một nhà quản lý cấp cao của một công ty phần cứng – công ty có sản phẩm cốt lõi chính là bán tính toán.

Fortune đã nối các manh mối lại với nhau và đặt cho bài viết một tiêu đề rất “Fortune”: “Báo cáo của Microsoft phơi bày vấn đề chi phí thực sự của AI – dùng thứ này còn đắt hơn cả nuôi nhân viên”.

Nếu chỉ đọc đến mức này, kết luận rất đơn giản: vibe coding đã thất bại, câu chuyện AI thay thế con người có thể kết thúc rồi.

Nhưng kết luận này đưa ra quá sớm.

02 Copilot mode đã "đụng tường"

Để giải thích sự rút lui của Microsoft, trước tiên cần làm rõ vibe coding là gì.

Từ này được Andrej Karpathy đưa ra đầu năm 2025—ông mô tả một cách lập trình mới: các nhà phát triển không còn viết mã từng dòng, mà dùng ngôn ngữ tự nhiên để mô tả ý định, để LLM tạo mã. Các nhà phát triển thậm chí không đọc mã, chỉ xem kết quả—nếu chạy được thì chấp nhận, nếu không chạy được thì yêu cầu AI sửa lại một lần nữa.

Đây là lời hứa về năng suất hấp dẫn nhất trong thời đại AI. Nó có nghĩa là: một kỹ sư không biết Rust có thể nhờ AI viết Rust cho mình; một sản phẩm quản lý có thể nhờ AI tạo ra bản mẫu; một nhà thiết kế có thể nhờ AI viết ra mã chạy được. Những đối tượng được Microsoft mở cửa cho Claude Code vào tháng 12 năm 2025 — kỹ sư, PM, nhà thiết kế — chính là ba nhóm người này. Đây không phải là sự tình cờ, mà là cách triển khai điển hình nhất của vibe coding.

Nhưng khi vibe coding rơi vào các công ty lớn, nó sẽ trở thành một việc rất lúng túng về mặt cấu trúc.

Giả sử một kỹ sư của Microsoft có mức lương hàng năm là 300.000 USD. Sau khi Microsoft trang bị cho anh ta Claude Code, năng suất của anh ta tăng 20%—đây là trạng thái lý tưởng nhất của vibe coding. Nhưng đồng thời, chi phí token anh ta tiêu thụ mỗi tháng là 200 USD, 500 USD, hay 2000 USD? Con số này sẽ tăng đều đặn khi anh ta phụ thuộc ngày càng sâu vào AI.

Điều khiến vấn đề trở nên phức tạp hơn là anh ta sẽ không bị sa thải chỉ vì “sử dụng AI” — mức lương 300.000 USD của anh ấy vẫn giữ nguyên, các phúc lợi vẫn còn, và chỗ làm của anh ấy cũng vẫn vậy.

Nói cách khác, cấu trúc chi phí tổng thể của Microsoft là “lương nhân viên hiện tại + hóa đơn token mới”. Công thức này chỉ có một hướng — chi phí tăng vọt.

Claude Code

Việc "năng suất nhân viên tăng 20%" có phản ánh trên tài chính là "doanh thu tăng 20%" không? Không phải. Mà là "doanh thu giữ nguyên, nhưng trong cơ cấu chi phí xuất hiện thêm một mục hóa đơn AI" — vì phần lớn năng suất của nhân viên không trực tiếp tương ứng với doanh thu tăng thêm; việc họ viết nhanh hơn không có nghĩa là công ty bán được nhiều hơn.

Đó mới là ý nghĩa thực sự của câu nói “chi phí tính toán đắt hơn nhân viên” của Catanzaro. Nó không có nghĩa là AI ngu ngốc, mà là khi bạn đặt AI vào vị trí của nhân viên cũ, bạn không thể nào cân đối được các con số.

Logic này còn có dữ liệu hỗ trợ.

Một báo cáo gần đây của Gartner dự đoán: đến năm 2030, chi phí suy luận của các mô hình lớn với một nghìn tỷ tham số sẽ giảm gần 90% so với năm 2025. Nghe có vẻ như AI đang ngày càng rẻ hơn, nhưng kết luận thực sự của Gartner là: điều này sẽ không làm giảm tổng chi phí AI của doanh nghiệp. Nhà phân tích cấp cao của Gartner, Will Sommer, từng nói: “Các CPO không nên nhầm lẫn giữa ‘lạm phát token ở mức hàng hóa’ và ‘sự phổ cập hóa khả năng suy luận tiên tiến’.”

Dự đoán của Goldman Sachs trực tiếp hơn: đến năm 2030, AI có tính chất tác nhân sẽ thúc đẩy lượng tiêu thụ token tăng 24 lần, đạt 120 petahash mỗi tháng. Giá mỗi token giảm 90%, lượng tiêu thụ tăng 24 lần—kết quả là tổng hóa đơn vẫn đang tăng.

Huang Renxun có một phiên bản táo bạo hơn. Vài tháng trước, ông đã nói công khai rằng trong tương lai, mỗi nhân viên NVIDIA sẽ làm việc cùng 100 AI agent.

Nghe thì thật tuyệt vời. Nhưng nếu bạn là CFO, bạn nghe thấy gì? Là 100 token bị đốt liên tục 24/7.

Vấn đề không phải là AI quá đắt. Vấn đề là giả định bản thân “trang bị một AI đồng hành cho mỗi nhân viên”.

Tư thế này trong cộng đồng công nghệ có một cái tên phổ biến — “chế độ phụ lái” (copilot mode). Giả định cốt lõi của nó là: con người vẫn ngồi ở vị trí lái, còn AI ngồi ở vị trí phụ lái để đưa ra gợi ý. Nó không thay thế bạn, mà chỉ giúp bạn nhanh hơn.

Giả định này về mặt văn bản rất nhẹ nhàng — “AI sẽ không lấy đi công việc của bạn, AI chỉ giúp bạn”. Nhưng về mặt tài chính, hàm ý của nó là: mức lương trước đây vẫn giữ nguyên, nhưng thêm một khoản phí token.

Còn token không phải là phí cố định, mà được tính theo mức tiêu thụ. Nhân viên sử dụng càng nhiều, công ty phải trả càng nhiều—đây chính xác là cấu trúc chi phí mà doanh nghiệp không muốn thấy nhất: linh động, không giới hạn trên và tăng tỷ lệ thuận với năng lực sản xuất.

Khi Microsoft mở cửa Claude Code vào tháng 12 năm 2025, họ có thể chưa hoàn toàn nhận thức được điều này. Ban đầu, họ chỉ muốn cho nhân viên thử nghiệm để xem AI có thể tăng hiệu suất làm việc bao nhiêu. Nhưng sau 6 tháng, nhân viên thực sự nghiện nó—Claude Code trở nên cực kỳ phổ biến trong nội bộ Microsoft—hậu quả là hóa đơn token vượt xa dự kiến, vượt quá sản lượng mà Microsoft có thể thu hồi từ sự phổ biến này.

Microsoft đã rút lui. Nhưng họ không rút lui khỏi AI—họ rút lui khỏi cấu trúc “nhân viên ngồi ở vị trí lái, AI ngồi ở vị trí hành khách”.

Đây là một sự thất bại mang tính cấu trúc. Nó sẽ không biến mất vì mô hình rẻ hơn, cũng không biến mất vì nhân viên lành nghề hơn – nó sẽ trở nên nghiêm trọng hơn khi nhân viên ngày càng thành thạo với AI.

03 Đốt token, vì không đốt đầu người

Gần như cùng tuần với việc Microsoft rút lui, Tom Blomfield đã đưa ra một góc nhìn hoàn toàn khác trong buổi batch talk của YC. Thay vì thảo luận về “AI nên được sử dụng như thế nào” — ông đã nói về “công ty trong thời đại AI nên trông như thế nào”.

Claude Code

Phán đoán của Blomfield rất trực tiếp: Ngày nay, phần lớn các công ty vẫn có cấu trúc giống như "quân đoàn La Mã" – thông tin được truyền lên theo cấp bậc, mệnh lệnh được phân phát xuống theo cấp bậc, và con người là trung tâm của sự điều phối. Việc gắn AI vào cấu trúc này giống như trang bị vũ khí hiện đại cho bộ binh La Mã – họ sẽ sử dụng chúng dữ dội hơn, nhưng chiến thuật vẫn không thay đổi.

Một công ty thực sự native với AI nên có vẻ ngoài khác biệt.

Blomfield đã sử dụng một mô tả cụ thể: mỗi hành động nên tạo ra một sản phẩm có thể ghi lại và gọi được, khiến mọi thứ rõ ràng với AI; công ty nên được thiết kế như một “vòng lặp AI tự cải thiện”, nơi hệ thống có thể nhận thức môi trường, đưa ra quyết định, gọi công cụ, nhận phản hồi và tự điều chỉnh.

Ở công ty này, mọi người chỉ có hai vai trò: một là người đóng góp cá nhân — mỗi người, bất kể bộ phận, đều là builder và operator, mang theo nguyên mẫu đến các cuộc họp, không chỉ mang ý tưởng; hai là DRI (người chịu trách nhiệm trực tiếp) — mỗi sản phẩm đều có một người chịu trách nhiệm rõ ràng, “không thể ẩn sau AI”.

Sau đó, Blomfield đã nói câu danh ngôn: "Nếu hóa đơn API của bạn không khiến bạn đau lòng, nghĩa là bạn chưa đốt đủ."

Câu này nếu xuất hiện trong văn phòng CFO của Microsoft sẽ bị coi là trò đùa; nhưng đặt trước một căn phòng đầy các nhà sáng lập startup tại YC, không ai thấy nó điên rồ.

Tại sao?

Đối tác khác của YC, Diana Hu, đã đưa ra câu trả lời tại Startup School vào đầu tháng 5. Cô nói một câu: “Mục tiêu không phải là tối đa hóa số người, mà là tối đa hóa việc tiêu thụ token.” Cô còn có phiên bản trực tiếp hơn: “Một người kết hợp với công cụ AI tương đương với một đội ngũ kỹ sư lớn trong quá khứ.”

Lưu ý từ khóa ở đây: “bằng”. Không phải “tương đương với”, không phải “tương tự như” – mà là thay thế.

Trong lô P26 mùa xuân 2026 của YC, đã có nhiều công ty sử dụng chỉ 5, 6 người để thực hiện những việc trước đây cần 20, 30 người. Hóa đơn token của họ đương nhiên cao, nhưng hóa đơn nhân sự lại cực kỳ thấp—tính tổng thể, họ vẫn có lợi nhuận.

Một ví dụ táo bạo hơn là Block. Công ty công nghệ tài chính do Jack Dorsey sáng lập gần đây đã sa thải 40% nhân viên. Đây không phải là việc “giảm chi phí, tăng hiệu quả” theo nghĩa truyền thống—Block đồng thời tăng cường đầu tư vào các công cụ AI, cấu trúc mới chính là mô hình mà Diana Hu mô tả: IC + DRI + AI agent.

Việc đốt token trong bối cảnh YC không phải là chi phí, mà là sự thay thế. Nó không thay thế các chi phí ngoài AI, mà là tiền lương nhân sự. Hóa đơn có thể cân đối được vì công ty đồng thời loại bỏ những vị trí vốn dĩ cần trả lương.

Đây chính là lý do cốt lõi khiến Microsoft và YC nhìn thấy cùng một sự việc nhưng đưa ra câu trả lời trái ngược — họ đang đổ nhiên liệu cho những loại token khác nhau. Token của Microsoft là để tiếp nhiên liệu cho ghế phụ của đội ngũ gốc, trong khi token của YC là để thay thế người lái xe ban đầu.

04 Tài sản thực sự đang được định nghĩa lại

Tom Blomfield cũng nói một câu khác đáng suy ngẫm hơn trong cuộc trò chuyện—“Con người là tạm bợ, tài liệu ngữ cảnh mới là quan trọng.”

Đây là một phán quyết ở cấp độ kế toán.

Bảng cân đối kế toán của công ty truyền thống được lập như thế nào? Bên trái là tài sản cố định, khoản phải thu, thương hiệu, sở hữu trí tuệ; bên phải là nợ và vốn chủ sở hữu. Nhân viên không nằm trong mục tài sản—nhân viên là chi phí. Nhưng mỗi công ty đều biết rõ, nhân viên thực chất là tài sản thực sự: mối quan hệ khách hàng nằm trong đầu nhân viên bán hàng, trực giác kinh doanh nằm trong đầu sản phẩm, và kiến thức kỹ thuật nằm trong đầu kỹ sư.

Đặc điểm của “tài sản” này là nó có thể rời đi. Khi nhân viên nghỉ việc, tài sản sẽ biến mất.

Trong khi đó, Blomfield mô tả các công ty bản địa AI đang thực hiện một việc: trích xuất toàn bộ những tài sản vốn chỉ tồn tại trong não người, biến chúng thành các "tài sản ngữ cảnh" mà AI có thể đọc, gọi và lặp lại.

Hình thức cụ thể là gì? Là tài liệu yêu cầu chi tiết; là tài liệu ghi lại quá trình mỗi quyết định, mỗi trao đổi email, mỗi cuộc thảo luận trên Slack; là giao diện và API MCP mở; là mọi tài sản do các công cụ nội bộ tạo ra—tất cả những điều này tạo thành một lớp tài sản mới, có thể kế thừa và không biến mất khi nhân viên nghỉ việc của công ty.

Con người trong công ty này lại trở thành “biến số” — có thể kết nối nhanh chóng và cũng có thể rời đi nhanh chóng, vì tài sản cốt lõi của công ty không nằm ở trí óc con người, mà nằm ở tài liệu.

Claude Code

Nếu cấu trúc này được xác lập, điều này không chỉ mang ý nghĩa của một mô hình tổ chức mới — mà còn có nghĩa là bảng cân đối kế toán của công ty đang được viết lại. Một công ty thuần AI với chỉ 6 người, đang tiêu tốn hóa đơn token đáng kinh ngạc, có vẻ như không lành mạnh về mặt tài chính, nhưng tài sản thực sự của nó có thể còn lớn hơn cả một công ty truyền thống với 60 người — chỉ là loại tài sản này, các chuẩn mực kế toán hiện tại vẫn chưa học cách tính toán.

Nói cách khác, vibe coding chưa chết. Nó chỉ không thuộc về các công ty truyền thống.

Ngày Microsoft gỡ bỏ Claude Code, không phải là ngày thất bại của kinh tế học AI—mà là ngày chính tư thế nhét AI vào các tổ chức cũ tự chứng minh là sai lầm.

Trong số những công ty khởi nghiệp trong căn phòng của YC, một cách tiếp cận khác đang hình thành—chúng nhỏ bé, chúng tiêu tiền, chúng không có chỉ số “tỷ lệ nhân viên sử dụng AI” trong bảng KPI, và CFO của chúng cũng không hoảng loạn vì hóa đơn token tăng vọt—bởi vì những gì chúng tiêu không phải là “người đồng hành của nhân viên”, mà là “người thay thế nhân viên”.

Trong những năm tới, mọi công ty vừa và nhỏ vẫn đang yêu cầu nhân viên “sử dụng AI nhiều hơn” sẽ đụng phải bức tường mà Microsoft đã từng đụng phải—hóa đơn token tăng trưởng bắt buộc về mặt cấu trúc.

Nhưng lý do thực sự khiến va chạm xảy ra không phải vì AI quá đắt – mà là tổ chức chưa thay đổi.

Và phần lớn các công ty, có lẽ trong thời gian ngắn sẽ không thay đổi.