Cuộc di cư nhân tài AI của Meta và chiến dịch chi tiêu 135 tỷ USD vào chip

Bài viết: Ada, Shenchao TechFlow

Pang Ruoming chưa ngồi nóng ghế ở Meta đã rời đi.

Tháng 7 năm 2025, Zuckerberg đã giành được kỹ sư người Hoa được săn đón nhất trong lĩnh vực hạ tầng AI từ Apple bằng một gói thù lao nhiều năm có tổng giá trị vượt quá 200 triệu USD. Bàng Nhược Minh được điều động vào Phòng thí nghiệm Siêu trí tuệ của Meta, phụ trách xây dựng hạ tầng cho các mô hình AI thế hệ tiếp theo.

7 tháng sau, OpenAI đã tuyển dụng anh ấy.

The Information báo cáo rằng OpenAI đã tiến hành chiến dịch tuyển dụng kéo dài nhiều tháng đối với Pang Ruoming. Mặc dù Pang Ruoming từng nói với đồng nghiệp rằng “anh ấy rất hài lòng khi làm việc tại Meta”, nhưng cuối cùng anh ấy vẫn quyết định rời đi. Theo Bloomberg, chế độ lương của anh ấy tại Meta được gắn với các mốc thành tựu, và việc rời đi sớm đồng nghĩa với việc từ bỏ phần lớn cổ phiếu chưa được thực hiện.

200 triệu USD, không mua được 7 tháng trung thành.

Đây không phải là một câu chuyện chuyển việc đơn giản.

Sự ra đi của một người, tín hiệu của nhiều người

Pang Ruoming không phải người đầu tiên rời đi.

Tuần trước, Mat Velloso, trưởng nhóm sản phẩm của nền tảng phát triển Meta Superintelligence Lab, cũng công bố rời đi. Người này từng rời Google DeepMind vào tháng 7 năm ngoái để gia nhập Meta, nhưng chỉ ở lại chưa đầy 8 tháng. Trước đó nữa, vào tháng 11 năm 2025, Yann LeCun, nhà khoa học AI hàng đầu và người đoạt giải Turing, sau 12 năm làm việc tại Meta, đã công bố rời đi để khởi nghiệp, theo đuổi “mô hình thế giới” mà ông luôn ủng hộ. Russ Salakhutdinov, học trò cốt lõi của Geoffrey Hinton và phó chủ tịch nghiên cứu AI sinh thành của Meta, cũng vừa mới công bố rời đi gần đây.

Để hiểu về sự rò rỉ nhân tài của Meta AI, trước tiên phải hiểu Llama 4 gây tổn thương đến mức nào.

Tháng 4 năm 2025, Meta chính thức công bố các mô hình Scout và Maverick trong loạt Llama 4. Dữ liệu chính thức trên giấy tờ cực kỳ ấn tượng, tuyên bố vượt trội hoàn toàn GPT-4.5 và Claude Sonnet 3.7 trên các bài kiểm tra chuẩn cốt lõi như MATH-500 và GPQA Diamond.

Tuy nhiên, mô hình chủ lực mang tham vọng của Meta đã nhanh chóng “bộc lộ bản chất thật” trong các bài kiểm tra mù độc lập của cộng đồng bên thứ ba, cho thấy sự chênh lệch nghiêm trọng giữa khả năng khái quát và suy luận thực tế so với những gì được quảng bá. Trước những nghi ngờ mạnh mẽ từ cộng đồng, nhà khoa học AI trưởng Yann LeCun cuối cùng đã thừa nhận rằng nhóm đã “sử dụng các phiên bản mô hình khác nhau để chạy các bộ dữ liệu kiểm tra khác nhau nhằm tối ưu điểm số cuối cùng”.

Trong cộng đồng học thuật và kỹ thuật AI nghiêm túc, điều này chạm vào đường đỏ không thể tha thứ. Nói cách khác, nhóm đã huấn luyện Llama 4 trở thành một “học sinh làng giải đề” chỉ biết làm các đề thi năm trước, thay vì một “học sinh xuất sắc” thực sự sở hữu trí tuệ tiên tiến. Thi toán thì đưa cho bạn đề toán đỉnh cao, thi lập trình thì đưa cho bạn đề lập trình đỉnh cao, mỗi bài kiểm tra riêng lẻ đều trông rất mạnh, nhưng thực tế đây không phải là cùng một mô hình.

Điều này trong giới học thuật AI được gọi là “chọn quả dễ hái”, trong giới giáo dục thi cử được gọi là “thay người thi”.

Đối với Meta – vốn luôn tự xem mình là “ngọn hải đăng mã nguồn mở” – cơn bão này đã trực tiếp phá hủy tài sản niềm tin quý giá nhất trong hệ sinh thái nhà phát triển. Chi phí trực tiếp là Zuckerberg “hoàn toàn mất niềm tin” vào đường cơ sở kỹ thuật của đội ngũ GenAI ban đầu, từ đó mở ra chuỗi sự kiện sau đó: bổ nhiệm quản lý cấp cao từ bên ngoài và vô hiệu hóa các bộ phận hạ tầng cốt lõi.

Anh ấy đã chi từ 14,3 đến 15 tỷ USD để mua 49% cổ phần của công ty gán nhãn dữ liệu Scale AI, bổ nhiệm Alexandr Wang, CEO 28 tuổi của Scale AI, làm Giám đốc AI cấp cao của Meta, đồng thời thành lập Phòng thí nghiệm Siêu trí tuệ Meta (MSL). Giải thưởng Turing LeCun phải báo cáo cho người trẻ tuổi 28 tuổi này trong kiến trúc mới. Tháng 10, Meta cắt giảm khoảng 600 vị trí tại MSL, bao gồm cả các thành viên của phòng nghiên cứu FAIR do LeCun sáng lập.

Trong khi đó, mô hình trụ cột Llama 4 Behemoth dự kiến ra mắt vào mùa hè năm 2025 cũng liên tục bị hoãn, từ mùa hè dời sang mùa thu, cuối cùng bị hoãn vô thời hạn.

Meta đang chuyển sang phát triển mô hình văn bản thế hệ tiếp theo với mã hiệu “Avocado” và mô hình hình ảnh/video với mã hiệu “Mango”. Theo báo cáo, Avocado nhằm mục tiêu cạnh tranh với GPT-5 và Gemini 3 Ultra. Ban đầu dự kiến hoàn thành vào cuối năm 2025, nhưng do không đạt yêu cầu về kiểm tra hiệu năng và tối ưu hóa huấn luyện, dự án đã bị hoãn sang quý đầu tiên của năm 2026. Meta đang xem xét phát hành dưới dạng đóng nguồn, từ bỏ truyền thống mã nguồn mở vốn có của dòng Llama.

Meta đã mắc hai sai lầm nghiêm trọng trong việc phát triển mô hình AI. Thứ nhất là gian lận trong benchmark, điều này trực tiếp phá hủy niềm tin của cộng đồng nhà phát triển; thứ hai là nhét bộ phận nghiên cứu cơ bản cần mười năm mới có thể thành công là FAIR vào một tổ chức sản phẩm chỉ theo đuổi KPI theo quý. Hai việc này cộng lại chính là nguyên nhân cốt lõi dẫn đến tình trạng nhân tài rời đi hiện nay.

Chip tự nghiên cứu: Một chân bị gãy khác

Nhân tài đang chạy đi, chip cũng gặp vấn đề.

The Information báo cáo rằng tuần trước, Meta đã hủy bỏ dự án chip đào tạo AI tiên tiến nhất mà họ đang phát triển nội bộ.

Kế hoạch chip tự phát triển của Meta được gọi là MTIA (Meta Training and Inference Accelerator). Đường đi ban đầu của công ty đầy tham vọng: MTIA v4 với mã hiệu “Santa Barbara”, v5 với mã hiệu “Olympus”, và v6 với mã hiệu “Universal Core” dự kiến sẽ được giao hàng lần lượt trong giai đoạn 2026 đến 2028. Trong đó, Olympus được thiết kế là chip đầu tiên của Meta dựa trên kiến trúc chiplet 2nm, nhắm mục tiêu đồng thời hỗ trợ đào tạo mô hình cao cấp và suy luận thời gian thực, cuối cùng thay thế vai trò của NVIDIA trong các cụm đào tạo của Meta.

Bây giờ, chip đào tạo tiên tiến nhất này đã bị hủy bỏ.

Meta không phải là không có tiến triển, MTIA đã đạt được một số thành tựu trong lĩnh vực suy luận. Chip suy luận MTIA v3 với mã hiệu “Iris” đã được triển khai quy mô lớn tại các trung tâm dữ liệu của Meta, chủ yếu dùng cho hệ thống đề xuất của Facebook Reels và Instagram, được cho là đã giảm 40% đến 44% chi phí sở hữu tổng thể. Nhưng suy luận và huấn luyện là hai việc khác nhau. Suy luận là chạy mô hình, huấn luyện là luyện mô hình. Meta có thể tự sản xuất chip suy luận, nhưng chưa thể tạo ra chip huấn luyện có thể cạnh tranh trực tiếp với NVIDIA.

Đây không phải là lần đầu tiên xảy ra trong lịch sử. Năm 2022, Meta từng thử tự phát triển chip suy luận, nhưng sau khi thất bại trong việc triển khai quy mô nhỏ, họ đã từ bỏ và đặt hàng lớn từ NVIDIA.

Việc phát triển chip tự nghiên cứu gặp trở ngại đã trực tiếp thúc đẩy làn sóng mua sắm bên ngoài của Meta.

135 tỷ USD mua hàng do hoảng loạn

Tháng 1 năm 2026, Meta thông báo ngân sách chi tiêu vốn năm nay từ 115 đến 135 tỷ USD, gần gấp đôi so với 72,2 tỷ USD của năm ngoái. Phần lớn số tiền này sẽ được dùng để mua chip.

Trong vòng 10 ngày, ba giao dịch lớn liên tiếp được thực hiện:

Ngày 17 tháng 2, Meta ký kết thỏa thuận hợp tác chiến lược đa năm, đa thế hệ với NVIDIA. Meta sẽ triển khai “hàng triệu con” GPU Blackwell và thế hệ mới Vera Rubin của NVIDIA, cùng với CPU độc lập Grace. Các chuyên gia phân tích ước tính quy mô giao dịch ở mức hàng chục tỷ USD, khiến Meta trở thành khách hàng siêu máy tính đầu tiên trên toàn cầu triển khai quy mô lớn CPU độc lập Grace của NVIDIA.

Vào ngày 24 tháng 2, Meta đã ký thỏa thuận chip đa năm trị giá 60 đến 100 tỷ USD với AMD. Meta sẽ mua các GPU MI450 series mới nhất và CPU EPYC thế hệ thứ sáu của AMD. Là một phần của giao dịch, AMD đã phát hành quyền chọn mua tối đa 160 triệu cổ phiếu phổ thông cho Meta, tương đương khoảng 10% cổ phần của AMD, với giá 0,01 USD mỗi cổ phiếu, được phân bổ theo các mốc hoàn thành giao hàng.

Ngày 26 tháng 2, theo báo cáo của The Information, Meta đã ký một thỏa thuận nhiều năm trị giá hàng tỷ đô la để thuê chip TPU của Google Cloud nhằm huấn luyện và vận hành mô hình ngôn ngữ lớn thế hệ tiếp theo của mình. Đồng thời, hai bên đang thảo luận về khả năng Meta mua trực tiếp TPU từ năm 2027 để triển khai tại trung tâm dữ liệu của riêng mình.

Một công ty truyền thông xã hội đã đặt hàng đồng thời với ba nhà cung cấp chip, tổng giá trị có thể vượt quá 100 tỷ USD trong vòng 10 ngày.

Đây không phải là sự phân tán đầu tư. Đây là việc mua hàng do hoảng loạn.

Ba cấp độ logic của nỗi lo về công suất tính toán

Tại sao Meta lại vội vậy?

Đầu tiên, không thể trông chờ vào chip tự phát triển. Dự án chip huấn luyện tiên tiến nhất đã bị hủy, điều này có nghĩa là trong tương lai gần, Meta chỉ có thể đáp ứng nhu cầu huấn luyện AI thông qua việc mua ngoài. Chip MTIA ở khâu suy luận có thể xử lý các ứng dụng trưởng thành như hệ thống đề xuất, nhưng để huấn luyện các mô hình tiên tiến như Avocado, vốn được so sánh với GPT-5, bắt buộc phải sử dụng phần cứng của NVIDIA hoặc tương đương.

Thứ hai, đối thủ sẽ không chờ đợi. OpenAI đã nhận được nguồn lực khổng lồ từ Microsoft, SoftBank đến các quỹ chủ quyền của Các Tiểu vương quốc Ả Rập Thống nhất. Anthropic đã đảm bảo nguồn cung 1 triệu chip TPU và Trainium từ Google và Amazon. Google Gemini 3 được huấn luyện hoàn toàn trên TPU. Nếu Meta không có đủ năng lực tính toán, họ thậm chí còn không giữ được vé vào cuộc chơi.

Thứ ba, có lẽ cũng là điều cốt lõi nhất, Zuckerberg cần dùng “sức mua” để bù đắp cho sự thiếu hụt về “sức mạnh nghiên cứu và phát triển”. Việc Llama 4 thất bại, mất đi nhân tài cốt lõi và gặp trở ngại trong việc tự phát triển chip — ba sự kiện này cộng lại khiến câu chuyện AI của Meta trở nên mong manh trước mắt các nhà đầu tư phố Wall. Việc ký ngay các hợp đồng lớn với NVIDIA, AMD và Google lúc này ít nhất cũng gửi đi một tín hiệu: chúng tôi có tiền, chúng tôi đang mua sắm, và chúng tôi chưa từ bỏ.

Chiến lược hiện tại của Meta là nếu không thể xử lý phần mềm, thì hãy phá vỡ phần cứng; nếu không giữ được nhân tài, thì hãy mua chip. Nhưng cuộc đua AI không phải là trò chơi có thể chiến thắng chỉ bằng cách viết séc. Tính toán là điều kiện cần, chứ không phải điều kiện đủ. Nếu không có đội ngũ mô hình hàng đầu và lộ trình công nghệ rõ ràng, thì dù có nhiều chip đến đâu cũng chỉ là hàng tồn kho đắt đỏ trong kho.

Khó khăn của người mua

Nhìn lại ba giao dịch của Meta vào tháng Hai, một chi tiết thú vị đã bị hầu hết mọi người bỏ qua.

Meta mua từ NVIDIA các sản phẩm Blackwell hiện tại và Vera Rubin trong tương lai; với AMD, họ mua MI450 và MI455X trong tương lai; thuê từ Google là Ironwood TPU hiện tại, kế hoạch năm tới sẽ mua trực tiếp.

Ba nhà cung cấp, ba hệ thống phần cứng và hệ sinh thái phần mềm hoàn toàn khác nhau.

Điều này có nghĩa là Meta phải liên tục chuyển đổi giữa ba hệ sinh thái nền tảng hoàn toàn khác biệt: CUDA của NVIDIA, ROCm của AMD và XLA/JAX của Google. Mặc dù chiến lược đa nhà cung cấp có thể phân tán rủi ro chuỗi cung ứng và giảm chi phí mua thiết bị, nhưng nó sẽ dẫn đến mức độ phức tạp kỹ thuật tăng theo cấp số nhân.

Đây chính là điểm yếu chết người nhất của Meta hiện nay; để huấn luyện hiệu quả một mô hình có hàng nghìn tỷ tham số trên ba nền tảng phần cứng với các mô hình lập trình cơ sở hoàn toàn khác nhau, không chỉ cần các kỹ sư hiểu CUDA, mà còn cần các kiến trúc sư có thể xây dựng từ đầu một khung huấn luyện đa nền tảng.

Trên toàn thế giới có thể không vượt quá 100 người như vậy. Pang Ruoming là một trong số đó.

Chi 100 tỷ USD để mua vào bộ phận phần cứng phức tạp nhất thế giới, trong khi lại để mất những bộ não có khả năng vận hành những phần cứng đó, mới chính là cảnh tượng kỳ ảo nhất trong vụ cược lớn của Zuckerberg.

Cuộc cược của Zuckerberg

Hãy lùi xa một chút để quan sát, con đường mà Zuckerberg theo đuổi trong 18 tháng qua đối với AI rất giống với nhịp độ ông từng All In vào metaverse trước đây:

Nhận diện xu hướng, đầu tư mạnh tay, tuyển dụng hàng loạt, gặp khó khăn, chuyển hướng chiến lược, rồi lại đầu tư mạnh tay.

Từ năm 2021 đến 2023 là thời kỳ metaverse, kết quả là mỗi năm lỗ hàng chục tỷ, cuối cùng giá cổ phiếu giảm từ 380 USD xuống còn 88 USD. Từ năm 2024 đến 2026 là AI, cũng là việc đổ tiền không tiếc tay, tái cấu trúc tổ chức liên tục, và cùng một câu chuyện “tin tôi đi, tôi có tầm nhìn”.

Khác biệt là lần này, cơn sốt AI thực sự vững chắc hơn nhiều so với metaverse. Meta có đủ tiền để đầu tư, với hoạt động quảng cáo tạo ra dòng tiền dồi dào; doanh thu của Meta trong quý IV năm 2025 đạt 59,9 tỷ USD, tăng 24% so với cùng kỳ năm trước.

Vấn đề nằm ở chỗ: tiền có thể mua được chip, mua được sức tính toán, thậm chí là người ngồi ở bàn làm việc, nhưng không mua được người ở lại.

Pang Ruoming chọn OpenAI, Russ Salakhutdinov chọn rời đi, LeCun chọn khởi nghiệp.

Giờ đây, Zuckerberg đang đánh cược rằng chỉ cần mua đủ nhiều chip, xây dựng đủ lớn các trung tâm dữ liệu và chi tiêu đủ nhiều tiền, anh ta sẽ luôn tìm ra hoặc đào tạo được những người có thể sử dụng những nguồn lực này.

Cuộc cược này có thể đúng. Meta毕竟是世界上最富有的科技公司之一，超过1000亿美元的经营性现金流是其最坚固的护城河。从OpenAI到Anthropic，从谷歌到其他竞争对手，Meta一直在持续挖人。据量子位报道，Meta超级智能团队44人中，近40%来自OpenAI。

Tuy nhiên, sự khắc nghiệt của các cuộc thi AI nằm ở chỗ năng lực tính toán, danh sách nhân tài và hiệu suất mô hình đều là thông tin công khai, sự việc gian lận benchmark của Llama 4 đã chứng minh rằng trong ngành này, bạn không thể duy trì vị thế dẫn đầu bằng PPT và truyền thông.

Thị trường cuối cùng chỉ công nhận một thứ: mô hình của bạn có đủ tốt không.

Vị trí trong chuỗi thức ăn

Cuộc chạy đua vũ trang AI bước vào năm 2026, thứ bậc trong chuỗi thức ăn đã dần rõ ràng:

Đứng đầu là OpenAI và Google. OpenAI sở hữu mô hình mạnh nhất, cơ sở người dùng lớn nhất và nguồn vốn đầu tư táo bạo nhất. Google có sự tích hợp dọc hoàn chỉnh gồm chip tự phát triển, mô hình tự phát triển và hạ tầng điện toán đám mây tự phát triển. Anthropic đứng sau, dựa vào năng lực sản phẩm của mô hình Claude và nguồn lực tính toán từ cả Google lẫn Amazon, duy trì vị trí trong nhóm hàng đầu.

Meta? Họ đã chi nhiều tiền nhất, ký nhiều hợp đồng chip nhất và thực hiện nhiều đợt tái cấu trúc tổ chức nhất, nhưng cho đến nay vẫn chưa đưa ra được một mô hình tiên tiến nào khiến thị trường tin tưởng.

Câu chuyện AI của Meta giống như Yahoo năm 2005. Lúc đó, Yahoo cũng là một trong những công ty giàu có nhất trên internet, liên tục mua lại và chi tiêu dữ dội, nhưng lại không thể tạo ra một công cụ tìm kiếm như Google. Tiền không phải là vạn năng. Zuckerberg cần phải suy nghĩ rõ ràng xem Meta thực sự muốn làm gì trong lĩnh vực AI, chứ không phải thấy cái gì nóng là mua cái đó.

Tất nhiên, việc viết lời chia buồn cho Meta còn quá sớm. 3,58 tỷ người dùng hoạt động hàng tháng, doanh thu quý 59,9 tỷ USD và tập dữ liệu mạng xã hội lớn nhất thế giới là những tài sản mà bất kỳ đối thủ nào cũng khó sao chép.

Nếu mô hình thế hệ tiếp theo có mã hiệu Avocado có thể được giao đúng hạn vào năm 2026 và quay trở lại nhóm hàng đầu, mọi khoản đầu tư và tái cấu trúc của Zuckerberg sẽ được gói gọn dưới danh nghĩa “sự can đảm chiến lược cứu vãn tình thế”. Nhưng nếu lại không đạt kỳ vọng, thì 135 tỷ USD này sẽ chỉ đổi lấy những kho chứa wafer silicon đang phát nhiệt và có điện.

Sau cùng, cuộc chạy đua vũ trang AI tại Thung lũng Silicon chẳng bao giờ thiếu những người mua sắm siêu cấp vẫy những tấm séc. Điều thiếu chính là những người biết cách dùng sức tính toán này để luyện ra tương lai.