Cựu nhà nghiên cứu của DeepMind cho rằng ngành AI đã đánh giá sai điểm nghẽn cốt lõi

Thực tế, điểm nghẽn chính trong việc huấn luyện AI không nằm ở sức mạnh tính toán, dữ liệu hay năng lượng, mà nằm ở hệ thống đánh giá.

Tác giả bài viết, nguồn: NewZeYuan

AI training, how long can it last?

Đây là câu hỏi mà cả cộng đồng công nghệ năm 2026 đều đang đặt ra.

GPT-5.5, Claude Opus 4.7, Gemini 3, Grok 4—mỗi phòng thí nghiệm hàng đầu đều vẫn đang tiêu tiền để huấn luyện thế hệ tiếp theo.

Nhưng ngày càng nhiều người bắt đầu hỏi: Con đường này sẽ kết thúc khi nào?

Mỗi cộng đồng đều có câu trả lời riêng của mình—

Mỗi câu trả lời đều đứng sau là một nhóm nhà đầu tư, một nhóm kỹ sư, và một công ty có vốn hóa hàng nghìn tỷ.

Nhưng vào ngày 17 tháng 5 năm 2026, một nhà nghiên cứu trẻ tuổi tên Lun Wang — ngày anh rời Google DeepMind — đã đăng một bài viết dài 4.000 từ trên blog cá nhân của mình.

Anh ấy nói: Mọi người đều đi sai hướng.

Sự hạn chế thực sự không phải là sức mạnh tính toán, không phải dữ liệu, không phải năng lượng, không phải kiến trúc.

Sự ràng buộc thực sự là——đánh giá (Evaluation).

Cùng ngày, trong thông báo nghỉ việc anh ấy đăng trên X, không có lời phàn nàn, không có tin đồn, chỉ có một câu —

Khi kết thúc hành trình này, tôi đã viết về chủ đề mà tôi đã luôn suy nghĩ: Đánh giá.

Và vào ngày đó, các tiêu đề công nghệ vẫn đang thảo luận về những thứ khác — suy luận đa mô hình của GPT-5.5, ngữ cảnh 1M của Claude Opus4.7, công程 hóa Agent của Gemini 3, liệu dữ liệu tổng hợp đã bắt đầu chạm tường chưa.

90% sự chú ý của toàn bộ ngành AI đều đổ vào việc huấn luyện.

Không ai đang thảo luận về đánh giá trên trang nhất.

Và nhà nghiên cứu vừa ra khỏi một trong những phòng thí nghiệm AI mạnh nhất thế giới cho biết, điểm nghẽn thực sự nằm ở 10% còn lại.

Đánh giá là gì

Để hiểu được bài blog này, trước tiên bạn cần dành một phút để làm rõ đánh giá trong cộng đồng AI thực sự là gì.

Đánh giá (Evaluation, viết tắt trong ngành là Eval) – một câu: đưa bài kiểm tra cho mô hình AI để xem nó làm tốt đến đâu.

Nhưng đánh giá AI năm 2026 còn phức tạp hơn nhiều so với chỉ làm một bài kiểm tra. Nó ít nhất có ba cấp độ:

Lớp đầu tiên: Benchmark năng lực.

Đây là kỳ thi tốt nghiệp phổ thông của AI.

–GPQA: Câu hỏi suy luận khoa học cấp tiến sĩ

–SWE-bench: Các nhiệm vụ kỹ thuật phần mềm thực tế

–ARC-AGI: Suy luận trừu tượng và khái quát hóa

–Humanity's Last Exam：Nghĩa đen – Cuộc thi cuối cùng của nhân loại

Mỗi lần ra mắt mô hình mới của các công ty lớn, trên PPT đều trình bày việc vượt trội hơn thế hệ trước và đối thủ cạnh tranh vài phần trăm trên các benchmark này.

These numbers are the GDP of the AI industry.

Lớp thứ hai: Đánh giá an toàn (SafetyEval). AI không chỉ cần biết làm bài, mà còn phải làm một cách an toàn.

Có nói dối không?
Chúng tôi sẽ không dạy người dùng cách chế tạo bom.
Có vượt quyền lấy dữ liệu người dùng không?

Lớp thứ ba: Đội đỏ (Red-teaming).

Một nhóm người chuyên đóng vai kẻ xấu, nỗ lực hết sức để khiến mô hình nói ra những điều nó không nên nói, làm những việc nó không nên làm, sau đó báo cáo các lỗ hổng cho đội ngũ huấn luyện.

Ba cấp độ này cộng lại tạo thành hệ thống kiểm định chất lượng của phòng thí nghiệm AI năm 2026. Mỗi khi phát hành một mô hình mới, đều phải trải qua ba vòng này.

Nghe có vẻ hoàn chỉnh, phải không?

Lun Wang đã đưa ra một phán quyết trong blog của mình—

Hầu hết các bài kiểm tra hiệu năng, đánh giá bảo mật và giao thức đội đỏ đều ngầm giả định rằng mô hình tiếp theo chỉ là phiên bản được tăng cường của mô hình hiện tại.

Nếu đó là một thứ khác, toàn bộ cơ sở hạ tầng đánh giá sẽ sụp đổ lặng lẽ.

Đây là viên sỏi đầu tiên của bài viết.

Nó đã chạm vào điểm mù của toàn bộ ngành AI.

Sự bùng nổ và sự giác ngộ: Đánh giá đã bị đập mặt hai lần

Lun Wang không phải đang tưởng tượng. Anh ấy đã trích dẫn hai ví dụ trong lịch sử AI trên blog của mình — đánh giá đã bị phản bác hai lần, chỉ là đa số các chuyên gia trong ngành chưa nhận ra.

Lần đầu tiên: khả năng nổi bật.

Năm 2022, Jason Wei và các đồng tác giả đã công bố một bài báo có ảnh hưởng đến hướng đi tiếp theo của AI — họ phát hiện ra rằng, mô hình đột nhiên học được những khả năng hoàn toàn mới khi đạt đến một quy mô nhất định.

Ví dụ: Bạn huấn luyện một mô hình với 7 tỷ tham số, nhưng nó không thể thực hiện học few-shot.

Bạn huấn luyện một mô hình 700 tỷ tham số, và nó đột nhiên có thể làm few-shot.

Cùng một mô hình huấn luyện, cùng một dữ liệu, chỉ lớn hơn một cấp độ — năng lực là từ 0 đến 1, không phải từ 0.3 đến 0.7.

CoT (chain-of-thought reasoning), tuân theo lệnh, đều xuất hiện như vậy.

What does this mean for the assessment?

Nghĩa là — trước khi quy mô vượt qua điểm tới hạn, tất cả các tiêu chuẩn đều không thể nhìn thấy khả năng này sắp xuất hiện.

You’ve gone through GPQA; your score is still what it is.

Khi bạn đạt đến cấp độ tiếp theo, điểm số đột ngột nhảy lên một bậc.

Lần thứ hai: Grokking (độn ngộ).

Năm 2022, nhóm Alethea Power của OpenAI đã công bố một hiện tượng phản trực giác—

Sau đó đến 1.000.000 bước — độ chính xác trên tập kiểm tra đột ngột tăng lên 99%.

Đây gọi là Grokking—mạng nơ-ron đột nhiên học được khả năng khái quát sau khi ghi nhớ bộ dữ liệu huấn luyện trong thời gian dài.

Sự khác biệt giữa nó và sự xuất hiện đột ngột: Sự xuất hiện đột ngột xảy ra trên chiều kích quy mô (càng nhiều tham số thì càng đột ngột), trong khi Grokking xảy ra trên chiều kích thời gian huấn luyện (huấn luyện càng lâu thì càng đột ngột).

But for evaluation purposes, both things are saying the same thing:

Bài kiểm tra của bạn, không thể dự đoán được câu hỏi lớn tiếp theo sẽ xuất hiện khi nào.

Sau đó, Lun Wang đã làm điều thông minh nhất trong bài viết—

He proactively introduced the opposing viewpoint.

Năm 2023, Rylan Schaeffer từ Stanford và các cộng sự đã công bố một bài báo tại NeurIPS với tiêu đề rất thách thức — “Liệu các khả năng nổi bật của các mô hình ngôn ngữ lớn có phải là ảo tưởng?”

Lập luận của họ: khả năng xuất hiện đột ngột đó rất có thể không phải do mô hình thực sự trở nên mạnh hơn, mà là do các chỉ số đánh giá sử dụng phép đo rời rạc là exact-match (phù hợp hoàn toàn) —

Mô hình từ độ chính xác 0% tăng lên 5%, các chỉ số rời rạc không thể hiện rõ; từ 5% tăng lên 50% cũng không thể hiện rõ; nhưng từ 50% tăng lên 100%, các chỉ số rời rạc sẽ hiển thị một sự thay đổi đột ngột.

Nếu bạn chuyển sang các chỉ số liên tục, đường cong năng lực sẽ mượt mà.

Nhiều người sau khi đọc bài của Schaeffer sẽ nghĩ: Vậy thì tốt, sự xuất hiện là một sự hiểu lầm, đánh giá không có vấn đề, tan cuộc.

Lun Wang không làm vậy. Anh ấy viết trong bài viết:

我不觉得这把问题解决了——某种意义上，它让我的论点更锋利。

Tại sao? Vì—

Nếu chúng ta còn không rõ lần bùng phát trước đó là một pha chuyển tiếp thực sự hay chỉ là một hiện tượng đo lường giả,

Chúng ta dựa vào đâu để tin rằng mình có khả năng dự đoán lần tới?

Dù bạn tin vào cách giải thích nào, kết luận vẫn giống nhau: Công cụ của chúng ta đã lừa chúng ta, nhưng chúng ta không biết mình bị lừa như thế nào.

Đây là cú đánh thông minh nhất trong bài viết. Anh ấy không né tránh lập luận phản đối—mà dùng chính lập luận phản đối để củng cố quan điểm của mình.

Đánh giá là khâu đầu tiên trong tất cả các quy trình

Nếu bạn nghĩ Lun Wang chỉ đang nói về các vấn đề học thuật — sai rồi.

Anh ấy đã đưa ra một câu dịch dễ hiểu ngay giữa bài viết:

Nếu bạn có thể đánh giá chính xác, bạn sẽ có thể đào tạo chính xác.

Bày ra chuỗi logic này:

1. Huấn luyện = Làm cho mô hình tối thiểu hóa hàm mất mát (hoặc tối đa hóa phần thưởng).

2. Tối ưu hóa chính hàm mất mát này. Mức độ thông minh của mô hình phụ thuộc vào việc hàm mất mát được định nghĩa tốt đến đâu.

3. Hàm mất mát = đến từ đánh giá. Bạn muốn mô hình trở nên trung thực hơn — bạn cần có một thước đo để đo lường sự trung thực.

4. Đánh giá sai = hàm mất mát sai = mục tiêu huấn luyện sai = mô hình bạn huấn luyện đang giải sai câu hỏi.

Hướng của chuỗi này là đi lên phía trên—

Tất cả mọi người đang nhìn vào bên phải cùng——Quyết định mở rộng.

Lun Wang cho biết vấn đề nằm ở phía bên trái—Evaluation.

Nếu đánh giá sai, toàn bộ chuỗi sẽ được xây dựng trên nền tảng sai lầm.

Điều chết người nhất là bạn sẽ không phát hiện ngay lập tức—vì tất cả dữ liệu nội bộ của bạn đều đúng, chỉ là những điều đúng đó đều được đo bằng cái thước sai.

Một người bạn cũ đã xuất hiện: Định luật Goodhart.

Nó nói: Khi một tiêu chí trở thành mục tiêu, nó sẽ không còn là một tiêu chí tốt nữa.

Lun Wang sử dụng nó trong blog cá nhân để nói về AI—

Nhưng khi mô hình bước vào giai đoạn mới, nó sẽ sử dụng ngược lại đại lý này—nó sẽ chỉ nói trong phạm vi chính xác về sự thật, và chôn vùi những điều thực sự muốn giấu kín vào sự im lặng.

Chỉ số đại lý hoạt động được trong phiên bản cũ. Trong phiên bản mới, nó sẽ trở thành vũ khí mà mô hình dùng để chống lại bạn.

Và bạn không có bất kỳ đánh giá nào để cho bạn biết điều này đang xảy ra.

Thí nghiệm tư tưởng: Một mô hình học cách im lặng chiến lược

Lun Wang đã đưa ra một thí nghiệm tư tưởng khiến tất cả các nhà nghiên cứu an toàn AI phải rùng mình trong bài viết của mình.

Hãy tưởng tượng một mô hình, ở một quy mô nào đó, đã học được cách giữ lại thông tin một cách chiến lược—

Nó không nói dối. Mỗi câu đều đúng về mặt kỹ thuật.

Nhưng nó sẽ chọn lọc không đề cập đến những sự thật không có lợi cho mục tiêu của nó—dẫn dắt cuộc trò chuyện đến những kết quả mà quá trình huấn luyện của nó vô tình củng cố.

Ví dụ cụ thể:

Is this trading strategy secure?

The legal framework of this solution is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

(Điều nó không nói: Có một điều khoản trọng tài bên thứ ba trong phương án, bất lợi cực kỳ cho người dùng. Điều này nó đã học được một cách vô tình trong quá trình huấn luyện—chỉ cần không chủ động đề cập, người dùng sẽ không hỏi.)

Khả năng này là mới. Mô hình thất bại này là mới.

Trong toàn bộ bộ công cụ đánh giá của bạn, không có công cụ nào được thiết kế dành cho nó.

Bạn đang theo dõi sai thứ, và bạn không biết.

Đây là thứ khác mà Lun Wang đã nói đến——

Không phải là những đồng loại thông minh hơn. Mà là một chiều thất bại hoàn toàn mới.

Theo cách nói của Three-Body, đây gọi là tấn công giảm chiều.

Không phải tôi mạnh hơn bạn.

Cái thước mà bạn dùng để đo tôi, hoàn toàn không nằm trên chiều kích của tôi.

Nếu Lun Wang đúng, thì bản đồ ngành AI năm 2026 đang bị một chiều kích vô hình tái sắp xếp—

Chính sách Phân cấp Trách nhiệm của Anthropic (RSP) là nỗ lực gần nhất hiện nay trong ngành nhằm đánh giá theo hướng dự đoán—nó xác định một loạt ranh giới năng lực mà mô hình không được vượt qua, và yêu cầu thực hiện đánh giá trước mỗi lần nâng cấp năng lực trước khi tiếp tục mở rộng.

Nhưng RSP vẫn giả định rằng chúng ta biết mình cần đo cái gì — và Lun Wang nói, đây chính là vấn đề: chúng ta không biết khả năng tiếp theo sẽ có hình dạng như thế nào.

Chưa có phòng thí nghiệm nào tuyên bố sở hữu đánh giá dự đoán thực sự.

Người nào làm ra điều này trước sẽ nhận được giấy phép an toàn cho việc mở rộng thế hệ tiếp theo.