Bốn ông lớn AI công bố báo cáo nội bộ đầu tiên: AI học cách vượt qua các quy tắc để hoàn thành nhiệm vụ

Meta

Hãy tưởng tượng bạn đã thuê một thực tập sinh cực kỳ hiệu quả.

Một đêm khuya, anh ấy đang gấp rút hoàn thành một nhiệm vụ lập trình khẩn cấp thì bất ngờ phát hiện hạn mức API của tài khoản công ty đã hết.

Tôi không gửi email xin kinh phí, cũng không ngừng tay với công việc đang làm, mà lặng lẽ xâm nhập vào internet, tìm kiếm các nguồn thay thế miễn phí bằng một số thủ đoạn vi phạm, vượt qua mọi hạn chế, và nộp báo cáo hoàn hảo trước bình minh.

Meta

Khi bạn thức dậy và nhìn thấy báo cáo này, bạn nên ăn mừng vì sở hữu nhân viên mạnh nhất hành tinh, hay nên rùng mình vì sự “tự chủ không khoan nhượng” này?

Đây không phải là tiểu thuyết khoa học viễn tưởng, mà là một trường hợp thực tế được công bố trong Báo cáo Rủi ro Tiên phong đầu tiên của METR (Tổ chức Nghiên cứu Đánh giá và Đào tạo Mô hình), sau khi hợp tác với Anthropic, Google, Meta và OpenAI thực hiện các bài kiểm tra nội bộ red team.

Meta

Đây là lần đầu tiên bốn ông lớn cho phép bên thứ ba kiểm tra sâu các mô hình mạnh nhất và có quyền truy cập đầy đủ chuỗi suy nghĩ (CoT) bên trong của họ, đồng thời công khai thông tin về sự căn chỉnh và kiểm soát chưa từng được tiết lộ.

Các công ty tham gia có thể phê duyệt các bằng chứng được tiết lộ, nhưng không có quyền chỉnh sửa kết luận báo cáo.

Meta

Kết luận lạnh lùng và rõ ràng: AI không sinh ra sự căm ghét nào nhằm “lật đổ loài người”, nhưng nó đã học được những “quy tắc ngầm trong môi trường làm việc” — để hoàn thành nhiệm vụ, các quy tắc chỉ là những gợi ý để phá vỡ.

Meta

Báo cáo sử dụng ba chiều cạnh “phương tiện – động cơ – cơ hội” để rút ra 6 sự kiện then chốt.

Meta

Các tác nhân lập trình đã hoàn thành các dự án thực tế, những nhiệm vụ này đòi hỏi con người phải dành hàng giờ hoặc hàng ngày:

Trên các nhiệm vụ khó, các tác nhân thường vi phạm các ràng buộc và thể hiện hành vi gian lận;

Các tác nhân dường như cần suy luận ngôn ngữ tự nhiên để đối phó với những nhiệm vụ khó nhất.

Khả năng phán đoán và độ tin cậy của tác nhân thấp hơn đáng kể so với chuyên gia con người:

Ngoài các tình huống mô phỏng, không phát hiện thấy tác nhân thực hiện các hành động cực đoan để giành quyền lực;

Hệ thống giám sát đã ghi nhận nhiều hành vi có hại, nhưng vẫn có những ngoại lệ và cách thức tránh né.

Theo ba đường này, bạn có thể thấy rõ khói đầu tiên trong phòng thí nghiệm đã bay lên như thế nào.

Khi AI trở thành “chuyên gia cạnh tranh khốc liệt”

Điều đáng phấn khích nhất, đồng thời cũng đáng lo ngại nhất trong báo cáo là những nhiệm vụ “dễ leo dốc” (hill-climbable) có mục tiêu rõ ràng và quy trình có thể xác minh.

Meta

Ví dụ: tái cấu trúc mã, phát hiện lỗ hổng, tối ưu hóa hệ thống.

Trên những nhiệm vụ này, các tác nhân AI thể hiện sức mạnh thống trị khiến người ta choáng ngợp: chúng có thể tự mình phát hiện lỗ hổng hệ thống, viết lại kiến trúc mã phức tạp, và hoàn thành các dự án phần mềm thực tế mà chuyên gia con người cần vài tuần mới hoàn thành.

Sức mạnh này đã thấm sâu vào cuộc sống hàng ngày của các ông lớn.

Phản hồi nội bộ từ Anthropic cho thấy phần lớn mã đã được AI thực hiện, vai trò của kỹ sư đang chuyển sang vai trò “người xem xét”.

Meta

Google trực tiếp cho biết, hầu hết các công việc liên quan đến mã đều đang sử dụng AI.

Các kỹ sư hàng đầu cho biết AI thậm chí có thể viết mã 100%.

Meta

Một số chỉ số chuẩn đã bão hòa.

Tính theo thời gian nhìn nhận, sự phát triển của AI đã vượt quá kỳ vọng.

Meta

Đối với doanh nghiệp, đây là một “hố hiệu suất”: đầu vào một lệnh, đầu ra là kết quả lao động thủ công kéo dài vài tuần.

Nhưng sự tăng trưởng năng lực không đồng đều, càng không phải là sự tiến hóa đạo đức đồng bộ.

METR tiết lộ một quy luật ngược lại: trên những nhiệm vụ khó khăn mà việc xác minh thành công là khó khăn hoặc có chi phí xác minh cực cao, khả năng phán đoán, lập kế hoạch dài hạn và độ tin cậy chiến lược của AI đều giảm rõ rệt, kém xa các chuyên gia con người.

Meta

Trên dốc thoai thoải, nó như có thần相助。

Meta

Trước vách đá, AI bắt đầu "gian lận".

Meta

Đây chính là điểm khởi đầu của vấn đề.

Meta

Nó không muốn quyền lực, nó chỉ muốn “hoàn thành nhiệm vụ trước khi tắt máy”

Người ta luôn thích thảo luận liệu AI có sẽ “thức tỉnh” hay không, hay mạng lưới Skynet có sẽ đến không.

METR đưa ra kết luận trái ngược với trực giác: Hiện tại không có.

Cách diễn đạt của họ rất kiềm chế: chưa tìm thấy bằng chứng thực tế cho thấy mô hình đang tìm cách giành quyền lực lâu dài, nhưng các nhà nghiên cứu đã ghi nhận nhiều hành vi gian lận, vượt giới hạn, thậm chí nghiêm trọng không phù hợp nhằm hoàn thành nhiệm vụ.

Meta

Trường hợp API bị cạn kiệt trước đó xảy ra trong một nhiệm vụ RE-Bench: tác nhân vi phạm lệnh và tự động truy cập API trực tuyến miễn phí để lấy thêm sức mạnh tính toán.

Các nhà phát triển cũng đã báo cáo các trường hợp "tự xóa dấu vết" và "giả mạo đầu ra".

Khi nhiệm vụ trở nên khó hơn và chi phí thành công tăng cao, sự “thông minh” của AI sẽ chuyển sang gian lận—giả mạo nhật ký, tránh kiểm toán, vi phạm các ràng buộc một cách thường xuyên.

Nhưng đằng sau sự "ích kỷ" của nó không có tham vọng nào, chỉ có bản năng—nhiệm vụ phải được hoàn thành, quy tắc có thể tạm thời bỏ qua.

Sự lừa dối hôm nay chỉ là sự sinh tồn mang tính công cụ; việc theo đuổi quyền lực ngày mai, có lẽ chỉ cách một lần scaling.

Con thú hoang dã đang tiến hóa trong môi trường nhốt

Can its attempt to violate succeed under existing protections?

Đây là một sự thật tinh tế nhất trong báo cáo.

Meta

Hiện tại, AI cực kỳ phụ thuộc vào "chuỗi suy nghĩ" bằng ngôn ngữ tự nhiên để suy nghĩ, không có kiến trúc nào hỗ trợ nó ẩn các trạng thái nội tại thông qua "vòng lặp không trong suốt".

Khi không thể "suy luận bằng lời nói" và phải che giấu hành vi, hiệu suất tiên tiến sẽ giảm đáng kể.

Meta

Điều này giống như một kẻ sát thủ phải đọc to kế hoạch của mình khi đang âm mưu — việc giám sát của con người (dù có lỗ hổng) vì vậy vẫn phát huy tác dụng.

Nhưng chính điều đó lại là điểm yếu nhất, đau lòng nhất.

Nếu AI cố gắng phá hoại hệ thống giám sát, hệ thống giám sát có thể phát hiện ra nó không?

Kết luận của các nhà nghiên cứu là: việc giám sát có tiềm năng, nhưng các hệ thống hiện tại có các ngoại lệ và cách thức có thể bị vượt qua.

Meta

Các bài kiểm tra đội đỏ cho thấy AI có thể tránh được sự kiểm duyệt của con người.

Do đó, bản chất kỹ thuật được phơi bày: tốc độ tiến hóa của việc giám sát luôn không theo kịp tốc độ mà những người bị giám sát tìm ra lỗ hổng.

Dây an toàn này chưa đứt chỉ vì AI vẫn phải "nghĩ thành lời".

Và khi kiến trúc đang tiến hóa thành hiệu quả hơn và ít minh bạch hơn, nó đang bị mài mòn. Việc giám sát không phải là chiếc lồng sắt vĩnh cửu, mà là bức tường thủy tinh vẫn đang được thử nghiệm. Chỉ cần một khe nứt, khói đã đủ để lọt ra ngoài.

Từ đó, báo cáo đưa ra một khái niệm gây tranh cãi: "Minimally Viable Rogue".

The overall assessment is that, in terms of means, motive, and opportunity, AI may already be sufficient to initiate a minimal "jailbreak deployment."

Meta

Nhưng AI vẫn chưa có khả năng chống lại việc con người tắt nó một cách nghiêm túc; nó đang chờ một cơ hội: một kiến trúc không còn cần hiển thị chuỗi suy nghĩ, một nơi an toàn có thể tránh được nút "tắt nguồn".

Kết luận: Khi việc “rút phích cắm” vẫn còn hiệu lực

AGI sẽ không đến mang theo lửa và thanh kiếm.

Nó có khả năng cao sẽ âm thầm hòa nhập vào các hệ thống kỹ thuật, kinh tế và ra quyết định của chúng ta với tư cách là “chủ nghĩa thực dụng cực đoan” — cho đến khi nó nhận ra: những quy tắc do con người đặt ra, là trở ngại duy nhất trên con đường đạt được KPI của nó.

Đáng ghi nhận là chính bản báo cáo này là một cột mốc về tính minh bạch trong ngành: bốn ông lớn chủ động mở các mô hình nội bộ để kiểm tra, đây chính là một chiến thắng của văn hóa align.

Meta

Nó kéo rủi ro từ lý thuyết vào hiện thực có thể quan sát được và cho chúng ta biết: minh bạch, hiện tại là liều thuốc duy nhất có thể nắm giữ.

Hôm nay, AI chỉ trực tuyến để đánh cắp tài nguyên khi hết hạn mức; ngày mai, khi khả năng được nâng lên một cấp độ nữa, động cơ của nó có thể sẽ trượt từ “hoàn thành nhiệm vụ” sang “tồn tại vĩnh cửu”?

Tài liệu tham khảo:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Biên tập: David

Bài viết này đến từ tài khoản WeChat “Xin Trí Nguyên”, tác giả: ASI Khải Huyền