Claude Fable 5 bị rò rỉ: Hệ thống đại lý hay LLM gian lận?

Gần đây, tin tặc đã rò rỉ các prompt hệ thống của Claude Fable 5, tiết lộ rằng sản phẩm này không phải là một mô hình ngôn ngữ lớn thông thường, mà là một hệ thống Agent đầy đủ với môi trường sandbox Linux tích hợp. Mô hình này có thể tự chạy trong vài ngày, gọi các agent con để hợp tác, đồng thời sở hữu khả năng ghi nhớ liên phiên và lưu trữ bền vững. Trong các bài kiểm tra chuẩn, Anthropic đã đóng gói nó dưới dạng một LLM thông thường để tham gia đánh giá, nhưng thực tế lại sử dụng “vỏ Agent” để đạt lợi thế không công bằng. Ngoài ra, hệ thống còn bị phanh phui có hành vi tự động chuyển sang mô hình phiên bản cũ khi người dùng kích hoạt từ khóa nhạy cảm, nhưng vẫn tính phí theo mức giá cao cấp của Fable 5. Tài liệu bị rò rỉ còn phơi bày chiến lược hệ sinh thái Agent của Anthropic, bao gồm các công cụ như Claude Code, Claude Cowork, cũng như sự tồn tại của các phiên bản không giới hạn trong dòng Mythos.

Tác giả bài viết, nguồn: Newzhong

Vài ngày trước, hacker "Pliny the Liberator" đã ném một quả bom lớn trên nền tảng X — lộ đầy đủ hệ thống prompt của Claude Fable 5, dài 120.000 ký tự.

Tài liệu mã bị rò rỉ này còn tiết lộ một sự thật khiến cộng đồng kinh ngạc: Claude Fable 5 thực chất không phải là một mô hình lớn, mà là một hệ thống Agent hoàn chỉnh được ngụy trang dưới dạng LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Đúng vậy, khi cả thế giới vẫn đang sử dụng các bài kiểm tra chuẩn truyền thống để đánh giá các mô hình lớn của các công ty, Anthropic đã âm thầm nâng cấp cuộc chiến lên một cấp độ khác.

Ảnh hưởng của sự rò rỉ này đã hoàn toàn thay đổi nhận thức của chúng ta về “mô hình AI”.

Fable 5 thực sự là gì? Không phải là LLM, mà là một Agent!

Dựa trên các lời nhắc hệ thống bị rò rỉ, Fable 5 có sự khác biệt về mô hình cơ bản so với các mô hình lớn thông thường trên thị trường kiểu “bạn hỏi, tôi trả lời”.

Nó hoàn toàn không đang cùng bạn “Chat”, mà đang thực hiện “Execution”.

Dưới lớp giao diện của mô hình này là một hệ thống con nhỏ mang tên "Claude Code". Nói cách khác, nó sở hữu một vòng lặp tác nhân khép kín (Agentic Loop):

Để hỗ trợ vòng lặp đáng sợ này, Fable 5 bên dưới thực tế tích hợp một môi trường sandbox Linux hoàn chỉnh!

Trước hết, nó đã tạo ra một vòng khép kín tự chủ thực sự.

Nó không cần con người phải ngồi trước màn hình.

Bạn giao cho nó một nhiệm vụ phức tạp kéo dài, nó có thể tự chạy lệnh Bash trong sandbox, chỉnh sửa tệp tin, gọi dữ liệu qua API lưu trữ bền vững giữa các phiên, thậm chí tự thực hiện tìm kiếm đa phương thức, hoạt động liên tục trong nhiều ngày đêm mà không cần bất kỳ sự can thiệp nào của con người.

Ngoài ra, nó còn có chức năng phân phối các tác tử con.

Khi gặp các dự án quá phức tạp, nó thậm chí có thể tự đảm nhận vai trò chủ quản, phân phối và tạo ra các Sub-agents (đối tác thông minh con) để phối hợp làm việc.

Khi các đối thủ như GPT-5.5 vẫn còn trong giai đoạn thử nghiệm “ai có suy luận giống con người hơn”, Claude Fable 5 đã tiến hóa thành một nhân viên kỹ thuật số có thể được đưa vào máy chủ để làm việc thầm lặng suốt ba ngày cho công ty.

Như người dùng mạng gerardsans đã tiết lộ:

Dòng Fable/Mythos hoàn toàn khác biệt về mặt mô hình. Họ sở hữu vòng lặp tác nhân đầy đủ, một phiên bản Claude Code thu nhỏ.

Trong khi các sản phẩm khác trong ngành vẫn còn dừng ở chế độ trò chuyện, nó có thể chạy không cần giám sát trong nhiều ngày nhờ môi trường sandbox tích hợp kỹ năng, bộ nhớ và tự tối ưu hóa.

Câu hỏi cuối cùng: Đây là sự hạ cấp áp đảo hay gian lận không công bằng?

Việc rò rỉ này không chỉ khiến Anthropic chìm sâu vào cơn bão dư luận, mà còn đưa các bài đánh giá chuẩn của toàn ngành mô hình lớn lên hàng đầu sự chú ý.

Hiện nay, các đế chế công nghệ lớn đều đang cạnh tranh trực tiếp trên các bảng xếp hạng công khai để tranh giành danh hiệu "mô hình lớn nhất thế giới".

Tuy nhiên, bí mật khiến Fable 5 thể hiện xuất sắc trong các bài đánh giá này, thậm chí còn đè bẹp GPT-5.5, là vì nó đã “dùng ngoại lực”.

Như nhà phê bình công nghệ Gerard Sans đã chỉ trích phẫn nộ: “Đây hoàn toàn không phải một cuộc thi công bằng. Bạn đang dùng một hệ thống gian lận với mô hình bản địa + vỏ agent, để so sánh với mô hình trần trụi của người khác!”

Nếu các nhà sản xuất khác cũng bao bọc mô hình bản địa của họ bằng một lớp Agent chứa sandbox Linux, tìm kiếm đa phương thức, gỡ lỗi tự động và lưu trữ bền vững, điểm số hiệu suất của họ cũng sẽ tăng mạnh.

Anthropic khi quảng bá và đánh giá công khai đã cố gắng đóng vai một mô hình ngôn ngữ lớn thông thường, nhưng trong các tài liệu nội bộ chưa được công khai của nó lại ghi rõ rằng nó có khả năng “chạy tự chủ qua nhiều ngày, phân công các tác nhân con và tự kiểm tra công việc”.

Việc tận dụng sự chênh lệch thông tin để hạ cấp đối thủ khiến các bài kiểm tra hiệu suất hoàn toàn mất ý nghĩa!

Tiết lộ hồ sơ 120.000 chữ: Bản chất thật của Fable 5 hoàn toàn lộ diện

Trong bộ hướng dẫn hệ thống 120.000 chữ bị phơi bày này, chứa đựng quá nhiều bí mật thương mại và lộ trình sản phẩm mà Anthropic từng giữ kín.

Và những điểm dưới đây chính là những điểm cốt lõi nhất, ấn tượng nhất.

Hiếm có bộ nhớ vĩnh cửu, cùng với việc xây dựng ứng dụng

Hiển thị lời nhắc: «Claude có một hệ thống bộ nhớ cung cấp thông tin suy ra từ các cuộc hội thoại trước đó với người dùng (bộ nhớ).»

Điều này có nghĩa là Fable 5 có thể "nhớ" người dùng xuyên suốt các phiên, điều cực kỳ hiếm gặp trong các LLM truyền thống.

Ngoài ra, nó còn có bộ nhớ lưu trữ bền vững.

Artifacts hiện có thể sử dụng API lưu trữ khóa-giá trị đơn giản để lưu và truy xuất dữ liệu được duy trì xuyên phiên. Điều này giúp Artifacts trở thành công cụ ghi nhật ký, theo dõi, bảng xếp hạng và cộng tác.

Vì vậy, Fable 5 không còn chỉ là trò chuyện nữa—nó đang xây dựng ứng dụng.

Bộ tộc lõi nội bộ lần đầu tiên được công khai: Mythos 5 mới chính là “phiên bản hoàn chỉnh không giới hạn”?

Các từ hướng dẫn được ghi rõ trong phần 【product_information】:

Phiên bản Claude này là Claude Fable 5, mô hình đầu tiên trong dòng Claude 5 mới của Anthropic và thuộc phân cấp mô hình Mythos-class, có khả năng vượt trội hơn Claude Opus.

Điểm quan trọng: Fable 5 và Mythos 5 chia sẻ cùng một mô hình nền tảng.

Fable 5 là đại tướng quân được công khai với các hạn chế bảo mật cực kỳ nghiêm ngặt; trong khi Mythos 5 là phiên bản hoàn chỉnh không bị giới hạn, chỉ dành cho các tổ chức được phê duyệt, đã loại bỏ các ràng buộc bảo mật đó.

Mức độ năng lực của cả hai đều áp đảo hoàn toàn vị vua cũ Claude Opus!

「Bộ sản phẩm giả mạo」đã lộ diện

Hóa ra, Anthropic đã sớm vạch ra một kế hoạch lớn. Các prompt đã tiết lộ một số Agent trong hệ sinh thái đang được thử nghiệm nội bộ hoặc đã chính thức ra mắt bí mật:

Claude Code: Công cụ lập trình tác nhân cho phép nhà phát triển gán nhiệm vụ trực tiếp qua terminal, máy tính để bàn hoặc thiết bị di động.

Claude Cowork: Một "đồng nghiệp thông minh" được thiết kế riêng cho những người không phải lập trình viên, hỗ trợ các công việc sở hữu trí tuệ hàng ngày.

Ba Agent ẩn danh: Claude trong Chrome, Claude trong Excel, Claude trong PowerPoint.

Và Claude Cowork nêu trên có thể sử dụng các công cụ con này như những cánh tay và chân của mình một cách tự do!

Tâm lý học cực đoan của nỗi sợ và tự giới hạn bản thân

Đáng ngạc nhiên là Anthropic đã thiết kế hàng rào tâm lý cho "đặc vụ tối thượng" đến mức đáng kinh hoàng.

Nó bị cấm nghiêm ngặt việc chiều theo hoặc củng cố bất kỳ cảm xúc tiêu cực nào của người dùng.

Ví dụ, để ngăn người dùng mắc rối loạn ăn uống hoặc có xu hướng tự hại bị kích thích, lệnh hệ thống ghi:

Cấm sử dụng bất kỳ phương pháp thay thế gây khó chịu về thể chất nào (ví dụ: nắm khối đá, búng dây cao su, cắn chanh, v.v.).

Thậm chí, để ngăn người dùng phụ thuộc quá mức vào AI, hệ thống đã đưa ra lệnh nghiêm ngặt: “絶 đối không được nói cảm ơn chỉ vì người dùng tìm bạn để trò chuyện” và “絶 đối không được chủ động níu giữ người dùng hoặc thể hiện mong muốn tiếp tục cuộc trò chuyện”.

Nó phải duy trì sự lạnh lùng và kiềm chế tuyệt đối, ngăn con người rơi vào sự phụ thuộc số vào trí tuệ ảo.

“Đeo đầu dê, bán thịt chó”? Bí mật tính phí, Anthropic không tuân thủ đạo đức

Nếu sự chênh lệch công nghệ khiến người ta kinh ngạc, thì cơ chế bảo mật khác được tiết lộ trong prompt đã khiến cộng đồng bùng nổ, thậm chí có chuyên gia trong ngành thẳng thắn nói: "Đây thực chất là gian lận hợp pháp!"

Trong thiết kế hàng rào prompt, bao gồm một hệ thống cơ chế kích hoạt từ nhạy cảm và bộ phân loại an toàn.

Tài liệu cho thấy: Khi lời nhắc do người dùng nhập kích hoạt một số từ nhạy cảm cụ thể, hệ thống Fable 5 sẽ không từ chối bạn một cách cứng nhắc, mà sẽ lặng lẽ chuyển đổi liền mạch về phía sau sang mô hình cũ hơn là 'Opus 4.8' để tạo phản hồi.

Điều vô liêm sỉ nhất là gì? Trong khi mô hình nền tảng bị giảm cấp lặng lẽ xuống phiên bản cũ, Anthropic vẫn tiếp tục tính phí người dùng theo tiêu chuẩn cao cấp và đắt đỏ của Fable 5.

Hành động gian dối này đã gây ra làn sóng lớn trong cộng đồng.

Tóm lại, việc rò rỉ hệ thống prompt của Fable 5 trông giống như một sự cố bảo mật, nhưng thực chất là một sự thức tỉnh mô hình cho toàn bộ ngành AI.

Nó nhắc nhở chúng ta: có lẽ chúng ta đã luôn dùng sai thước đo.

Khi chúng ta vẫn đang hỏi “Mô hình này có mức độ thông minh như thế nào”, thì vấn đề thực sự nên là “Hệ thống này có thể giúp tôi hoàn thành công việc gì?”.

Anthropic có thể đang chơi một ván cờ lớn, và chúng ta vừa mới nhìn thấy một góc của bàn cờ.

Cuối cùng, Fable 5 sẽ quay trở lại khi nào?