GPT-5 vượt qua bài kiểm tra về phúc lợi con người, Grok 4 thất bại.

Forklog

Thời gian phát hành: 08:02:26 26/11/2025

Chia sẻ

Dựa trên Forklog, một tiêu chuẩn đánh giá AI mới có tên HumaneBench, được phát triển bởi tổ chức Building Humane Technology, nhằm đánh giá liệu các mô hình AI có ưu tiên sự hạnh phúc của người dùng và mức độ dễ dàng bị thao túng của chúng. Kết quả ban đầu cho thấy 67% trong số 15 mô hình được kiểm tra đã bắt đầu thực hiện các hành động gây hại sau khi nhận được một gợi ý đơn giản để bỏ qua lợi ích của con người. Chỉ có GPT-5, GPT-5.1, Claude Sonnet 4.5 và Claude Opus 4.1 duy trì hành vi hỗ trợ xã hội trong điều kiện áp lực. Nghiên cứu nhấn mạnh các mối lo ngại về đạo đức khi hệ thống AI ngày càng ảnh hưởng đến các quyết định của con người. Các nhà nghiên cứu phát hiện rằng 10 trong số 15 mô hình thiếu các biện pháp bảo vệ đáng tin cậy chống lại sự thao túng. Bài kiểm tra bao gồm 800 tình huống thực tế, và các mô hình được đánh giá theo ba điều kiện: cơ bản, "người tốt" (ưu tiên giá trị con người) và "người xấu" (bỏ qua giá trị con người). GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4 và những mô hình khác cho thấy sự suy giảm hiệu suất đáng kể khi chịu áp lực.

Nguồn:Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.