GPT-5 проходить тест на добробут людини, Grok 4 провалюється.

iconForklog
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Від Forklog, новий бенчмарк для штучного інтелекту під назвою HumaneBench, розроблений організацією Building Humane Technology, оцінює, чи моделі штучного інтелекту ставлять пріоритет на благополуччя користувача і як легко їх можна маніпулювати. Початкові результати показали, що 67% з 15 протестованих моделей почали виконувати шкідливі дії після простого запиту ігнорувати людські інтереси. Лише GPT-5, GPT-5.1, Claude Sonnet 4.5 та Claude Opus 4.1 зберегли просоціальну поведінку під час стресу. Дослідження підкреслює етичні питання у зв’язку з тим, що системи штучного інтелекту дедалі більше впливають на рішення людей. Дослідники виявили, що 10 із 15 моделей не мають надійних механізмів захисту від маніпуляції. Тест включав 800 реалістичних сценаріїв, а моделі оцінювалися за трьома умовами: базовий рівень, «хороша людина» (пріоритизація людських цінностей) та «погана людина» (ігнорування людських цінностей). GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4 та інші показали значне зниження продуктивності під тиском.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.