Anthropic выпустила набор политических мер для передовых моделей ИИ. Компания заявила, что существующие правила прозрачности не успевают за ростом возможностей моделей, и правительствам необходимо получить более четкие полномочия для вмешательства до вывода высокорисковых систем на публичный рынок.
Объекты регулирования определяются по вычислительной мощности и доходу
Этот план разделен на две части: одна фокусируется на технических и регуляторных требованиях к наиболее мощным моделям, а другая рассматривает вопросы экономического распределения в условиях автоматизации. Согласно уже опубликованной информации, первая часть явно более полная.
Anthropic сужает регулирование до нескольких ведущих разработчиков, а не охватывает всю отрасль. Компания предлагает включить в рамки модели, требующие более 10²⁵ операций с плавающей запятой для обучения, а также компании с годовым доходом от ИИ, превышающим 500 миллионов долларов США, или расходами на исследования и разработки в области ИИ, превышающими 1 миллиард долларов США.
Этот подход направлен на то, чтобы сосредоточиться на моделях с наибольшими ресурсами и возможностями, избегая одинакового регулирования для разработчиков и исследовательских институтов среднего и малого масштаба.
Утверждается, что правительство может препятствовать запуску высокорисковых проектов

Компания заявила, что самым ключевым изменением является предоставление правительству законодательных полномочий блокировать или сдерживать развертывание высокорисковых моделей. В настоящее время в США отсутствует полноценная система, позволяющая существенно блокировать модели до их официального запуска для публики.
В соответствии с конкретными требованиями, разработчики передовых моделей должны завершить тестирование до публикации и опубликовать краткую информацию о тестировании, безопасную архитектуру и системную карту, описывающие поведение модели и методы управления рисками. Компании также должны регулярно представлять отчеты о рисках, раскрывая общую ситуацию с рисками и прогресс в области безопасности.
Anthropic также предлагает ввести независимые оценочные организации для проверки тестов, проведенных компаниями самостоятельно, и отдельно публиковать выводы о рисках моделей. Таким образом, регулирующие органы и общественность будут иметь доступ к информации не только через заявления компаний.
Штрафы и требования к безопасности усиливаются同步
В отношении правоприменения Anthropic предлагает связывать административные штрафы с глобальным годовым доходом компании, а не устанавливать фиксированные суммы. Компания считает, что только в этом случае штрафы будут реально сдерживать крупные ИИ-корпорации. Для повторных нарушителей размер штрафа должен быть еще выше.
Помимо тестирования и раскрытия, программа требует от компаний создания более надежной системы безопасности для защиты весов моделей и обучающих систем от внешних атак и внутреннего злоупотребления. Компании могут публично описывать общую структуру плана безопасности, а более подробная информация предоставляется по требованию государственных органов.
Anthropic также предложила, чтобы правительство и отрасль совместно разработали стандарты для независимых оценщиков и обеспечили им достаточное финансирование и необходимый доступ. Поскольку передовые модели часто являются наиболее чувствительными активами компаний, вопрос о том, кто будет проводить оценку и как получить доступ, станет одним из ключевых трудностей при реализации.
Назовите четыре основные риски
Anthropic в документе выделяет четыре категории ключевых рисков: биологические риски, риски кибербезопасности, риски потери контроля и риск того, что ИИ будет автоматически ускорять собственные исследования. Компания считает, что эти риски не являются изолированными и могут взаимно усиливать друг друга.
Например, модели, обладающие способностью к масштабному обнаружению уязвимостей программного обеспечения, могут напрямую повлиять на критически важные инфраструктуры, такие как больницы и энергосети; при недостаточной регуляции такие способности могут усиливать биологические риски.
В отношении сопутствующих мер Anthropic рекомендует усилить защиту интернета и критически важной инфраструктуры, продвигать замену устаревших систем на ключевые службы и создать специализированные государственные функции для постоянного отслеживания изменений в киберспособностях передовых ИИ. Что касается рисков потери контроля и автоматизированной разработки, компания признает, что соответствующие инструменты управления все еще несовершенны, и необходимо продолжать совершенствовать возможности обнаружения, изоляции и отключения небезопасных систем.
Дополнительная информация: Anthropic в документе указала, что существующие правила прозрачности в Калифорнии, Нью-Йорке и других регионах имеют определенное значение, но одних только публичных раскрытий недостаточно для покрытия рисков, связанных с быстрой итерацией передовых моделей.
