Anthropic propone un marco regulatorio para modelos de IA de vanguardia

CoinDesk informa:

Anthropic ha lanzado un conjunto de políticas para modelos de IA de vanguardia. La empresa afirma que las normas actuales de transparencia ya no pueden seguir el ritmo del avance en las capacidades de los modelos, y que los gobiernos necesitan obtener poderes de intervención más claros para actuar antes de que los sistemas de alto riesgo ingresen al mercado público.

Los sujetos regulados se determinan según la potencia de cálculo y los ingresos

Este plan se divide en dos partes: una se centra en los requisitos técnicos y regulatorios del modelo más potente, y la otra aborda la distribución económica bajo el impacto de la automatización. Según la información revelada hasta ahora, la primera es claramente más completa.

Anthropic reduce el alcance regulatorio a unos pocos desarrolladores líderes, en lugar de abarcar toda la industria. La empresa propone que los modelos que requieran más de 10²⁵ operaciones de punto flotante para su entrenamiento deben incluirse en el marco; también deben aplicarse los requisitos correspondientes a las empresas con ingresos anuales relacionados con la IA superiores a 500 millones de dólares o gastos en investigación y desarrollo de IA superiores a 1000 millones de dólares.

Este diseño tiene como objetivo centrarse en los modelos con los recursos más concentrados y las mayores capacidades, evitando someter a desarrolladores e instituciones de investigación de tamaño mediano y pequeño a la misma intensidad de regulación.

Afirmar que el gobierno puede impedir el lanzamiento de proyectos de alto riesgo

La empresa afirma que el cambio más fundamental es otorgar al gobierno el poder legal para bloquear o contener la implementación de modelos de alto riesgo. Actualmente, Estados Unidos no cuenta con un mecanismo completo que permita interceptar sustancialmente los modelos antes de su lanzamiento al público.

En cuanto a los requisitos específicos, los desarrolladores de modelos avanzados deben completar pruebas antes de la publicación y hacer públicos el resumen de las pruebas, el marco de seguridad y la tarjeta del sistema, explicando el comportamiento del modelo y los métodos de control de riesgos. Las empresas también deben presentar informes de riesgo periódicos, divulgando el estado general de los riesgos y los avances en las actividades de seguridad.

Anthropic también propone la introducción de entidades de evaluación independientes para revisar las pruebas realizadas por las empresas y emitir conclusiones separadas sobre los riesgos del modelo. De esta manera, los reguladores y el público no dependerán únicamente de los informes proporcionados por las empresas.

Las sanciones y los requisitos de seguridad se intensifican simultáneamente

En cuanto al diseño regulatorio, Anthropic sugiere vincular las sanciones civiles con los ingresos anuales globales de la empresa, en lugar de imponer multas fijas. La empresa considera que solo así las sanciones tendrán un verdadero efecto disuasorio sobre las grandes empresas de IA. Además, las multas para los infractores recurrentes deberían aumentarse aún más.

Además de la prueba y la divulgación, el plan requiere que las empresas establezcan sistemas de seguridad más robustos para proteger los pesos del modelo y los sistemas de entrenamiento contra ataques externos y abusos internos. Las empresas pueden publicar una descripción general de la estructura de su plan de seguridad, proporcionando detalles más específicos solo cuando lo soliciten las autoridades gubernamentales.

Anthropic también propuso que el gobierno y la industria deberían establecer conjuntamente estándares para evaluadores independientes y garantizar que estos evaluadores reciban financiamiento suficiente y los accesos necesarios. Dado que los modelos de vanguardia suelen ser los activos más sensibles de las empresas, quién realizará las evaluaciones y cómo se obtendrá el acceso serán algunos de los desafíos clave en su implementación.

Nombrar cuatro tipos de riesgos principales

Anthropic enumera cuatro categorías de riesgos clave en el documento: riesgos biológicos, riesgos de ciberseguridad, riesgos de pérdida de control y el riesgo de que la IA acelere automáticamente su propio desarrollo. La empresa considera que estos riesgos no son independientes entre sí y pueden amplificarse mutuamente.

Por ejemplo, un modelo con la capacidad de descubrir grandes cantidades de vulnerabilidades de software podría afectar directamente infraestructuras críticas como hospitales y redes energéticas; y, en condiciones de restricciones insuficientes, esta capacidad también podría combinarse con riesgos biológicos.

En cuanto a las medidas complementarias, Anthropic sugiere fortalecer la protección de Internet y las infraestructuras críticas, impulsar la sustitución de sistemas obsoletos en servicios clave y establecer una función gubernamental especializada para monitorear continuamente los cambios en las capacidades cibernéticas de la IA más avanzada. En cuanto a los riesgos de pérdida de control y desarrollo automatizado, la empresa reconoce que las herramientas de gobernanza relacionadas aún no están maduras y que es necesario seguir mejorando la capacidad de detección, aislamiento y cierre de sistemas inseguros.

Información adicional: Anthropic indica en el documento que las normas actuales de transparencia en California, Nueva York y otros lugares tienen cierto efecto, pero la divulgación pública por sí sola ya no es suficiente para abordar los riesgos derivados de la rápida iteración de los modelos avanzados.