Anthropic a publié un ensemble de politiques destinées aux modèles d'IA les plus avancés. L'entreprise affirme que les règles de transparence actuelles ne parviennent plus à suivre le rythme des progrès des modèles et que les gouvernements doivent obtenir des pouvoirs d'intervention plus clairs pour agir avant que des systèmes à haut risque n'atteignent le marché public.
Les entités réglementées sont déterminées en fonction de la puissance de calcul et des revenus.
Ce plan est divisé en deux parties : l'une se concentre sur les exigences techniques et réglementaires du modèle le plus puissant, tandis que l'autre examine les questions de répartition économique sous l'impact de l'automatisation. Selon les informations déjà divulguées, la première semble nettement plus complète.
Anthropic réduit le champ de la réglementation à quelques développeurs leaders, plutôt que de l'étendre à l'ensemble du secteur. L'entreprise propose que les modèles entraînés à plus de 10²⁵ opérations en virgule flottante soient inclus dans le cadre ; les entreprises générant un revenu annuel lié à l'IA supérieur à 500 millions de dollars ou ayant dépensé plus de 1 milliard de dollars en recherche et développement dans le domaine de l'IA devraient également être soumises à ces exigences.
Cette conception vise à concentrer l'attention sur les modèles les plus ressources et les plus performants, tout en évitant de soumettre les petits et moyens développeurs et institutions de recherche à une régulation de même intensité.
Affirmer que le gouvernement peut empêcher les listages à haut risque

L'entreprise affirme que le changement le plus fondamental consiste à accorder au gouvernement le pouvoir légal de bloquer ou de contenir le déploiement de modèles à haut risque. Actuellement, les États-Unis ne disposent pas d'un mécanisme complet permettant d'intercepter de manière substantielle les modèles avant leur mise à disposition du public.
Sur le plan des exigences spécifiques, les développeurs de modèles de pointe doivent effectuer des tests avant la publication et rendre publics un résumé des tests, un cadre de sécurité et une fiche système décrivant le comportement du modèle et les méthodes de contrôle des risques. Les entreprises doivent également soumettre régulièrement des rapports sur les risques, en divulguant l'état global des risques et les progrès réalisés en matière de sécurité.
Anthropic propose également l'introduction d'organismes d'évaluation indépendants pour réviser les tests effectués par les entreprises et publier séparément les conclusions sur les risques des modèles. Ainsi, les autorités de régulation et le public n'auront plus uniquement recours aux déclarations des entreprises pour obtenir des informations.
Les sanctions et les exigences de sécurité sont renforcées simultanément
En matière de conception réglementaire, Anthropic recommande de lier les sanctions civiles au revenu annuel mondial de l'entreprise, plutôt que d'imposer des amendes fixes. L'entreprise estime que seule cette approche permettra d'imposer des contraintes réelles aux grandes entreprises d'IA. Les amendes devraient en outre être augmentées pour les récidivistes.
Outre les tests et la divulgation, le programme exige que les entreprises établissent un système de sécurité renforcé pour protéger les poids des modèles et les systèmes d'entraînement contre les attaques externes et les abus internes. Les entreprises peuvent publier une description générale de leur plan de sécurité, en fournissant des détails plus précis uniquement sur demande des autorités gouvernementales.
Anthropic a également suggéré que les gouvernements et l'industrie devraient élaborer ensemble des normes pour les évaluateurs indépendants et garantir que ces évaluateurs disposent de financements suffisants et des accès nécessaires. Étant donné que les modèles de pointe sont généralement les actifs les plus sensibles des entreprises, la question de qui évalue et comment obtenir l'accès constituera l'un des défis majeurs de la mise en œuvre.
Nommer les quatre principales catégories de risques
Anthropic liste quatre catégories de risques majeurs dans le document : risques biologiques, risques de cybersécurité, risques de perte de contrôle et risque que l'IA accélère automatiquement son propre développement. L'entreprise estime que ces risques ne sont pas isolés et peuvent se renforcer mutuellement.
Par exemple, un modèle capable de découvrir à grande échelle des vulnérabilités logicielles peut avoir un impact direct sur des infrastructures critiques telles que les hôpitaux et les réseaux énergétiques ; et dans des conditions de contraintes insuffisantes, cette capacité peut s'additionner aux risques biologiques.
En ce qui concerne les mesures complémentaires, Anthropic recommande de renforcer la protection d'Internet et des infrastructures critiques, de promouvoir le remplacement des systèmes obsolètes dans les services essentiels, et de créer une fonction gouvernementale dédiée pour suivre en continu les évolutions des capacités cybernétiques des IA de pointe. En ce qui concerne les risques de perte de contrôle et de développement automatisé, l'entreprise reconnaît que les outils de gouvernance associés restent imparfaits et que des efforts continus sont nécessaires pour améliorer la détection, l'isolement et la désactivation des systèmes non sécurisés.
Informations complémentaires : Anthropic indique dans le document que les règles de transparence actuelles en Californie, à New York et autres endroits ont un certain effet, mais la simple divulgation publique ne suffit plus à couvrir les risques liés à l'itération rapide des modèles de pointe.
