A Anthropic lançou um conjunto de políticas para modelos de IA de ponta. A empresa afirma que as regras atuais de transparência não conseguem mais acompanhar o ritmo de aprimoramento das capacidades dos modelos, e que os governos precisam obter poderes de intervenção mais claros para agir antes que sistemas de alto risco entrem no mercado público.
Os objetos regulatórios são definidos com base na potência de mineração e na receita.
Este plano é dividido em duas partes: uma foca nos requisitos técnicos e regulatórios do modelo mais avançado, e a outra discute a distribuição econômica sob o impacto da automação. Pelos detalhes divulgados até agora, a primeira parece significativamente mais completa.
A Anthropic está restringindo o escopo regulatório a poucos desenvolvedores líderes, em vez de abranger toda a indústria. A empresa propõe que modelos com mais de 10²⁵ operações de ponto flutuante sejam incluídos no quadro; empresas com receita anual relacionada à IA superior a 500 milhões de dólares ou despesas de pesquisa e desenvolvimento em IA superiores a 1 bilhão de dólares também devem estar sujeitas aos requisitos correspondentes.
Este design tem como objetivo concentrar-se nos modelos com os recursos mais concentrados e as maiores capacidades, evitando submeter desenvolvedores e instituições de pesquisa de médio e pequeno porte a regulamentações de mesma intensidade.
Alega que o governo pode impedir lançamentos de alto risco

A empresa afirmou que a mudança mais fundamental é conceder ao governo o poder legal de bloquear ou conter a implantação de modelos de alto risco. Atualmente, os Estados Unidos ainda não possuem um mecanismo completo capaz de intervir substancialmente antes da liberação oficial dos modelos ao público.
Em termos específicos, os desenvolvedores de modelos avançados devem concluir testes antes da publicação e divulgar resumos dos testes, quadros de segurança e fichas do sistema, explicando o desempenho e os métodos de controle de risco do modelo. As empresas também devem apresentar relatórios de risco periódicos, divulgando o status geral dos riscos e o progresso das atividades de segurança.
A Anthropic também defende a introdução de agências de avaliação independentes para revisar os testes realizados pelas empresas e emitir conclusões separadas sobre os riscos dos modelos. Dessa forma, os órgãos reguladores e o público não dependerão mais apenas das afirmações das empresas para obter informações.
Penalidades e requisitos de segurança aumentam simultaneamente
Em termos de design regulatório, a Anthropic sugere vincular as sanções civis à receita anual global da empresa, em vez de aplicar multas fixas. A empresa considera que apenas assim as penalidades terão um efeito real sobre grandes empresas de IA. Para infratores recorrentes, o valor das multas deve ser ainda aumentado.
Além de testes e divulgação, o plano exige que as empresas estabeleçam sistemas de segurança mais robustos para proteger os pesos dos modelos e os sistemas de treinamento contra ataques externos e abusos internos. As empresas podem divulgar uma estrutura geral de seu plano de segurança, fornecendo detalhes mais específicos apenas quando solicitado por agências governamentais.
A Anthropic também propôs que governos e indústria desenvolvam conjuntamente padrões para avaliadores independentes e garantam que esses avaliadores recebam financiamento adequado e acesso necessário. Como os modelos de ponta geralmente são os ativos mais sensíveis das empresas, quem realizará as avaliações e como obter acesso será um dos desafios na implementação.
Chamar atenção para quatro principais riscos
A Anthropic lista quatro categorias de riscos principais no documento: riscos biológicos, riscos de cibersegurança, riscos de perda de controle e risco de a IA acelerar automaticamente seu próprio desenvolvimento. A empresa considera que esses riscos não são isolados e podem se amplificar mutuamente.
Por exemplo, modelos com capacidade de descobrir grandes volumes de vulnerabilidades de software podem afetar diretamente infraestruturas críticas, como hospitais e redes de energia; e, em condições de restrição insuficiente, essa capacidade também pode se combinar com riscos biológicos.
Em termos de medidas complementares, a Anthropic recomenda fortalecer a proteção da internet e das infraestruturas críticas, promover a substituição de sistemas antigos por serviços essenciais e estabelecer uma função governamental dedicada para monitorar continuamente as mudanças nas capacidades cibernéticas da IA avançada. Quanto aos riscos de perda de controle e desenvolvimento automatizado, a empresa reconhece que as ferramentas de governança relacionadas ainda estão imaturas e que é necessário continuar aprimorando a capacidade de detecção, isolamento e desativação de sistemas inseguros.
Informação adicional: A Anthropic indica no documento que as regras de transparência atuais em locais como a Califórnia e Nova York têm algum efeito, mas apenas a divulgação pública não é suficiente para abordar os riscos trazidos pela rápida iteração de modelos avançados.
