Anthropicは、最先端のAIモデル向けの政策フレームワークを発表しました。同社は、現在の透明性規則がモデルの能力向上に追いついておらず、高リスクシステムが一般市場に導入される前に対策を講じるため、政府がより明確な介入権を獲得する必要があると述べています。
監管対象は算力と収入に基づいて定められます
この方案は二つの部分から構成されており、一方は最強モデルの技術的および規制要件に焦点を当て、他方は自動化による経済的分配の問題を議論している。これまでに公開された内容によると、前者の方がはるかに完成度が高い。
Anthropicは、業界全体を対象とするのではなく、少数の主要開発者に規制範囲を絞り込む。同社は、10²⁵回以上の浮動小数点演算を訓練するモデルをこの枠組みに含めるべきだと提案しており、年間AI関連収益が5億ドルを超える、またはAI研究開発支出が10億ドルを超える企業にも同様の要件を適用すべきだと主張している。
この設計は、リソースが最も集中し、能力が最も高いモデルに重点を置き、中小規模の開発者や研究機関を同等の強度で規制対象としないことを目的としています。
政府が高リスク上場を阻止できると主張

同社は、最も重要な変更点は、政府が高リスクモデルの展開を阻止または抑制する法的権限を有することであると述べた。現在、米国には、モデルが一般公開される前に実質的にブロックするための体系的なメカニズムは存在していない。
具体的要件として、最先端モデルの開発者は公開前にテストを完了し、テスト要約、セキュリティフレームワーク、およびシステムカードを公開して、モデルの行動特性とリスク制御方法を説明する必要があります。企業はまた、定期的にリスク報告を提出し、全体的なリスク状況とセキュリティ対策の進捗を開示する必要があります。
Anthropicは、企業が自ら実施したテストを第三者評価機関が検証し、モデルのリスクに関する結論を別途公表することを提案しています。これにより、規制当局および一般市民が得られる情報の源が、企業の自己申告にのみ依存しなくなります。
罰則とセキュリティ要件が同時に強化されます
法的設計において、Anthropicは固定罰金ではなく、民事罰を企業のグローバル年間収益に連動させるよう提案しています。同社は、この方法でのみ、大規模AI企業に対して実質的な拘束力が発生すると考えています。繰り返し違反者には、さらに罰金を強化すべきです。
テストおよび開示を除き、この計画は企業がモデルの重みとトレーニングシステムを外部攻撃や内部悪用から保護するため、より強固なセキュリティ体制を構築することを要求する。企業はセキュリティ計画の概要を公表することができ、より詳細な内容は政府機関の要請時に提供する。
Anthropicは、政府と業界が独立した評価者に関する基準を共同で策定し、これらの評価者が十分な資金と必要なアクセス権を確保することを提唱しています。先端モデルは通常、企業にとって最も機密性の高い資産であるため、誰が評価を行うか、そしてどのようにアクセス権を得るかは、実施における課題の一つとなります。
主要なリスクを4つ挙げます
Anthropicは、ファイル内で4つの主要なリスクを列挙しています:生物リスク、サイバーセキュリティリスク、制御喪失リスク、およびAIが自らの研究開発を自動的に加速するリスクです。同社は、これらのリスクが互いに独立していない可能性があり、相互に増幅される可能性があると考えています。
たとえば、大規模なソフトウェア脆弱性を発見する能力を有するモデルは、病院やエネルギー網などの重要なインフラに直接影響を及ぼす可能性があり、制約が不十分な場合、こうした能力は生物的リスクと重なる可能性もある。
関連対策として、Anthropicは、インターネットおよび重要なインフラの保護を強化し、重要なサービスにおける旧式システムの置き換えを推進し、最先端AIのネットワーク能力の変化を継続的に監視するための専門的な政府機能を設立することを提案しています。制御不能および自動化開発のリスクについては、同社は関連するガバナンスツールがまだ未熟であることを認め、不安全なシステムの検出、隔離、停止機能の継続的な改善が必要であるとしています。
追加情報:Anthropicは、ファイル内で、カリフォルニア州やニューヨークなどにおける既存の透明性規則には一定の効果があるが、先進モデルの迅速な反復に伴うリスクを公開開示のみでカバーすることは十分でないと述べている。
