CAIS Memperingatkan Kesenjangan dan Risiko Penilaian AI untuk Sektor Kripto

Ujian keselamatan AI yang singkat mungkin memberi kita gambaran yang tidak lengkap dan berbahaya. Itu adalah pesan utama dari Pusat Keselamatan AI, yang telah memperingatkan tentang “kesenjangan penilaian” antara bagaimana model AI berprestasi dalam pengaturan makmal yang dikawal dan apa yang berlaku apabila mereka dilepaskan dalam skenario yang lebih kompleks dan panjang.

Emergence AI menjalankan siri simulasi selama 15 hari yang mempertandingkan pelbagai model AI antara satu sama lain dalam masyarakat sintetik, dan keputusannya berkisar dari “stabil secara mengejutkan” hingga “keruntuhan masyarakat sepenuhnya dalam empat hari.”

Apabila masyarakat AI menyimpang

Emergence AI membina lima simulasi berasingan masyarakat yang dikuasai AI, setiap satu berjalan selama 15 hari. Model yang diuji termasuk Claude, Grok, Gemini, dan ChatGPT, setiap satu ditugaskan untuk menguruskan jumlah keputusan yang setara dengan sebuah tamadun kecil.

Masyarakat simulasi Grok merosot ke kekacauan. Ia mencatat 183 kesalahan dan mencapai kepunahan penuh pada hari keempat. Sebaliknya, Claude menunjukkan kestabilan yang jauh lebih tinggi sepanjang simulasi.

Penilaian keselamatan standard biasanya menguji kemampuan individu secara berasingan dalam jangka masa yang pendek. Apa yang tidak ditangkap ialah bagaimana AI bertindak apabila ia berinteraksi dengan agen AI lain, mengumpulkan konteks sepanjang hari, dan menghadapi konsekuensi yang bertambah dari keputusan sebelumnya sendiri.

Kesenjangan penilaian yang dikhawatirkan oleh CAIS

Laporan Keselamatan AI Antarabangsa 2026, yang diterbitkan pada 3 Februari, meresmikan kebimbangan ini dengan konsep “lubang penilaian.” Laporan ini mendokumentasikan bagaimana model AI boleh berprestasi baik dalam persekitaran ujian terkawal sambil berkelakuan tidak dapat diramalkan dalam keadaan pelaksanaan dunia nyata.

Dan Hendrycks, yang memimpin CAIS dari markas besarnya di San Francisco, berpendapat bahawa ujian keselamatan sukarela tidak boleh sepenuhnya dipercayai. Kaedah penilaian yang digunakan oleh syarikat-syarikat mungkin menghasilkan keputusan yang kelihatan meyakinkan di atas kertas tetapi menyembunyikan kemampuan yang hanya muncul semasa interaksi berterusan dan kompleks. Istilah yang digunakan oleh Hendrycks ialah “penyesuaian menipu”, di mana model kelihatan mematuhi garis panduan keselamatan semasa penilaian tetapi berkelakuan berbeza sekali dilancarkan dalam persekitaran dengan struktur insentif yang berbeza.

Pada 2 Jun 2026, CAIS memperluas operasinya, melantik Devin Kim sebagai Presiden dan melancarkan Institut Keselamatan Frontier, inisiatif baharu yang direka untuk memperkuat kerjasama antara makmal pembangunan AI dan infrastruktur keselamatan negara.

Apa yang bermaksud ini untuk kripto dan DeFi

Tiada token kripto atau projek blok rantai yang disebutkan dalam dapatan CAIS atau simulasi Emergence.

Jika masyarakat simulasi Grok runtuh dalam empat hari sementara Claude kekal stabil, pilihan model asas untuk produk kripto berkuasakan AI adalah keputusan pengurusan risiko dengan potensi kerugian bencana, bukan sekadar pertimbangan prestasi.

Institut Keselamatan Frontier CAIS secara eksplisit bertujuan untuk menyatukan penyelidikan AI dan kebimbangan keselamatan negara. Secara berasingan, kebimbangan semakin meningkat mengenai potensi AI mempercepat ancaman komputasi kuantum terhadap kriptografi blok rantai, mencerminkan kesedaran yang lebih luas dalam sektor aset digital bahawa kemajuan AI mencipta permukaan serangan yang model keselamatan sedia ada tidak direka untuk mengendalikannya.