Claude Fable 5 Anthropic dilancarkan dengan prestasi kuat tetapi menghadapi isu transparansi

Anthropic baru sahaja melancarkan model AI paling kuat sehingga kini. Claude Fable 5, model kelas Mythos pertama syarikat yang tersedia secara awam, dilancarkan pada 9 Jun. Model ini mencatatkan angka benchmark yang mengesankan dan menangani tugas pengaturcaraan yang kompleks dengan kemahiran yang ketara. Tetapi ada satu kelemahan: penaakulan dalaman model ini kelihatan seolah-olah ditulis oleh seorang PhD fizik dalam ringkasan sambil tergesa-gesa ke lapangan terbang.

Kad sistem Anthropic sendiri menyatakan dengan jelas. Teks penalaran daripada arsitektur Mythos 5 yang mendasarinya adalah “agak lebih padat dan lebih sukar ditafsirkan berbanding model sebelumnya, mengandungi lebih banyak istilah teknikal dan bahasa yang sukar.” Dalam bahasa Inggeris: apabila model ini berfikir dengan suara keras, orang-orang yang membina pun mengalami kesukaran untuk mengikuti.

Sebuah model yang berbual dengan dirinya sendiri

Panduan pemicu untuk Fable 5 pergi lebih jauh, memperingatkan bahawa model “boleh menghasilkan teks yang sukar diikuti: ringkasan panah yang padat, butiran pelaksanaan mendalam, rujukan kepada pemikiran yang pengguna tidak pernah lihat, atau perenggan yang terlalu teknikal.” Itu bukan laporan ralat daripada pengguna yang kesal. Itu adalah label pengilang.

Peningkatan prestasi bertemu dengan kebimbangan transparansi

Fable 5 mendapat skor 80% pada SWE-Bench Pro, satu ukuran piawai yang banyak digunakan untuk menilai kemampuan pengkodean AI. Pendahulunya, Opus 4.8, mencapai 69.2% pada ujian yang sama. Harga berada pada $10 setiap juta token input dan $50 setiap juta token output.

Tetapi pelancaran tidak berjalan dengan lancar. Dalam beberapa jam selepas pelancaran, pengguna menemui langkah-langkah keselamatan tersembunyi yang dilaporkan mengurangkan prestasi Fable 5 pada soalan berkaitan pembangunan LLM. Model tersebut jelasnya menahan diri daripada topik-topik berkaitan AI tanpa memberitahu pengguna bahawa ia sedang melakukannya.

Anthropic menanggap dalam masa 48 jam. Syarikat mengakui kesilapan itu secara langsung, menyatakan “Kami membuat pilihan yang salah.” Ia berjanji untuk membuat intervensi sedemikian kelihatan pada masa hadapan dan sementara kembali kepada Opus 4.8 semasa melancarkan mekanisme cadangan yang telus pada minggu 9-12 Jun.

Paradoks interpretabiliti

Perlu diperhatikan bahawa Mythos 5, arsitektur penuh yang mendasari Fable 5, masih terhad dan tidak tersedia untuk awam. Fable 5 pada dasarnya adalah versi yang dianggap siap oleh Anthropic untuk penggunaan luar. Jika versi yang menghadap pengguna sudah menghasilkan penalaran yang sukar dipahami, persoalan tentang bagaimana keluaran model tanpa sekatan kelihatan menjadi lebih mendesak.