Anthropic Melancungkan Claude Fable 5, Melampaui GPT-5.5 dalam Ujian Kod

iconMetaEra
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Anthropic mengumumkan pembaharuan besar dalam berita on-chain dengan pelancaran Claude Fable 5, model awam pertama dalam siri Mythos-nya. Menurut MetaEra, Fable 5 mencatat 29.3% pada penilaian FrontierCode Diamond, jauh melebihi 5.7% GPT-5.5. Ia juga unggul dalam tugas visual dan bioinformatik. Anthropic menawarkan dua peringkat: model awam dan versi perusahaan di bawah Glasswing. Harga ialah $10 setiap juta token input dan $50 setiap juta token output, turun daripada fasa ujian.
Boris Cherny secara terus terang mengatakan ini adalah lompatan kemampuan terbesar sejak Opus 4.5 pada November 2025, di mana model mulai memiliki "nuansa model besar".

Penulis artikel, sumber: 0x9999in1, ME News



TL;DR

  • Anthropic secara rasmi melancarkan Claude Fable 5, model Mythos pertama yang dibuka kepada awam; harga 10/50 dolar AS setiap juta token, turun lebih separuh berbanding versi ujian.
  • Penilaian kesukaran FrontierCode Diamond, Fable 5 mendapat 29.3%, GPT-5.5 hanya 5.7%, Opus 4.8 juga hanya 13.4%.
  • Stripe menggunakan ia untuk memindahkan 50 juta baris kod Ruby dalam sehari—sebelum ini memerlukan satu pasukan selama dua bulan.
  • Sisi visual mampu menangkap tangkapan layar untuk melalui Pokémon FireRed, serta membangun semula kod sumber laman web; sisi biologi mampu meramal perakitan kulit adenovirus melebihi model protein khusus; genomik sel tunggal mengalahkan model yang sama dengan makalah Science, dengan parameter hanya satu peratus.
  • Langkah keselamatan "dua landasan": Versi awam Fable 5 mempunyai had tetap, manakala versi institusi Mythos 5 dibuka secara terpilih kepada sekitar 200 institusi melalui rancangan Glasswing.
  • Boris Cherny secara terus terang mengatakan ini adalah lompatan kemampuan terbesar sejak Opus 4.5 pada November 2025, di mana model mulai memiliki "nuansa model besar".

Satu, Anthropic menjadikan "pertemuan pengumuman" sebagai "kaunter penyaringan"

Katakan kesimpulan terlebih dahulu. Fable 5 bukan sekadar peningkatan nombor versi biasa. Ia adalah pertama kalinya Anthropic memisahkan dengan jelas "siapa yang boleh guna, guna sampai tahap mana, dan bayar berapa banyak".

Yang diperoleh oleh awam ialah Fable 5. Dengan penghalang, dilarang untuk kegunaan keselamatan siber dan operasi berisiko tinggi.

Yang diperoleh oleh institusi ialah Mythos 5. Arkitektur yang sama, sekatan lebih kurang, mengikuti rancangan Glasswing, kini hanya merangkumi sekitar 200 institusi, termasuk kerajaan Amerika.

Berapa harganya? Kedua-duanya sama: $10 per juta token input, $50 per juta token output. Lebih daripada separuh harga semasa tempoh ujian.

Apakah operasi ini? Ini menjadikan "keselamatan" sebagai sebahagian daripada produk, bukan sekadar pernyataan perhubungan awam di acara pelancaran.

Dahulu, ketika kami melihat pelancaran model besar, kami terbiasa dengan naratif begini—“Kami yang paling kuat, kami yang paling murah, kami yang paling selamat.” Ketiga pernyataan itu diteriakkan serentak. Hari ini, Anthropic memisahkannya: kemampuan paling kuat diletakkan di salur yang dikawal, sementara versi awam melepaskan sebahagian kebebasan untuk mendapatkan rintangan yang lebih rendah.

Ini memiliki pola yang jelas. Mythos sebelumnya telah digunakan secara dalaman oleh Anthropic untuk mengesan "ribuan kelemahan perisian". Apa maksudnya apabila kemampuan ini diberikan kepada umum? Ia bermaksud model yang sama boleh memperbaiki lubang, tetapi juga menggali lubang. Anthropic tidak berpura-pura tidak tahu. Ia memilih jalan yang lebih sukar, tetapi lebih boleh dijelaskan: pembukaan bertahap.

Adakah kedengaran seperti logik pengagihan vaksin? Ya. Berikan terlebih dahulu kepada kelompok berisiko tinggi, kemudian lanjutkan kepada masyarakat umum. Perbezaannya hanyalah, "berisiko tinggi" kali ini merujuk kepada kemampuan tinggi.

Dua, 29.3% berbanding 5.7%: Ini bukan ketertinggalan, ini adalah lompatan generasi

Kesukaran Diamond FrontierCode adalah salah satu paras tertinggi yang diiktiraf secara umum dalam penilaian kod.

Fable 5:29.3%。

GPT-5.5: 5.7%.

Claude Opus 4.8: 13.4%.

29.3% berbanding 5.7%. Perbezaan melebihi 5 kali ganda.

Perbezaan semacam ini tidak biasa dalam sejarah model besar. Apakah norma selama dua tahun terakhir? Ia adalah persaingan sengit di senarai, di mana perbezaan tiga hingga lima peratus sudah cukup untuk memuatkan tweet perayaan. Ia adalah perbandingan tinggi di titik perpuluhan antara OpenAI, Anthropic, dan Google.

Sekarang berbeza. Fable 5 meninggalkan GPT-5.5 bukan hanya satu atau dua langkah, tetapi seluruh lintasan.

Of course, a single leaderboard cannot tell the whole story. So let's look at real-world scenarios.

Apa yang dilakukan Stripe? Memindahkan 50 juta baris kod Ruby dalam sehari.

Apakah maksudnya 50 juta baris? Keseluruhan sistem transaksi inti syarikat internet besar berada pada tahap ini. Dengan jumlah kerja yang sama, konfigurasi biasa sebelum ini ialah—sebuah pasukan, bekerja selama dua bulan.

Satu hari berbanding dua bulan. Menekan kos seorang bulan, hampir menurunkan sebanyak satu peringkat.

Ini bermaksud apa? Ini bermaksud bahawa proses pemindahan kod sedang berubah daripada "masalah kejuruteraan" kepada "masalah kuasa pengiraan".

Jurutera tidak akan kehilangan pekerjaan. Tetapi nilai marjinal jurutera sedang ditentukan semula.

Tiga, apakah bermaksud apabila model Pokémon boleh ditangkap skrin untuk lulus?

Anthropic menyelipkan butiran yang agak "nakal" dalam demo—Fable 5 boleh melalui Pokémon FireRed secara langsung melalui tangkapan skrin.

Kelihatan seperti mainan?

Tidak.

Untuk menyelesaikan sebuah RPG, apa yang diperlukan? Perancangan jangka panjang, ingatan status, pemahaman visual, kesedaran peta, inferensi dialog, dan penguraian matlamat. Kumpulan kemampuan ini bersama-sama membentuk bentuk awal Agent.

Aplikasi yang lebih realistik ialah ia mampu membangkit semula kod sumber laman web hanya daripada tangkapan skrin. Perkara ini bermakna, kos "rekabentuk songsang" dalam pembangunan hujung depan telah diturunkan kepada tahap yang boleh diakses oleh seorang reka bentuk biasa.

Semakin ke arah biologi, perkara menjadi lebih teruk.

Fable 5 mampu meramal pemasangan cangkang adeno virus Dyno Therapeutics hanya dengan penalaran — melebihi model protein khusus.

Ia menyelesaikan satu kajian genomik sel tunggal secara berdiri sendiri. Reka bentuk, latihan, pengelasan. Model akhir lebih unggul daripada model sejenis yang diterbitkan dalam jurnal Science. Jumlah parameter adalah satu peratus daripada yang terakhir.

Satu peratus.

Ini adalah nombor yang patut dihentikan sebentar untuk dipikirkan selama tiga saat.

Ia menunjukkan satu perkara: model besar generik telah mula menekan semula di wilayah yang menjadi kekuatan model saintifik vertikal, bukan dengan mengandalkan kuasa pengiraan, tetapi dengan mengandalkan penalaran.

Komuniti penyelidikan selalu mempunyai kebimbangan tersembunyi: Akankah model am akhirnya memakan model khusus? Jawapan sebelum ini kabur. Hari ini, Fable 5 memberikan sampel yang kurang mesra.

Empat, penurunan harga lebih daripada separuh, adakah ia kemurahan hati, atau pengiraan yang dingin

Input 10 USD, output 50 USD.

Kedengarannya tidak murah. Tetapi Dianne Penn dari Anthropic memberikan perkataan kunci: Fable 5 memerlukan lebih sedikit token untuk menyelesaikan tugas yang sama berbanding generasi sebelumnya.

Artinya, harga per unit lebih tinggi, tetapi kos total lebih rendah.

Ini adalah strategi penetapan harga yang sangat "berpengalaman".

Ia tidak bermain dengan harga rendah. Ia bermain dengan kos hasil per unit.

Ia memberitahu pelanggan: Jangan hanya fokus pada harga token, perhatikan berapa banyak yang anda habiskan untuk menyelesaikan satu tiket.

Teknik perniagaan ini dahulu digunakan oleh penyedia awan. Sekarang giliran syarikat model besar menggunakannya. Ini adalah tanda kematangan industri.

Mengapa harga versi uji coba boleh dipotong separuh? Dua kemungkinan.

Pertama, kos penghujahan benar-benar telah berkurang. Kedua, Anthropic sedang merebut pasaran.

Saya cenderung kepada kedua-duanya.

Kegagalan GPT-5.5 dalam senarai pengkodean memberikan Anthropic satu peluang yang jarang berlaku. Kapan lagi kalau bukan sekarang?

Tetapi Anthropic tidak menurunkan harga ke dasar. Ia meninggalkan ruang. Mengapa?

Kerana ia tahu, ia bukan sahaja menjual token, tetapi juga menjual "kepercayaan".

Versi awam mempunyai penghalang, arus perniagaan disimpan selama 30 hari untuk tujuan anti-jailbreak. Kos kepatuhan ini perlu ditanggung daripada keuntungan kasar.

Murah, tetapi tidak dijual dengan harga rendah. Ini adalah sikap Anthropic.

Lima: "Rasa Model": Apa yang dilihat oleh Boris Cherny

Boris Cherny, bapa kepada Claude Code, menilai dengan kata-kata yang sangat tegas.

Dia mengatakan bahawa Fable 5 merupakan lompatan kemampuan terbesar Anthropic sejak pelancaran Opus 4.5 pada November 2025.

Selepas pelancaran Opus 4.5, Cherny membuang IDE dan beralih kepada pengaturcaraan terminal tulen. Perkara ini beredar luas dalam kalangan komuniti pembangun pada masa itu.

Sementara itu, Fable 5 membuatnya merasa bahawa Claude bukan lagi sekadar "agen kod", tetapi "rakan pemikir dan reka bentuk".

Apakah butiran paling menarik?

Cherny mendapati bahawa Fable 5 akan secara aktif menambah log, mengukur, dan mengesahkan semasa pemaafan. Ia akan mengesahkan sama ada ia benar-benar telah dibaiki sebelum mengumumkan "telah dibaiki".

Mendengar seperti perkataan percuma? Tidak.

Masalah paling biasa dalam model lama ialah "bercakap dengan yakin secara salah". Ia ialah "Saya telah membaiki bug ini" — kemudian anda jalankan, dan ralat masih berlaku.

Fable 5 dalam perkara ini digambarkan oleh Cherny sebagai membawa "nuansa model besar".

Apakah itu "rasa model besar"?

Bukan gaya retorik. Ia adalah naluri jurutera yang meragui diri sendiri, kemudian mengesahkan semula.

Lebih penting lagi, tingkah laku ini bukan diajarkan oleh prompt sistem Claude Code. Ia adalah sifat asli model.

Ini menjadi menarik.

Jika suatu kemampuan dikeluarkan melalui petunjuk, maka ia rapuh, boleh dipindahkan, dan boleh disalin. Jika ia merupakan "keperibadian" model itu sendiri, maka ia merupakan parit perlindungan Anthropic.

Anthropic selama dua tahun ini telah menjual sebuah cerita—perbezaannya bukan sekadar "lebih pintar", tetapi "lebih boleh dipercayai". Fable 5 adalah kali pertama cerita ini mendapat sokongan bentuk produk.

Enam, mengenai keselamatan, Anthropic tidak mengambil jalan ketiga

Mari kita kembali kepada keselamatan.

Fable 5 telah menghuraikan klasifier keselamatan yang berasingan. Apabila menghadapi soalan berisiko tinggi, ia secara automatik akan fallback ke Claude Opus 4.8. Data Anthropic menunjukkan: kesan purata kurang daripada 5% sesi.

What does this mean?

Maksudnya, dalam lebih daripada 95% kes, pengguna tidak merasakan kehadiran penghalang.

Ini bermakna kurang daripada 5% permintaan "berhampiran garis" akan diterima secara senyap.

Ini adalah sekatan yang "lembut".

Namun Anthropic juga tidak berpura-pura baik. Data trafik perusahaan disimpan selama 30 hari. Semasa tempoh itu, ia diperiksa secara manual. Semua pemeriksaan dicatat dalam log.

Ini adalah reka bentuk pematuhan, juga rantai bukti undang-undang.

Untuk rakan kongsi Glasswing, sekatan keselamatan siber telah dicabut. Sekatan biomedikal akan dibuka secara berperingkat melalui mekanisme akses tepercaya.

Sila perhatikan empat kata "akses penerimaan". Ia bermaksud bahawa pembukaan bukan berdasarkan bilangan pemohon, tetapi berdasarkan kelayakan.

Setelah membaca keseluruhan mekanisme, Anthropic sedang melakukan satu perkara: menjadikan dirinya sebagai "pengurus lesen bertingkat" dalam bidang model besar.

Ini adalah perbezaan mendasar dalam pendekatannya berbanding OpenAI.

Logik OpenAI ialah "keluarkan dahulu, kemudian baiki".

Logik Anthropic ialah "kelaskan dahulu, kemudian terbitkan".

Jalan mana yang betul? Masih belum ada jawapannya. Tetapi pasaran akan memberi suara dengan dompet.

Tujuh: "Kenaikan harga lembut" bagi pengguna langgan

Model baru tersedia sepenuhnya di API dan versi perusahaan.

Pengurusan pengguna langgan lebih menarik: percubaan percuma sehingga 22 Jun, selepas 23 Jun beralih kepada pembayaran menggunakan poin. Akan dimasukkan ke dalam langgan biasa apabila kuasa pengiraan mencukupi.

Translate into what?

Ia adalah kenaikan harga secara perlahan-lahan seperti katak yang direbus perlahan-lahan.

Pertama, anda diberi rasa manis, kemudian diminta membayar. Saat ini kapasiti pengeluaran tidak mencukupi, jadi kemampuan tinggi dijadikan penyelesaian sementara "bayar mengikut penggunaan".

Sistem ini telah lama digunakan oleh penyedia awan mudah alih. Kini, syarikat model besar juga mula mengikuti jalan ini.

Sistem langganan bukan lagi "bayar sebulan, guna tanpa had". Ia sedang berubah menjadi struktur "pakej asas + tambahan penggunaan".

Adakah ini satu kemunduran?

Bukan. Ini adalah bentuk matang yang telah dibuktikan berulang kali selama tiga dekad dalam industri SaaS. Syarikat model besar mulai menunjukkan model keuntungan dewasa.

VIII. Selepas Fable 5, bagaimana landasan industri berubah

Mari kita lihat dari sudut yang lebih luas.

Pada November 2025, Opus 4.5 dilancarkan. Anthropic memantapkan kedudukannya dalam "golongan teratas model kod".

Pada separuh pertama tahun 2026, GPT-5.5 dilancarkan. Pasar mengalami penyesuaian pertama yang jelas terhadap harapan terhadap OpenAI.

9 Jun 2026 (Selasa, waktu Pesisir Barat AS), Fable 5 + Mythos 5 dilancarkan serentak.

Tujuh bulan. Kedudukan tiga pengeluar teratas telah disusun semula.

Ini bukan bererti OpenAI kalah. Video, suara, dan pasaran pengguna akhir OpenAI masih kuat. Tetapi di pasaran perniagaan, dalam kod, dan dalam penyelidikan, Anthropic kali ini mendapat jarak yang terpisah.

Bagaimana dengan Google? Tidak ada yang menyebutnya. Ini sendiri merupakan isyarat.

Pengeluar tempatan pula? Tiada siapa yang menyebutnya. Tetapi mereka pasti sedang berkerja larut malam.

Pemindahan kod, penalaran saintifik, dan Agen visual — ketiga-tiga ini adalah arah utama di mana Fable 5 mengalami ledakan. Di belakang ketiga-tiga arah ini terdapat tiga pasaran aplikasi bernilai trilion.

Siapa yang mampu mengikuti ritme ketiga bidang ini, dia masih berada di meja permainan. Yang tidak mampu mengikutinya, akan mengalami kesukaran dalam setahun ke depan.

Sembilan, beberapa soalan yang belum dijawab

Pada titik ini, perlu diakui bahawa terdapat beberapa soalan yang belum mempunyai jawapan.

Pertama, adakah tingkah laku "pengesahan diri" Fable 5 mampu dikekalkan secara stabil dalam konteks panjang dan perbualan berbilang putaran? Anthropic memberikan demo dan maklum balas pelanggan awal, bukan data secara statistik.

Kedua, bagaimana prestasi pelaksanaan Mythos 5 di 200 institusi? Maklumat ini dijaga ketat. Kita hanya boleh melihat kemampuan versi awam pada masa ini.

Ketiga, bila datangnya serangan balas daripada pesaing? OpenAI tidak akan diam, Google juga tidak. Separuh kedua tahun ini kemungkinan besar akan menjadi gelombang pelancaran yang lain.

Keempat, adakah harga akan turun lagi? Harga 10/50 masih mahal untuk usaha kecil dan sederhana. Apabila kuasa pengiraan dilepaskan lebih lanjut, akankah muncul harga 5/25? Atau lebih rendah?

Tidak ada yang boleh menjawab soalan-soalan ini sekarang.

Tetapi ada satu perkara yang pasti.

Sepuluh, Penutup

Industri model besar memasuki peringkat baru.

Dulu, ia adalah perbandingan "siapa yang lebih bijak".

Sekarang yang dibandingkan ialah "siapa yang lebih boleh dikawal".

Masa depan adalah tentang siapa yang boleh membuat pelanggan tidur lebih tenang.

Fable 5 bukanlah akhir. Ia hanyalah jawapan baru yang diberikan oleh Anthropic kepada industri.

Maklumat utama dalam jawapan ini adalah ringkas:

Kemampuan akan terus meningkat secara eksponensial.

Tetapi kebenaran akan dibahagikan semakin halus.

Harga akan bergerak perlahan ke bawah.

Kepercayaan akan menjadi perkara yang paling mahal.

Siapa yang akan tersenyum di akhir?

Tidak tahu.

Tetapi pada saat ini, Anthropic berada di kedudukan yang baik.

Ia tidak menyeru "Kami ingin AGI".

Ia hanya serius memisahkan satu model menjadi dua bahagian.

Sebuah tugasan untuk semua orang.

Sebuah pemberian kepada "orang yang dipercaya".

Kawalan semacam ini, dalam industri AI hari ini, hampir merupakan kemewahan.

Dan barangan mewah, selalunya tidak murah.

Referensi

  1. Anthropic. Memperkenalkan Claude Fable 5 dan Claude Mythos 5. Anthropic official blog, 9 Jun 2026.
  2. Anthropic. The Glasswing Program: Restricted Access to Frontier Capabilities. Dokumen dasar Anthropic, Jun 2026.
  3. Tim Ujian FrontierCode. Keputusan Penilaian Kesukaran Diamond: Jun 2026. Papan Pemimpin FrontierCode, Jun 2026.
  4. Stripe Engineering. Migrating 50 Million Lines of Ruby in a Day with Claude Fable 5. Stripe Technical Blog, 9 June 2026.
  5. Cherny, Boris. Claude Fable 5: From Coding Agent to Thinking Partner. Pernyataan blog peribadi dan platform X, 9 Jun 2026.
  6. Dyno Therapeutics mengungkap bahan penyelidikan bersama, mengenai keputusan eksperimen kawalan untuk ramalan perakitan kapsid adeno, Mei–Jun 2026.
  7. Penn, Dianne. Perkataan media mengenai data maklum balas pelanggan mengenai penetapan harga Fable 5 dan penggunaan token, 9 Jun 2026.
  8. Anthropic. Nota Rilis Opus 4.5. Dikeluarkan secara rasmi oleh Anthropic, November 2025.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.