Anthropic Meluncurkan Claude Fable 5, Melampaui GPT-5.5 dalam Benchmark Kode

iconMetaEra
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Anthropic merilis pembaruan besar dalam berita on-chain dengan peluncuran Claude Fable 5, model publik pertama dalam seri Mythos-nya. Menurut MetaEra, Fable 5 mendapat skor 29,3% pada benchmark FrontierCode Diamond, jauh di atas 5,7% milik GPT-5.5. Model ini juga unggul dalam tugas visual dan bioinformatika. Anthropic menawarkan dua tingkatan: model publik dan versi perusahaan di bawah Glasswing. Harganya adalah $10 per juta token masukan dan $50 per juta token keluaran, turun dari fase pengujian.
Boris Cherny secara terus terang mengatakan bahwa ini adalah lompatan kemampuan terbesar sejak Opus 4.5 pada November 2025, di mana model mulai memiliki "nuansa model besar".

Penulis artikel, sumber: 0x9999in1, ME News



TL;DR

  • Anthropic secara resmi meluncurkan Claude Fable 5, model Mythos pertama yang tersedia untuk publik; harga 10/50 dolar per juta token, turun lebih dari setengah dibanding versi uji coba.
  • Evaluasi kesulitan FrontierCode Diamond, Fable 5 meraih 29,3%, GPT-5.5 hanya 5,7%, Opus 4.8 juga hanya 13,4%.
  • Stripe menggerakkan 50 juta baris kode Ruby dalam satu hari—sebelumnya memerlukan tim selama dua bulan.
  • Visual side can screenshot to beat Pokémon FireRed, reconstruct web source code; biological side predicts adenovirus capsid assembly surpassing specialized protein models; single-cell genomics outperforms the Science paper's model with only one percent of the parameters.
  • Keamanan berjalan "dua jalur": Versi publik Fable 5 memiliki batasan keras, sementara versi institusi Mythos 5 dibuka secara terbatas untuk sekitar 200 institusi melalui program Glasswing.
  • Boris Cherny secara terus terang mengatakan bahwa ini adalah lompatan kemampuan terbesar sejak Opus 4.5 pada November 2025, di mana model mulai memiliki "nuansa model besar".

Satu, Anthropic mengubah "konferensi pers" menjadi "meja triase"

Katakan dulu kesimpulannya. Fable 5 bukan sekadar iterasi nomor versi biasa. Ini adalah pertama kalinya Anthropic memisahkan dengan jelas "siapa yang bisa menggunakannya, sampai sejauh mana penggunaannya, dan berapa biayanya".

Yang diterima publik adalah Fable 5. Dilengkapi pengaman, dilarang untuk keperluan keamanan siber, dilarang untuk operasi berisiko tinggi.

Yang diperoleh institusi adalah Mythos 5. Arsitektur sama, batasan lebih sedikit, mengikuti rencana Glasswing, saat ini hanya mencakup sekitar 200 institusi, termasuk pemerintah AS.

Berapa harganya? Keduanya sama: $10 per juta token masuk, $50 per juta token keluar. Lebih dari setengah harga periode pengujian.

Apa operasi ini? Ini menjadikan "keamanan" sebagai bagian dari produk, bukan sekadar kalimat publisitas di acara peluncuran.

Dulu, ketika kami melihat peluncuran model besar, kami terbiasa dengan narasi semacam ini—“Kami yang terkuat, kami yang termurah, kami yang paling aman.” Tiga kalimat itu diteriakkan sekaligus. Hari ini, Anthropic memisahkannya: kemampuan terkuat ditempatkan di salur terkendali, sementara versi publik melepaskan sebagian kebebasan demi ambang batas yang lebih rendah.

Ada pola yang jelas di balik ini. Mythos sebelumnya telah digunakan secara internal oleh Anthropic untuk menemukan "ribuan kerentanan perangkat lunak". Apa artinya kemampuan ini jika dilepaskan? Artinya model yang sama bisa memperbaiki lubang, sekaligus membuat lubang. Anthropic tidak berpura-pura tidak tahu. Mereka memilih jalan yang lebih sulit, tetapi lebih dapat dijelaskan: pembukaan bertahap.

Apakah kedengarannya seperti logika distribusi vaksin? Ya. Prioritaskan kelompok berisiko tinggi terlebih dahulu, baru kemudian diperluas ke masyarakat umum. Perbedaannya hanya pada, kali ini "berisiko tinggi" berarti berkapasitas tinggi.

Dua, 29,3% vs 5,7%: Ini bukan memimpin, ini adalah generasi yang berbeda

Kesulitan Diamond dari FrontierCode adalah salah satu batas tertinggi yang diakui dalam evaluasi kode saat ini.

Fable 5: 29,3%.

GPT-5.5: 5,7%.

Claude Opus 4.8: 13,4%.

29,3% terhadap 5,7%. Selisih lebih dari 5 kali lipat.

Kesenjangan semacam ini tidak umum dalam sejarah model besar. Apa yang biasa terjadi selama dua tahun terakhir? Adalah persaingan sengit di peringkat, di mana selisih tiga hingga lima persen saja sudah membuat orang memposting di Twitter untuk merayakannya. Adalah OpenAI, Anthropic, dan Google yang saling membandingkan tinggi badan di angka desimal.

Sekarang berbeda. Fable 5 meninggalkan GPT-5.5 bukan hanya satu atau dua langkah, tetapi seluruh lintasan.

Of course, a single ranking cannot tell the whole story. So let's look at real-world scenarios.

Apa yang dilakukan Stripe? Memindahkan 50 juta baris kode Ruby dalam satu hari.

Apa artinya 50 juta baris? Seluruh sistem transaksi inti perusahaan internet besar pun berada di tingkat jumlah ini. Dengan jumlah pekerjaan yang sama, konfigurasi konvensional sebelumnya adalah—sebuah tim, bekerja selama dua bulan.

Satu hari vs dua bulan. Biaya manusia-bulan dipadatkan, hampir ditekan satu orde.

Ini berarti apa? Ini berarti proses migrasi kode sedang berubah dari "masalah teknik" menjadi "masalah daya komputasi".

Insinyur tidak akan kehilangan pekerjaan. Namun, nilai marjinal insinyur sedang ditetapkan ulang.

Tiga, apa artinya bisa mengambil tangkapan layar model Pokémon untuk lolos?

Anthropic menyisipkan detail yang agak "nakal" dalam demo—Fable 5 dapat langsung melewati Pokémon FireRed melalui tangkapan layar.

Terdengar seperti mainan?

No.

Untuk menyelesaikan sebuah RPG, apa yang dibutuhkan? Perencanaan jangka panjang, memori status, pemahaman visual, pemahaman peta, inferensi dialog, dan dekomposisi tujuan. Kombinasi kemampuan ini bersama-sama adalah cikal bakal Agent.

Aplikasi yang lebih realistis adalah kemampuannya untuk membangun kembali kode sumber halaman web hanya dari tangkapan layar. Hal ini berarti biaya "rekayasa terbalik" pengembangan frontend telah ditekan hingga tingkat yang dapat diakses oleh desainer biasa.

Semakin ke arah biologis, masalahnya semakin serius.

Fable 5 dapat memprediksi perakitan kapsid adenovirus Dyno Therapeutics hanya dengan penalaran—melampaui model protein khusus.

Ia secara mandiri menyelesaikan penelitian genomik sel tunggal. Desain, pelatihan, klasifikasi. Model akhir lebih unggul daripada model sejenis yang diterbitkan di jurnal Science. Jumlah parameter hanya satu persen dari model tersebut.

Satu persen.

Ini adalah angka yang patut dihentikan sejenak untuk dipikirkan selama tiga detik.

Ini menunjukkan satu hal: model besar umum telah mulai melakukan tekanan balik di wilayah yang menjadi keunggulan model ilmiah vertikal, bukan dengan memperbanyak daya komputasi, tetapi dengan memperbanyak inferensi.

Komunitas ilmiah selalu memiliki kekhawatiran tersembunyi: apakah model umum pada akhirnya akan menggantikan model khusus? Jawaban sebelumnya samar-samar. Hari ini, Fable 5 memberikan sampel yang kurang ramah.

Empat, penurunan harga lebih dari separuh, apakah ini kemurahan hati, atau perhitungan dingin

Input 10 dolar, output 50 dolar.

Terdengar tidak murah. Tetapi Dianne Penn dari Anthropic memberikan komentar kunci: Fable 5 memerlukan lebih sedikit token untuk menyelesaikan tugas yang sama dibandingkan generasi sebelumnya.

Artinya, harga per unit lebih tinggi, tetapi biaya total lebih rendah.

Ini adalah strategi penetapan harga yang sangat "berpengalaman".

It doesn't play the "low price" card. It plays the "cost per unit outcome" card.

Ini memberi tahu pelanggan: Jangan hanya melihat harga token, tapi perhatikan berapa banyak yang Anda habiskan untuk menyelesaikan satu tiket.

Teknik pemasaran ini dulu digunakan oleh penyedia cloud. Sekarang giliran perusahaan model besar yang menggunakannya. Ini adalah tanda kematangan industri.

Mengapa harga versi uji coba bisa langsung dipotong setengah? Dua kemungkinan.

Pertama, biaya inferensi benar-benar turun. Kedua, Anthropic merebut pasar.

Saya cenderung keduanya.

Kegagalan GPT-5.5 di peringkat pemrograman memberikan Anthropic jendela langka. Kapan lagi kalau bukan sekarang untuk mengacaukan meja?

Namun Anthropic tidak menurunkan harga hingga ke dasar. Mereka meninggalkan ruang. Mengapa?

Karena ia tahu, ia tidak hanya menjual token, tetapi juga menjual "kepercayaan".

Versi publik memiliki pengaman, arus lalu lintas perusahaan disimpan selama 30 hari untuk mencegah jailbreak. Biaya kepatuhan ini harus dibiayai dari laba kotor.

Murah, tapi tidak dijual murah. Ini adalah sikap Anthropic.

V. "Rasa Model": Apa yang Dilihat Boris Cherny

Boris Cherny, sang pencipta Claude Code, kali ini menggunakan kata-kata yang sangat keras.

Dia mengatakan bahwa Fable 5 merupakan lompatan kemampuan terbesar yang dilakukan Anthropic sejak rilis Opus 4.5 pada November 2025.

Setelah rilis Opus 4.5, Cherny menghapus IDE dan beralih ke pemrograman terminal murni. Peristiwa ini sempat menjadi perbincangan panjang di kalangan pengembang.

Sementara Fable 5 membuatnya merasa bahwa Claude sudah bukan lagi hanya "agen kode", tetapi "mitra pemikir dan perancang".

Apa detail paling menarik?

Cherny menemukan bahwa Fable 5 secara aktif menambahkan log, mengukur, dan memverifikasi saat debugging. Sebelum mengumumkan "sudah diperbaiki", ia terlebih dahulu memastikan apakah benar-benar sudah diperbaiki.

Kedengarannya seperti omong kosong? Tidak.

Masalah paling umum pada model lama adalah "berbicara dengan percaya diri tapi salah". Adalah "saya sudah memperbaiki bug ini" — lalu Anda jalankan, tetap saja muncul kesalahan.

Fable 5's performance on this matter was described by Cherny as having a "large model vibe."

Apa itu "rasa model besar"?

Bukan gaya omong kosong. Ini adalah naluri insinyur yang meragukan diri sendiri, lalu memverifikasi ulang.

Yang lebih penting lagi, perilaku ini bukan diajarkan oleh prompt sistem Claude Code, melainkan sifat dari model itu sendiri.

Ini menarik.

Jika suatu kemampuan muncul karena dipicu oleh prompt, maka kemampuan itu rapuh, dapat dipindahkan, dan dapat direplikasi. Jika itu adalah "kepribadian" intrinsik model, maka itu adalah parit perlindungan Anthropic.

Anthropic selama dua tahun terakhir telah menjual sebuah cerita—perbedaannya bukan hanya "lebih cerdas", tetapi "lebih dapat dipercaya". Fable 5 adalah pertama kalinya cerita ini didukung oleh bentuk produk.

Enam, soal keamanan, Anthropic tidak mengambil jalan ketiga

Kita kembali ke keamanan.

Fable 5 telah menerapkan klasifier keamanan independen. Saat menghadapi permintaan berisiko tinggi, secara otomatis fallback ke Claude Opus 4.8. Data Anthropic menunjukkan: dampak rata-rata kurang dari 5% sesi.

What does this mean?

Artinya dalam lebih dari 95% skenario, pengguna tidak merasakan keberadaan penghalang.

Artinya kurang dari 5% permintaan "ambigu" akan secara diam-diam diturunkan peringkatnya.

Ini adalah batasan yang "lembut".

Namun Anthropic juga tidak berpura-pura baik. Data lalu lintas perusahaan disimpan selama 30 hari. Selama periode ini, diperiksa secara manual. Semua pemeriksaan dicatat dalam log.

Ini adalah desain yang sesuai peraturan, sekaligus rangkaian bukti hukum.

Untuk mitra Glasswing, batasan keamanan siber telah dicabut. Batasan bidang biomedis akan dibuka secara bertahap melalui mekanisme akses terpercaya.

Harap perhatikan empat kata "penerimaan akses". Ini berarti pembukaan tidak didasarkan pada jumlah pemohon, tetapi berdasarkan kualifikasi.

Setelah membaca seluruh mekanisme ini, Anthropic sedang melakukan satu hal: menjadikan dirinya sendiri sebagai "pengelola lisensi bertingkat" di bidang model besar.

Ini adalah perbedaan mendasar dalam pendekatannya dibandingkan OpenAI.

Logika OpenAI adalah "rilis terlebih dahulu, perbaiki kemudian".

Logika Anthropic adalah "klasifikasi terlebih dahulu, lalu rilis".

Jalan mana yang benar? Belum ada jawabannya sekarang. Tetapi pasar akan memberikan suara dengan dompet.

Tujuh: "Kenaikan harga lunak" bagi pengguna berlangganan

Model baru tersedia sepenuhnya di API dan versi perusahaan.

Cara menangani pengguna berlangganan lebih menarik: uji coba gratis hingga 22 Juni, setelah 23 Juni beralih ke pembayaran dengan poin. Masukkan ke langganan reguler setelah daya komputasi mencukupi.

Translate into what?

Ini adalah kenaikan harga secara perlahan seperti katak yang direbus perlahan.

Pertama Anda diberi manfaat manis, lalu diminta membayar. Saat ini kapasitas produksi belum mencukupi, sehingga fitur高端 dibuat sebagai solusi sementara "bayar sesuai penggunaan".

Ini sudah lama dimainkan oleh penyedia cloud seluler. Sekarang perusahaan model besar juga mulai menempuh jalan ini.

Langganan bukan lagi "bayar bulanan, pakai sepuasnya". Ia sedang berubah menjadi struktur "paket dasar + pembelian berdasarkan penggunaan".

Apakah ini sebuah kemunduran?

Tidak. Ini adalah bentuk matang yang telah teruji berulang kali selama tiga puluh tahun di industri SaaS. Perusahaan model besar mulai mengembangkan pola pendapatan dewasa.

Delapan, Bagaimana tata kelola industri berubah setelah Fable 5

Mari kita perluas perspektif kita.

Pada November 2025, Opus 4.5 dirilis. Anthropic memperkuat posisinya di "golongan teratas model kode".

Pada paruh pertama tahun 2026, GPT-5.5 diluncurkan. Pasar mengalami penyesuaian pertama yang jelas terhadap ekspektasi terhadap OpenAI.

9 Juni 2026 (Selasa, waktu Pantai Barat AS), Fable 5 + Mythos 5 diluncurkan secara bersamaan.

Tujuh bulan. Urutan tiga produsen teratas telah diurutkan ulang.

Ini bukan berarti OpenAI kalah. Video, suara, dan produk konsumen OpenAI tetap kuat. Tetapi di pasar perusahaan, dalam kode, dan dalam penelitian, Anthropic kali ini memperoleh jarak terdepan.

Bagaimana dengan Google? Tidak ada yang membahasnya. Ini sendiri sudah merupakan sinyal.

Bagaimana dengan produsen domestik? Tidak ada yang membahasnya. Tapi mereka pasti begadang.

Migrasi kode, penalaran ilmiah, agen visual—ketiga bidang ini adalah arah utama ledakan Fable 5. Di belakang ketiga arah ini terdapat tiga pasar aplikasi bernilai triliunan dolar.

Siapa yang bisa mengikuti ritme ketiga hal ini, dia masih berada di meja. Yang tidak bisa mengikuti, akan mengalami kesulitan dalam setahun ke depan.

Sembilan, Beberapa Pertanyaan yang Belum Terjawab

Sampai di sini, harus diakui ada beberapa pertanyaan yang belum memiliki jawaban.

Pertama, apakah perilaku "self-verification" dari Fable 5 dapat tetap stabil dalam konteks panjang dan percakapan multi-putaran? Anthropic memberikan demo dan umpan balik pelanggan awal, bukan data secara statistik.

Kedua, bagaimana efektivitas penerapan Mythos 5 di 200 institusi? Informasi ini dirahasiakan secara ketat. Saat ini, kami hanya dapat melihat kemampuan versi publik.

Ketiga, kapan serangan balik dari pesaing akan datang? OpenAI tidak akan diam, Google juga tidak. Paruh kedua tahun kemungkinan besar akan menjadi gelombang peluncuran berikutnya.

Keempat, apakah harga akan turun lagi? Harga 10/50 masih terlalu mahal untuk UMKM. Ketika daya komputasi lebih lanjut dilepaskan, apakah akan muncul harga 5/25? Atau lebih rendah?

These questions, no one can answer right now.

Tetapi ada satu hal yang pasti.

Sepuluh, Penutup

Industri model besar memasuki tahap baru.

Dulu yang dibandingkan adalah "siapa yang lebih cerdas".

Sekarang yang dibandingkan adalah "siapa yang lebih dapat dikendalikan".

Masa depan adalah tentang siapa yang bisa membuat pelanggan tidur lebih nyenyak.

Fable 5 bukanlah akhir. Ini hanyalah jawaban baru yang diberikan Anthropic kepada industri.

Informasi utama dari kuesioner ini sangat sederhana:

Kemampuan akan terus tumbuh secara eksponensial.

Tetapi izin akan dibagi semakin halus.

Harga akan turun perlahan.

Kepercayaan akan menjadi hal yang paling mahal.

Siapa yang akan tertawa terakhir?

I don't know.

Namun pada saat ini, Anthropic berada di posisi yang baik.

It didn't say "We want AGI".

It simply and seriously split one model into two parts.

Untuk semua orang.

Sebuah surat untuk "orang yang dipercaya".

Kendali semacam ini, di industri AI hari ini, hampir merupakan kemewahan.

Sedangkan barang mewah, selalu tidak murah.

Reference materials

  1. Anthropic.Memperkenalkan Claude Fable 5 dan Claude Mythos 5. Blog resmi Anthropic, 9 Juni 2026.
  2. Anthropic. The Glasswing Program: Restricted Access to Frontier Capabilities. Dokumen kebijakan Anthropic, Juni 2026.
  3. Tim Benchmark FrontierCode. Hasil Evaluasi Kesulitan Diamond: Juni 2026. Papan Peringkat FrontierCode, Juni 2026.
  4. Stripe Engineering. Migrating 50 Million Lines of Ruby in a Day with Claude Fable 5. Stripe technical blog, June 9, 2026.
  5. Cherny, Boris. Claude Fable 5: From Coding Agent to Thinking Partner. Author's personal blog and X platform posts, June 9, 2026.
  6. Dyno Therapeutics mengungkapkan bahan penelitian kolaboratif, hasil eksperimen kontrol tentang prediksi perakitan kapsid adenovirus, Mei–Juni 2026.
  7. Penn, Dianne. Pernyataan wawancara media mengenai data umpan balik pelanggan terkait penetapan harga Fable 5 dan konsumsi token, 9 Juni 2026.
  8. Anthropic.Opus 4.5 Release Notes. Rilis resmi dari Anthropic, November 2025.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.