Claude dari Anthropic Sekarang 'Bermimpi' untuk Meningkatkan Kinerja Agen AI

Apakah android bermimpi? Jika mereka bermimpi, apakah mereka memimpikan domba elektronik?

Subkuadratik

Screenshot dari film Blade Runner

Pada tahun 1968, ketika penulis novel asli film fiksi ilmiah Blade Runner, Philip K. Dick, mengetik pertanyaan yang abstrak dan maju ini di mesin ketiknya, ia kemungkinan besar tidak pernah membayangkan bahwa lebih dari setengah abad kemudian, raksasa teknologi di Silicon Valley akan memberikan jawaban dengan serius.

Ya, mereka tidak hanya bisa bermimpi tentang domba elektronik, tetapi juga bisa memvisualisasikan mimpi tersebut.

Kemarin, Anthropic meluncurkan serangkaian fitur baru untuk platform pembangunan agen Managed Agents di konferensi pengembang di San Francisco, termasuk perluasan memori, output hasil, kolaborasi multi-agen, serta 'mimpi (Dreaming)'.

Menurut Anthropic sendiri, "memory (memori) dan dreaming (mimpi) bersama-sama membentuk sistem memori agen yang kokoh dan mampu meningkatkan diri sendiri."

Subkuadratik

Lagi-lagi mimpi, lagi-lagi ingatan, teman-teman yang tidak terlalu memperhatikan bidang AI mungkin akan bingung, kata-kata yang merupakan milik manusia ini, kapan mulai bisa digunakan dengan begitu mulus pada AI.

Saat OpenAI meluncurkan seri o1 pada tahun 2024, "serangkaian model AI yang dirancang untuk menghabiskan lebih banyak waktu berpikir sebelum merespons", kata "berpikir" digunakan dengan sangat alami, hingga tak ada yang berhenti untuk bertanya, bagaimana mungkin sebuah program yang memprediksi token berikutnya secara statistik bisa disebut berpikir?

Selanjutnya adalah reasoning (penalaran), memory (memori), reflection (refleksi), imagining (imajinasi), satu per satu membawa hal-hal yang hanya bisa dilakukan manusia ke acara peluncuran produk.

Subkuadratik

Tangkapan layar film Dream's Paprika

“Berpikir” masih bisa dijelaskan sebagai metafora, “ingatan” juga bisa dianggap sebagai perluasan istilah teknis, tetapi “mimpi” benar-benar berlebihan. Selama ribuan tahun, ilmu sastra, sejarah, dan filsafat belum mampu mengungkapnya, namun perusahaan AI langsung mengklaim: kami tidak hanya menciptakan mesin yang bisa berpikir, kami juga menciptakan mesin yang bisa bermimpi.

Apa itu bermimpi, apakah tidak ada istilah teknis lain yang bisa menggambarkan hal ini dengan tepat selain bermimpi?

AI bermimpi pun harus mengeluarkan uang

Saat kebocoran kode Claude Code, pengguna internet menemukan bahwa Anthropic sedang mempersiapkan fitur bernama Auto Dreaming. Pada saat itu, semua orang bertanya-tanya, apakah AI juga seperti manusia, memerlukan tidur dan istirahat yang cukup agar menjadi lebih fokus dan lebih cerdas?

Subkuadratik

Namun, dengan memahami cara kerja AI Agent saat ini, akan terlihat bahwa apa yang disebut "mimpi" pada dasarnya hanyalah pemrosesan batch log offline otomatis.

Agen AI sekarang ahli dalam menyelesaikan tugas kompleks dengan rantai panjang. Misalnya, "Tolong teliti laporan keuangan terbaru dari lima pesaing ini dan susun dalam tabel." Dalam proses ini, Agen perlu beralih di antara berbagai halaman web, membaca beberapa dokumen, memanggil berbagai alat, bahkan mungkin menghadapi hambatan karena mekanisme anti-scraping dan harus mencoba ulang.

Setelah serangkaian tugas online yang panjang dan rumit selesai, agent akan meninggalkan sejumlah besar log operasional di latar belakang.

Subkuadratik

Gambar dihasilkan oleh AI

Fitur "bermimpi" dari Anthropic memungkinkan Agent untuk menyusun ulang riwayat tersebut selama waktu luang. Agent akan mencari pola di dalamnya, misalnya menemukan "setiap kali menghadapi jendela pop-up semacam ini, klik sudut kanan atas untuk menutupnya", sehingga mengoptimalkan jalur operasi berikutnya.

「Memori» bertanggung jawab menangkap hal-hal yang dipelajari selama bekerja, sementara «mimpi» merangkum memori-memori ini di antara sesi, serta berbagi di antara berbagai Agent.

Secara sederhana, ini adalah mekanisme pembelajaran penguatan dan koreksi diri berdasarkan data historis.

Subkuadratik

Perkenalan Dream: https://platform.claude.com/docs/en/managed-agents/dreams

Pembaruan Dreams di Managed Agents dalam konferensi pengembang ini adalah tugas pemrosesan latar belakang yang perlu kita picu secara manual. Claude dapat membaca hingga 100 sesi riwayat percakapan sekaligus, lalu menghasilkan memori baru yang dapat kami tinjau sebelum memutuskan apakah akan menggunakannya atau tidak.

Sementara itu, AutoDream yang sebelumnya telah diluncurkan diam-diam di Claude Code akan memeriksa secara latar belakang setiap selesai berinteraksi dengan Agent, apakah sebaiknya "bermimpi"—secara default berjalan setiap 24 jam.

Fitur serupa mimpi juga dimiliki oleh Hermes Agent. Hermes Agent unggul dalam kemampuan belajar dan berkembang sendiri, tidak hanya mendukung otomatisasi dalam merangkum pengalaman dari tugas-tugas sebelumnya dan menyimpannya di file memori.

Subkuadratik

Salah satu fitur bernama Curator juga dapat secara otomatis mengatur panduan operasi yang telah diringkas menjadi Skill.

Skill-skills ini akan dinilai, yang duplikat akan digabungkan, yang tidak digunakan dalam jangka panjang akan diarsipkan secara otomatis, bahkan memiliki siklus hidup seperti active, stale, dan archived. Kami juga dapat menempelkan Skill penting agar tidak dihapus secara otomatis oleh sistem.

OpenClaw juga menambahkan mekanisme terkait dalam beberapa pembaruan terakhir, seperti memori persisten lintas percakapan, penjadwalan tugas berkala, eksekusi terisolasi Sub-Agent, serta fitur mimpi langsung bernama Dreaming.

Subkuadratik

Mimpi OpenClaw: https://docs.openclaw.ai/concepts/dreaming

Dalam mekanisme mimpi OpenClaw, perjalanan mimpi dirangkum menjadi tiga tahap: light, REM, deep. Dua tahap pertama bertanggung jawab untuk mengatur, merefleksikan, dan mengelompokkan tema, sementara deep lah yang benar-benar menulis konten ke memori jangka panjang MEMORY.md.

Subkuadratik

Penguatan tahap tidur dalam ditentukan oleh enam sinyal berbobot apakah perlu ditulis ke memori jangka panjang. Keenam sinyal tersebut meliputi frekuensi, relevansi, keragaman kueri, aktualitas, pengulangan lintas hari, dan kekayaan konsep.

Subkuadratik

Gambar dihasilkan oleh AI

Penulisan ke memori jangka panjang akan menghasilkan dua file, satu file status yang ditujukan untuk mesin, ditempatkan di memory/.dreams/; dan satu catatan yang dapat dibaca pengguna, ditulis ke DREAMS.md dan laporan yang dihasilkan berdasarkan tahapannya.

Selain itu, Dreaming dapat dijalankan secara otomatis sesuai jadwal, secara default menjalankan seluruh proses sekali setiap hari pukul 3 pagi, dengan urutan light → REM → deep.

Selain output mimpi, OpenClaw juga memelihara dokumen bernama Dream Diary, di mana sistem secara otomatis menghasilkan sebuah "dream diary" yang mencatat proses pengorganisasian memori dalam bentuk naratif, menekankan kejelasan dan dapat diaudit, bukan sebagai black box database.

Dalam ilmu saraf, ada pemahaman klasik: informasi yang diperoleh manusia di siang hari masuk terlebih dahulu ke sistem penyimpanan sementara; selama tidur, otak akan memutar ulang, memperkuat, dan membersihkan informasi ini, menyimpan yang penting dan membuang yang tidak bermakna.

Subkuadratik

Gambar dihasilkan oleh AI

Kami tidak akan mengingat warna setiap mobil di jalan saat pergi bekerja kemarin, tetapi akan mengingat cara pergi ke kantor.

Mimpi-mimpi ini, terdengar sama seperti mimpi yang kita alami sebagai manusia; jika harus mencari perbedaan, mungkin hanya bahwa ketika Claude bermimpi, ia tetap mengonsumsi Token kita.

Namun, Anthropic dan OpenClaw tidak memilih menyebutnya sebagai “session-based optimization” atau “post-task tuning”, nama-nama yang lebih bersifat teknis.

Setelah semua, ketika nama-nama rumit itu langsung diubah menjadi 'mimpi', yang kita rasakan bukan lagi fitur perangkat lunak, melainkan seperti 'kehidupan digital yang memiliki aktivitas batin'.

Memori AI adalah konteks yang sepele

Karena telah disebutkan "mimpi", maka tidak bisa dihindari untuk membahas syarat sebelumnya, yaitu memori (Memory).

Dalam periode terakhir, kata paling populer di dunia AI berubah dari prompt engineering menjadi context engineering, skill engineering, dan harness engineering, tetapi bagaimanapun perubahannya, yang paling berharga saat ini tetaplah context engineering.

Sistem prompt, input pengguna, percakapan jangka pendek, memori jangka panjang, dokumen yang diambil kembali, output dari pemanggilan alat dan keterampilan, serta status pengguna saat ini, lapisan-lapisan ini digabungkan membentuk "konteks" yang sebenarnya digunakan oleh agen.

Membuat Agent dapat mengingat lebih banyak dan mencatat hal-hal yang lebih berguna telah menjadi tantangan selama periode waktu yang lama.

Subkuadratik

Manus tahun lalu menerbitkan sebuah blog teknis yang secara khusus membahas bagaimana Manus mengoptimalkan rekayasa konteks. Di dalamnya disebutkan bahwa tingkat keberhasilan cache KV-Cache didefinisikan sebagai salah satu indikator tunggal paling penting untuk AI Agent di lingkungan produksi. Sementara itu, pada tingkat pemanggilan alat, prioritas diberikan pada "pengaburan" daripada "penghapusan"; serta menggunakan sistem file sebagai konteks utama.

Untuk memahami apa yang disebut KV Cache (cache kunci-nilai), kita bisa membayangkan model besar sebagai seorang penderita obsesif-kompulsif ekstrem yang hanya bisa membaca satu huruf sekaligus.

Ketika memproses sebuah kalimat, ia menghitung vektor Key (kunci) dan Value (nilai) untuk setiap token yang dihasilkan. Untuk menghindari perhitungan ulang dari awal setiap kali, ia menyimpan pasangan kunci-nilai (K, V) ini, yang dikenal sebagai KV Cache.

Subkuadratik

KV Cache (key-value cache) adalah teknik akselerasi dasar yang digunakan model besar dalam menghasilkan teks untuk "mengorbankan ruang demi waktu". Cache memungkinkan model untuk memprediksi kata berikutnya tanpa harus menghitung ulang semua kata sebelumnya. Gambar dihasilkan oleh AI.

Selama percakapan berlanjut, KV Cache akan terus disimpan. Secara umum, ketika menghadapi model besar dengan konteks hingga 128k, model dengan 70 miliar parameter yang menjalankan konteks penuh 128k hanya untuk KV Cache saja bisa menghabiskan 64 GB memori GPU.

Inilah mengapa jendela konteks sebagian besar model saat ini paling banyak mencapai jutaan.

Kemarin, perusahaan baru Subquadratic yang mendapatkan pendanaan seri seed sebesar $29 juta merilis model SubQ baru di X, dengan fokus pada konteks yang lebih panjang.

Subkuadratik

SubQ menyatakan mendukung jendela konteks hingga 12 juta token, yang merupakan jendela konteks terbesar saat ini di semua model besar.

Meskipun belum ada makalah teknis atau dokumen penjelasan model, video pengenalan menyebutkan bahwa jalur teknis inti SubQ berpindah dari «perhatian padat» pada Transformer tradisional ke arsitektur «subkuadratik / linier» dengan perhatian jarang. Arsitektur baru ini diharapkan dapat menyelesaikan masalah biaya komputasi yang meledak seiring meningkatnya panjang konteks.

Subkuadratik

Hasil pengujian yang diberikan juga sangat agresif: di bawah 1 juta token, kecepatan meningkat lebih dari 50 kali lipat dan biaya berkurang lebih dari 50 kali lipat; pada 12 juta token, kebutuhan daya komputasi dapat berkurang hampir 1000 kali lipat dibandingkan model terdepan.

Pada benchmark konteks panjang RULER 128K, Subquadratic menyatakan bahwa SubQ mencapai akurasi 95% dengan biaya 8 dolar, dibandingkan dengan akurasi 94% dan biaya sekitar 2.600 dolar dari Claude Opus, mengurangi biaya sekitar 300 kali lipat.

Atau perbesar jendela konteks, atau biarkan model belajar bermimpi dan membuang beberapa hal sendiri.

Inilah mengapa produk Agent seperti Anthropic kini harus meluncurkan Dreaming. Dalam kondisi jendela konteks yang terbatas, AI yang lebih cerdas tidak bisa hanya mengandalkan penambahan konten yang lebih banyak, tetapi juga perlu bertindak secara terfokus.

Mengakui bahwa mesin hanyalah mesin, lebih sulit dari yang dibayangkan

Dengan memahami mekanisme mimpi dan memori AI, kita mungkin dapat mengetahui hubungannya dengan aktivitas manusia.

Namun, ketika menggabungkan semua istilah yang dibuat oleh perusahaan AI ini untuk digunakan pada mesin—thinking pemikiran dari OpenAI, memory memori dan hallucination ilusi yang umum di industri, dreaming mimpi dari Anthropic kali ini, serta kebajikan dan kebijaksanaan dalam konstitusi Anthropic.

Kita dapat melihat bahwa perusahaan AI tidak hanya menjual produk, tetapi juga merebut kepemilikan kata-kata dalam konsep "manusia". Setiap kali sebuah kata diambil alih, batas antara mesin dan manusia menjadi semakin kabur.

Subkuadratik

Bahasa membentuk harapan, harapan membentuk tingkat toleransi, dan tingkat toleransi menentukan seberapa banyak hal yang bersedia kita serahkan kepadanya. Ini adalah rantai yang panjang, tetapi titik awalnya adalah kata-kata tak berbahaya di acara peluncuran.

Dampak tersembunyi lainnya adalah alokasi tanggung jawab. Ketika alat digambarkan sebagai entitas yang memiliki 'pemikiran', 'memori', dan 'nilai', ketika terjadi masalah, kita secara alami akan memperlakukannya sebagai 'agen independen' yang harus dituntut pertanggungjawabannya, sehingga AI ini perlu 'dididik', 'diperbaiki', dan 'dikalibrasi'.

Yang seharusnya ditanyakan lebih lanjut adalah perusahaan yang menerapkan program ini ke dalam alur kerja kami, dan tim produk yang menulis kata “dreaming”. Kata itu diganti, orang yang duduk di kursi terdakwa pun berubah.

Sementara kita melihat mesin yang bisa "berpikir", bisa "mengingat", dan sekarang bahkan bisa " Bermimpi", kita mulai secara tidak sadar percaya bahwa ada sesuatu di dalamnya. Karena mengakui bahwa ini hanyalah sebuah mesin, pengalaman "saya sedang berbicara dengan entitas yang bisa berpikir" akan hilang, dan kembali ke hubungan alat yang dingin dan kaku.

Subkuadratik

Fitur White Day Dream | Gambar dihasilkan oleh AI

Saya sudah memikirkannya, Dreaming (mimpi) menangani konten masa lalu, selanjutnya perusahaan AI akan meluncurkan Daydreaming (mimpi siang), untuk mempraktikkan masa depan.

Intinya, mimpi siang atau kehilangan konsentrasi memungkinkan Agent dalam keadaan aktif untuk menggunakan sebagian kecil daya komputasi yang menganggur, dikombinasikan dengan proyek yang sedang berlangsung, sekaligus melakukan generasi eksploratif untuk mempersiapkan tugas-tugas masa depan yang mungkin terjadi.

Artikel ini berasal dari akun WeChat "APPSO", penulis: APPSO yang menemukan produk masa depan