Para Ahli Membahas Dampak OpenClaw terhadap Agen AI dan Tantangan Komputasi

Penulis: Chen Junda

Laporan Zhixidong pada 27 Maret, hari ini, di Forum Zhongguancun, Zhang Peng, CEO Zhipu; Yang Zhilin, CEO Moonshot (bertindak sebagai moderator); Luo Fuli, pemimpin model besar MiMo Xiaomi; Xia Lixue, CEO Wuwen Xinqiong; dan Profesor Asisten Huang Chao dari Universitas Hong Kong secara langka tampil bersama dalam sebuah dialog mendalam tentang masa depan model besar open-source dan agen cerdas.

Percakapan ini dimulai dengan OpenClaw yang sedang paling populer saat ini, di mana beberapa tamu sepakat bahwa agen membuat model besar mulai benar-benar "bekerja". OpenClaw memperluas batas kemampuan model besar, tetapi juga menuntut lebih banyak dari model tersebut; Zhipu sedang meneliti kemampuan seperti perencanaan jangka panjang dan penyesuaian mandiri, sementara tim Luo Fuli lebih fokus pada inovasi arsitektur untuk menurunkan biaya, meningkatkan kecepatan, bahkan mencapai evolusi mandiri model.

Infrastruktur juga harus mengikuti ritme agen. Xia Lixue percaya bahwa sistem komputasi dan arsitektur perangkat lunak saat ini masih dirancang untuk manusia, bukan untuk agen—sebenarnya, kemampuan operasional manusia membatasi ruang berkembangnya agen. Oleh karena itu, kita perlu membangun Agentic Infra.

Dalam pandangan beberapa tamu, open source merupakan salah satu kekuatan utama yang mendorong perkembangan model besar dan agen. Asisten profesor di Universitas Hong Kong, Huang Chao, berpendapat bahwa kemakmuran ekosistem open source merupakan kunci bagi agen untuk berpindah dari sekadar “main-main” menjadi benar-benar menjadi “pekerja”. Hanya melalui kolaborasi komunitas, perangkat lunak, data, dan teknologi dapat sepenuhnya beralih ke bentuk asli agen, sehingga membentuk ekosistem AI global yang berkelanjutan.

Selain itu, beberapa tamu juga membahas topik-topik seperti kenaikan harga model besar, ledakan penggunaan token, dan kata kunci AI untuk 12 bulan ke depan. Berikut adalah poin-poin utama dari forum meja bundar ini:

1. Zhang Peng: Setelah model menjadi lebih besar, biaya inferensi juga akan meningkat secara sepadan. Strategi kenaikan harga baru-baru ini dari Zhipu sebenarnya kembali ke nilai bisnis yang wajar; persaingan harga rendah jangka panjang tidak bermanfaat bagi perkembangan industri.

2. Zhang Peng: Ledakan teknologi baru seperti agen cerdas telah meningkatkan penggunaan token sebesar 10 kali, tetapi permintaan aktual mungkin meningkat 100 kali, sehingga masih ada banyak permintaan yang belum terpenuhi; oleh karena itu, daya komputasi tetap menjadi masalah kunci dalam 12 bulan ke depan.

3. Luo Fuli: Dari perspektif produsen model dasar besar, OpenClaw menjamin batas bawah model dasar besar dan meningkatkan batas atas. Tingkat penyelesaian tugas model sumber terbuka domestik + OpenClaw kini sangat mendekati Claude.

4. Luo Fuli: DeepSeek memberikan keberanian dan kepercayaan kepada produsen model besar di dalam negeri. Beberapa inovasi struktur model yang tampaknya merupakan kompromi demi efisiensi telah memicu perubahan nyata, memungkinkan industri mencapai tingkat kecerdasan tertinggi dalam kondisi daya komputasi yang terbatas.

5. Luo Fuli: Hal terpenting dalam perjalanan AGI tahun depan adalah "evolusi mandiri". Evolusi mandiri memungkinkan model besar untuk menjelajah seperti ilmuwan puncak, dan merupakan satu-satunya cara untuk "menciptakan hal baru". Xiaomi telah meningkatkan efisiensi penelitian sebesar 10 kali lipat dengan memanfaatkan Claude Code + model puncak.

6. Xia Lixue: Ketika era AGI tiba, infrastruktur itu sendiri seharusnya menjadi agen, mengelola seluruh infrastruktur secara mandiri, mengiterasi infrastruktur berdasarkan kebutuhan klien AI, dan mencapai evolusi serta iterasi mandiri.

7. Xia Lixue: OpenClaw memicu ledakan penggunaan token. Saat ini, kecepatan konsumsi token terasa seperti di era 3G ketika kuota data ponsel baru mulai diperkenalkan, dengan hanya 100MB per bulan.

8. Huang Chao: Di masa depan, banyak perangkat lunak tidak lagi dirancang untuk manusia; perangkat lunak, data, dan teknologi akan berbentuk Agent-Native, dan manusia mungkin hanya perlu menggunakan GUI yang "membuat mereka bahagia".

Berikut adalah transkrip lengkap forum meja bundar ini:

01. OpenClaw adalah "kerangka kerja", konsumsi token model besar masih berada di era 3G

Yang Zhilin: Saya sangat senang hari ini dapat mengundang para tamu istimewa ini, beberapa di antaranya berasal dari lapisan model, lapisan komputasi, hingga lapisan agen. Kata kunci utama hari ini adalah open source, kemudian agen.

Pertanyaan pertama, mari bahas OpenClaw yang paling populer saat ini. Apa saja hal yang paling imajinatif atau mengesankan menurut Anda dalam penggunaan sehari-hari OpenClaw atau produk serupa? Dari sudut pandang teknis, bagaimana Anda melihat perkembangan OpenClaw dan Agent terkait saat ini?

Zhang Peng: Saya sudah lama mulai bermain OpenClaw sendiri, saat itu masih disebut Clawbot. Saya sendiri yang mencoba-coba, mengingat latar belakang saya sebagai programmer, saya memiliki pengalaman sendiri dalam hal ini.

Saya merasa terobosan terbesar atau sensasi baru yang dibawa oleh OpenClaw bagi semua orang adalah bahwa ia bukan lagi eksklusif bagi para programmer atau geek. Orang biasa juga dapat dengan mudah memanfaatkan kemampuan model unggulan, terutama dalam hal pemrograman dan agen.

Jadi, sejauh ini dalam proses berkomunikasi dengan semua orang, saya lebih suka menyebut OpenClaw sebagai "perancah". Ia menyediakan sebuah kemungkinan, membangun perancah yang kuat, nyaman, namun sangat fleksibel di atas dasar model. Anda dapat menggunakan berbagai fitur baru yang disediakan oleh model dasar sesuai keinginan Anda.

Dulu, ide saya sendiri mungkin terbatas karena tidak bisa menulis kode atau tidak menguasai keterampilan terkait lainnya, tetapi hari ini dengan OpenClaw, akhirnya saya bisa menyelesaikannya hanya dengan komunikasi yang sangat sederhana.

OpenClaw memberi saya dampak yang sangat besar, atau membuat saya memahami kembali hal ini.

Xia Lixue: Sebenarnya saat pertama kali saya menggunakan OpenClaw, saya tidak terbiasa, karena saya terbiasa berinteraksi dengan model besar, dan setelah menggunakannya, saya merasa OpenClaw bereaksi sangat lambat.

Namun, kemudian saya menyadari satu masalah, yaitu ia memiliki perbedaan besar dibandingkan chatbot sebelumnya, pada dasarnya adalah "orang" yang bisa membantu saya menyelesaikan tugas besar. Saya mulai mengirimkan tugas yang lebih kompleks kepadanya, dan menemukan bahwa sebenarnya ia bisa melakukannya dengan sangat baik.

Hal ini memberi saya dampak yang besar. Model awalnya berinteraksi berdasarkan token, kini telah berubah menjadi agen, bahkan bisa berubah menjadi lobster untuk membantu Anda menyelesaikan tugas. Hal ini secara signifikan memperluas ruang imajinasi keseluruhan untuk AI.

Sementara itu, persyaratan terhadap kemampuan keseluruhan sistem juga menjadi sangat tinggi. Inilah mengapa pada awalnya saya menggunakan OpenClaw, saya merasakannya agak lag. Sebagai pemasok lapisan infrastruktur, saya melihat bahwa OpenClaw membawa lebih banyak peluang dan tantangan bagi sistem dan ekosistem besar di balik AI.

Sumber daya yang kami miliki saat ini tidak cukup untuk mendukung era pertumbuhan pesat seperti ini. Sebagai contoh, berdasarkan perusahaan kami, sejak akhir Januari, penggunaan token kami hampir berlipat ganda setiap dua minggu, dan kini telah meningkat sekitar 10 kali lipat.

Terakhir kali saya melihat kecepatan ini, saat masih menggunakan ponsel 3G yang menghabiskan kuota data. Saya merasa, penggunaan token saat ini seperti era dulu ketika kita hanya punya 100MB kuota data per bulan.

Dalam situasi ini, semua sumber daya kita perlu dioptimalkan dan diintegrasikan dengan lebih baik, sehingga setiap orang, tidak hanya di bidang AI, tetapi setiap individu dalam masyarakat secara keseluruhan, dapat memanfaatkan kemampuan AI OpenClaw.

Sebagai pemain infrastruktur, saya sangat bersemangat dan sangat terkesan dengan era ini. Saya juga percaya masih banyak ruang untuk optimasi yang perlu kita eksplorasi dan coba.

02. OpenClaw meningkatkan batas atas model lokal, mode interaktif memiliki makna penting

Luo Fuli: Saya sendiri memandang OpenClaw sebagai peristiwa yang sangat revolusioner dan mengguncang dalam proses evolusi kerangka kerja agent.

Sebenarnya, semua orang di sekitar saya yang melakukan coding sangat mendalam masih memilih Claude Code sebagai pilihan utama. Namun, saya yakin pengguna OpenClaw akan merasakan bahwa banyak desainnya dalam kerangka Agent lebih unggul daripada Claude Code. Baru-baru ini, banyak pembaruan pada Claude Code sebenarnya sedang bergerak mendekati OpenClaw.

Saat saya menggunakan OpenClaw sendiri, saya merasa kerangka ini memberi saya lebih banyak kemampuan untuk memperluas imajinasi saya kapan saja dan di mana saja. Claude Code awalnya hanya bisa memperluas kreativitas saya di desktop saya, tetapi OpenClaw dapat memperluas kreativitas saya kapan saja dan di mana saja.

Nilai inti yang dibawa oleh OpenClaw terutama ada dua. Pertama, ia bersifat open source. Keberadaan open source sangat mendukung partisipasi mendalam seluruh komunitas, serta menghargai dan mendorong perkembangan kerangka ini, yang merupakan prasyarat penting.

Framework AI seperti OpenClaw, menurut saya, nilai besar nya terletak pada kemampuannya untuk menaikkan batas atas model-model domestik yang tingkatnya hampir menyamai model tertutup, tetapi belum sepenuhnya mengejar.

Dalam sebagian besar skenario, Anda akan menemukan bahwa tingkat penyelesaian tugasnya (model open source lokal + OpenClaw) sudah sangat mendekati model terbaru Claude. Se同时, ia juga secara efektif menjamin batas bawah—melalui sistem Harness, atau dengan memanfaatkan desain berbagai aspek seperti sistem Skills, untuk menjamin integritas dan akurasi tugas.

Secara ringkas, dari perspektif pengembang pabrikan model dasar, OpenClaw menjamin batas bawah model dasar sekaligus meningkatkan batas atasnya.

Selain itu, menurut saya nilai lain yang dibawanya bagi seluruh komunitas adalah bahwa ia memicu kesadaran bahwa di luar model besar, lapisan Agent sebenarnya menyimpan ruang imajinasi yang sangat besar.

Saya baru-baru ini juga mengamati bahwa di komunitas, selain para peneliti, semakin banyak orang yang mulai terlibat dalam transformasi AGI, dengan lebih banyak orang mulai menggunakan framework agen yang lebih kuat seperti Harness dan Scaffold. Orang-orang ini, dalam beberapa hal, menggunakan alat-alat ini untuk menggantikan sebagian pekerjaan mereka, sekaligus melepaskan waktu mereka untuk berinvestasi dalam hal-hal yang lebih imajinatif.

Huang Chao: Saya rasa, dari segi mode interaksi, alasan utama OpenClaw bisa menjadi populer adalah karena ia memberikan pengalaman yang lebih "bernuansa manusia". Sebenarnya kami telah mengembangkan Agent selama satu atau dua tahun, tetapi sebelumnya, Agent seperti Cursor atau Claude Code lebih terasa sebagai "alat". Sementara OpenClaw, untuk pertama kalinya, mengintegrasikan dirinya melalui aplikasi pesan instan, sehingga menciptakan perasaan yang lebih dekat dengan "JARVIS pribadi" yang selalu kita impikan. Saya rasa ini mungkin merupakan terobosan dalam mode interaksi.

Selain itu, hal ini memberikan inspirasi bagi seluruh komunitas: kerangka kerja sederhana namun efisien seperti Agent Loop kembali terbukti layak. Se同时, ini juga membuat kita kembali mempertimbangkan satu pertanyaan: apakah kita benar-benar membutuhkan agen super yang serba bisa dan bisa melakukan segalanya, atau apakah kita lebih membutuhkan “pengelola kecil” yang lebih baik, seperti sistem operasi ringan atau kerangka kerja?

Gagasan yang dibawa oleh OpenClaw adalah melalui "sistem kecil" ini, atau "sistem operasi lobster" dan ekosistemnya, agar semua orang benar-benar memiliki sikap "bermain", sehingga dapat menggerakkan seluruh alat dalam ekosistem tersebut.

Dengan munculnya kemampuan seperti Skills dan Harness, semakin banyak orang dapat merancang aplikasi yang dirancang untuk sistem seperti OpenClaw, yang memberdayakan berbagai industri. Saya merasa hal ini secara alami sangat terkait erat dengan seluruh ekosistem open source. Menurut saya, kedua hal ini adalah pelajaran terbesar yang kami peroleh.

03. Model GLM baru dirancang khusus untuk "bekerja", kenaikan harga adalah kembalinya nilai bisnis yang wajar

Yang Zhilin: Ingin bertanya kepada Zhang Peng. Baru-baru ini saya melihat Zhipu meluncurkan model GLM-5 Turbo baru, dan saya memahami bahwa kemampuan Agentnya diperkuat secara signifikan. Bisakah Anda menjelaskan perbedaan antara model baru ini dan model-model lainnya? Selain itu, kami juga memperhatikan adanya strategi kenaikan harga, apa sinyal pasar yang tercermin dari hal ini?

Zhang Peng: Ini adalah pertanyaan yang bagus. Dua hari lalu kami memang melakukan pembaruan darurat, yang sebenarnya merupakan salah satu tahap dalam rute pengembangan kami, hanya saja kami memajukannya.

Tujuan utama adalah beralih dari “percakapan sederhana” menjadi “benar-benar bekerja” — ini juga merupakan hal yang secara umum dirasakan oleh banyak orang недавно: model besar tidak lagi hanya bisa berbicara, tetapi benar-benar bisa membantu orang bekerja.

Namun, kemampuan yang dibutuhkan di balik "melakukan tugas" sangat tinggi. Model harus mampu merencanakan tugas jangka panjang sendiri, terus-menerus mencoba dan mengoreksi kesalahan, memadatkan konteks, melakukan debugging, serta mungkin menangani informasi multimodal. Oleh karena itu, persyaratan kemampuan model ini berbeda dari model umum berbasis percakapan tradisional. GLM-5 Turbo secara khusus diperkuat di aspek-aspek ini, terutama seperti yang Anda sebutkan—membuatnya dapat melakukan tugas dan berjalan selama tujuh puluh dua jam tanpa henti, serta terus berulang; kami telah melakukan banyak upaya di dalamnya.

Selain itu, pengguna juga sangat memperhatikan masalah konsumsi token. Menugaskan model cerdas untuk menyelesaikan tugas kompleks akan menghabiskan jumlah token yang sangat besar. Orang biasa mungkin tidak menyadarinya secara mendalam, tetapi saat melihat tagihan, mereka akan melihat uang habis sangat cepat. Oleh karena itu, kami juga melakukan optimasi di bidang ini; ketika menghadapi tugas kompleks, model dapat menyelesaikannya dengan efisiensi token yang lebih tinggi. Secara keseluruhan, arsitektur model tetap merupakan arsitektur umum dengan kolaborasi multi-tugas, hanya saja kemampuannya diperkuat secara selektif.

Penyesuaian harga sebenarnya juga mudah dijelaskan. Tadi sudah disebutkan, sekarang bukan lagi sekadar mengajukan pertanyaan dan langsung mendapatkan jawaban; rantai penalaran di baliknya sangat panjang. Banyak tugas memerlukan interaksi dengan kode dan infrastruktur dasar, serta terus-menerus melakukan debug dan memperbaiki kesalahan, sehingga konsumsinya sangat besar. Jumlah token yang dibutuhkan untuk menyelesaikan tugas kompleks bisa saja sepuluh kali bahkan seratus kali lebih banyak daripada menjawab pertanyaan sederhana sebelumnya.

Jadi, harga perlu dinaikkan secara wajar, model pun menjadi lebih besar, sehingga biaya inferensi meningkat secara sepadan. Kami mengembalikannya ke nilai bisnis yang normal, karena persaingan harga rendah jangka panjang tidak mendukung perkembangan industri secara keseluruhan. Ini juga merupakan cara kami menciptakan siklus bisnis yang sehat, terus-menerus mengoptimalkan kemampuan model, dan memberikan layanan yang lebih baik kepada Anda.

04. Membangun pabrik token yang lebih efisien, infrastruktur itu sendiri juga harus menjadi Agent

Yang Zhi Lin: Saat ini, model open-source semakin banyak dan mulai membentuk ekosistem, di mana berbagai model dapat memberikan nilai lebih bagi pengguna di berbagai platform komputasi. Dengan ledakan penggunaan token, model besar sedang berpindah dari era pelatihan menuju era inferensi. Saya ingin bertanya kepada Li Xue, dari sudut pandang infrastruktur, apa arti era inferensi ini bagi Wuwen?

Xia Lixue: Kami adalah penyedia infrastruktur yang lahir di era AI, dan kini juga memberikan dukungan kepada Zhipu, Kimi, Mimo, dan lainnya, agar para pengguna dapat memanfaatkan pabrik token secara lebih efisien. Kami juga bekerja sama dengan banyak universitas dan lembaga penelitian.

Jadi, kami terus memikirkan satu hal: infrastruktur seperti apa yang dibutuhkan di era AGI? Dan bagaimana kami secara bertahap mewujudkan dan mengembangkanannya. Kami kini telah siap sepenuhnya untuk menangani masalah-masalah yang perlu diselesaikan di tahap jangka pendek, menengah, dan panjang.

Masalah paling langsung saat ini adalah apa yang baru saja dibahas semua orang—peningkatan drastis jumlah token yang dibawa oleh Open, yang menuntut peningkatan optimasi efisiensi sistem. Termasuk penyesuaian harga, sebenarnya juga merupakan bentuk respons terhadap kebutuhan ini.

Kami selalu mengatur dan menyelesaikan masalah melalui pendekatan integrasi perangkat lunak dan perangkat keras. Misalnya, kami telah mengintegrasikan hampir semua jenis chip komputasi, menghubungkan secara terpadu lebih dari selusin jenis chip berbeda di dalam negeri dan puluhan kluster komputasi berbeda. Ini dapat menyelesaikan masalah kelangkaan sumber daya komputasi dalam sistem AI; ketika sumber daya tidak mencukupi, cara terbaik adalah memanfaatkan semua sumber daya yang tersedia, lalu mengarahkan setiap unit komputasi ke titik-titik paling strategis untuk mencapai efisiensi konversi maksimal.

Jadi pada tahap ini, yang perlu kami selesaikan adalah bagaimana menciptakan pabrik token yang lebih efisien. Kami telah melakukan banyak optimasi, termasuk menyesuaikan secara optimal berbagai sumber daya seperti memori GPU pada model dan perangkat keras, serta mengeksplorasi apakah ada reaksi kimia yang lebih dalam antara struktur model dan perangkat keras terbaru. Namun, menyelesaikan masalah efisiensi saat ini sebenarnya hanya menciptakan pabrik token yang terstandarisasi.

Menghadapi era Agent, kami merasa ini belum cukup. Karena Agent lebih seperti manusia, Anda bisa memberinya sebuah tugas. Saya yakin bahwa banyak infrastruktur era komputasi awan saat ini dirancang untuk melayani sebuah program atau insinyur manusia, bukan untuk AI. Ini setara dengan membuat infrastruktur dengan antarmuka yang ditujukan untuk manusia, lalu menambahkan lapisan tambahan untuk menghubungkan Agent—cara ini sebenarnya membatasi ruang ekspresi Agent dengan kemampuan operasional manusia.

Sebagai contoh, agen mampu berpikir dan memulai tugas dalam milidetik, tetapi kemampuan dasar seperti K8s (kubernetes) sebenarnya belum siap untuk ini, karena tugas yang dimulai oleh manusia biasanya berlangsung dalam hitungan menit. Oleh karena itu, kami membutuhkan kemampuan yang lebih lanjut, yang kami sebut “Agentic Infra”, atau “pabrik token cerdas”—ini adalah apa yang sedang dikerjakan Wuwen Xinqiong.

Dari perspektif jangka panjang, ketika era AGI benar-benar tiba, kami percaya bahwa infrastruktur itu sendiri seharusnya menjadi agen. Pabrik yang kami bangun juga harus mampu berevolusi dan beriterasi sendiri, membentuk sebuah organisasi otonom. Ia setara dengan memiliki CEO, di mana CEO tersebut sebenarnya adalah sebuah agen, mungkin OpenClaw, yang mengelola seluruh infrastruktur, serta secara mandiri mengajukan kebutuhan dan mengiterasi infrastruktur berdasarkan permintaan klien AI. Dengan cara ini, AI dapat berinteraksi lebih baik satu sama lain. Kami juga sedang melakukan eksplorasi, seperti meningkatkan komunikasi antar agen dan kemampuan seperti Cache to Cache.

Jadi, yang selalu kami pikirkan adalah bahwa pengembangan infrastruktur dan AI seharusnya bukanlah keadaan yang terisolasi—saya menerima permintaan lalu mewujudkannya—melainkan harus menghasilkan reaksi kimia yang sangat kaya. Inilah yang dimaksud dengan sinergi nyata antara perangkat lunak dan perangkat keras, antara algoritma dan infrastruktur, serta misi yang selalu ingin dicapai oleh Wuwen Xinqiong. Terima kasih.

05. Inovasi yang mengorbankan efisiensi juga bermakna, DeepSeek memberikan keberanian dan kepercayaan diri kepada tim domestik

Yang Zhilin: Berikutnya saya ingin bertanya kepada Fuli. Baru-baru ini, Xiaomi memberikan kontribusi besar kepada komunitas melalui peluncuran model baru dan opensource teknologi di baliknya. Saya ingin bertanya, menurut Anda, apa keunggulan unik Xiaomi dalam pengembangan model besar?

Luo Fuli: Saya rasa kita bisa sementara meninggalkan topik keunggulan unik Xiaomi, dan lebih ingin membahas keunggulan keseluruhan tim-tim Tiongkok dalam pengembangan model besar. Saya merasa topik ini memiliki nilai yang lebih luas.

Sekitar dua tahun lalu, tim model dasar Tiongkok telah mencapai terobosan yang sangat baik—kami bagaimana mengatasi batasan komputasi rendah, terutama dalam kondisi bandwidth interkoneksi NVLink yang terbatas, dengan melakukan inovasi struktur model yang tampaknya “mengorbankan efisiensi”, seperti seri DeepSeek V2, V3, serta MoE, MLA, dll.

Namun, kami kemudian menyadari bahwa inovasi ini memicu sebuah transformasi: bagaimana mencapai tingkat kecerdasan tertinggi dalam kondisi daya komputasi terbatas. Ini adalah keberanian dan keyakinan yang diberikan DeepSeek kepada semua tim model dasar di dalam negeri. Meskipun hari ini chip buatan dalam negeri kami, terutama chip inferensi dan chip pelatihan, sudah tidak lagi terbatas oleh kendala ini, justru di bawah batasan inilah muncul eksplorasi baru terhadap arsitektur model yang menawarkan efisiensi pelatihan lebih tinggi dan biaya inferensi lebih rendah.

Seperti struktur-struktur terbaru seperti Hybrid Sparse dan Linear Attention, misalnya NSA dari DeepSeek dan KSA dari Kimi, Xiaomi juga memiliki HySparse yang dirancang untuk struktur generasi berikutnya. Semua ini merupakan inovasi struktur model yang berbeda dari generasi MoE, yang dirancang khusus untuk era Agent.

Mengapa saya merasa inovasi struktural sangat penting? Sebenarnya, jika orang-orang benar-benar menggunakan OpenClaw, mereka akan menemukan bahwa semakin sering digunakan, semakin mudah dan semakin cerdas alat ini. Salah satu prasyaratnya adalah panjang konteks inferensi. Konteks panjang telah menjadi topik yang kita bahas lama, tetapi sekarang apakah benar-benar ada model yang dapat berkinerja sangat baik, dengan performa kuat, dan biaya inferensi rendah dalam konteks panjang?

Sebenarnya banyak model bukan tidak mampu menangani konteks 1M atau 10M, tetapi karena biaya inferensi untuk konteks 1M, 10M terlalu mahal dan terlalu lambat. Hanya dengan menurunkan biaya dan meningkatkan kecepatan, kita dapat menyerahkan tugas-tugas bernilai produktivitas tinggi kepada model, menyelesaikan tugas yang lebih kompleks dalam konteks panjang, bahkan mencapai iterasi mandiri model.

Yang dimaksud dengan iterasi mandiri model adalah kemampuannya untuk berevolusi sendiri dalam lingkungan kompleks dengan memanfaatkan konteks yang sangat panjang. Evolusi ini bisa terjadi pada kerangka Agent itu sendiri, atau bahkan pada parameter model—karena saya percaya bahwa konteks itu sendiri sebenarnya merupakan bentuk evolusi parameter. Oleh karena itu, bagaimana mewujudkan arsitektur konteks panjang, serta bagaimana mencapai inferensi efisien dengan konteks panjang di sisi inferensi, merupakan persaingan yang komprehensif.

Selain fase pra-pelatihan yang telah saya sebutkan sebelumnya, yaitu merancang arsitektur yang efisien untuk konteks panjang—ini adalah masalah yang mulai kami eksplorasi sekitar satu tahun lalu. Sekarang, untuk benar-benar mencapai stabilitas dan performa batas atas yang tinggi dalam tugas jangka panjang, kami sedang mengembangkan paradigma inovatif di fase pasca-pelatihan.

Kami sedang memikirkan cara membangun algoritma pembelajaran yang lebih efektif, cara mengumpulkan teks yang benar-benar memiliki ketergantungan jangka panjang dalam konteks 1M, 10M, dan 100M di lingkungan nyata, serta menggabungkan data trajektori yang dihasilkan dari lingkungan kompleks. Ini adalah hal yang sedang kami lakukan dalam pasca-pelatihan.

Namun, dari perspektif jangka panjang, karena kemajuan pesat model besar itu sendiri ditambah dukungan kerangka Agent, seperti yang disebut Li Xue, permintaan inferensi telah meningkat hampir sepuluh kali lipat dalam periode terakhir. Lalu, apakah pertumbuhan penggunaan token keseluruhan tahun ini bisa mencapai 100 kali lipat?

Di sini muncul persaingan dimensi lain—kekuatan komputasi, atau chip inferensi, bahkan hingga ke energi. Jadi saya merasa, jika kita semua bersama-sama memikirkan masalah ini, saya mungkin akan belajar lebih banyak dari kalian semua. Terima kasih.

06. Agent memiliki tiga modul kunci, ledakan Agent ganda akan membawa dampak besar

Yang ZhiLin: Berbagi yang sangat insightful. Selanjutnya, saya ingin bertanya kepada Huang Chao, Anda telah mengembangkan proyek Agent berpengaruh seperti Nanobot dan memiliki banyak penggemar komunitas. Saya ingin bertanya, dari sudut pandang Harness atau aplikasi Agent, arah teknologi apa yang menurut Anda penting dan patut diperhatikan selanjutnya?

Huang Chao: Saya merasa jika teknologi Agent diabstraksikan, intinya terletak pada modul-modul Planning, Memory, dan Tool Use.

Pertama, bicarakan perencanaan. Masalah saat ini terutama terjadi pada tugas jangka panjang atau konteks yang sangat kompleks, seperti 500 langkah atau lebih, di mana banyak model tidak mampu melakukan perencanaan dengan baik. Saya merasa pada dasarnya model mungkin tidak memiliki pengetahuan implisit semacam ini, terutama di beberapa bidang vertikal yang kompleks. Oleh karena itu, ke depannya mungkin perlu mengkristalkan pengetahuan berbagai tugas kompleks ke dalam model, yang mungkin menjadi salah satu arahnya.

Tentu, Skill dan Harness juga某种程度上 membantu mengurangi kesalahan yang dibawa oleh Planning, karena menyediakan Skill berkualitas tinggi, yang pada dasarnya juga membimbing model untuk menyelesaikan beberapa tugas yang cukup sulit.

Mari kita bahas lagi tentang Memory. Memory memberikan kesan bahwa ia selalu mengalami masalah kompresi informasi yang tidak akurat dan pencarian yang tidak tepat. Terutama dalam tugas jangka panjang dan skenario kompleks, beban pada Memory akan meningkat drastis. Saat ini, proyek-proyek seperti OpenClaw sebenarnya menggunakan format Memory sederhana berbasis sistem file Markdown, yang berbagi file sebagai mekanisme utama. Di masa depan, Memory kemungkinan akan bergerak menuju desain berlapis dan perlu menjadi lebih universal.

Sejujurnya, mekanisme Memory saat ini sulit untuk dibuat universal—karena skenario Coding, skenario Deep Research, dan skenario multimodal memiliki perbedaan besar dalam modality data-nya; bagaimana melakukan pencarian dan pengindeksan Memory yang baik sekaligus tetap mempertahankan efisiensi, selalu menjadi sebuah kompromi.

Selain itu, sekarang OpenClaw telah sangat menurunkan ambang batas untuk membuat Agent, sehingga di masa depan mungkin tidak hanya ada satu "lobster". Saya melihat Kimi juga telah mengembangkan mekanisme seperti Agent Swarm, sehingga di masa depan setiap orang mungkin akan memiliki "sekelompok lobster".

Dibandingkan dengan satu lobster, peningkatan konteks yang dihasilkan oleh sekelompok lobster dapat dibayangkan, yang akan memberikan tekanan besar pada Memory. Saat ini, sebenarnya belum ada mekanisme yang baik untuk mengelola konteks yang dihasilkan oleh “sekelompok lobster”, terutama untuk skenario seperti Coding kompleks atau penemuan ilmiah, di mana baik model maupun arsitektur Agent sama-sama mengalami tekanan besar.

Mari kita bahas lagi tentang Penggunaan Alat, yaitu aspek Keterampilan. Masalah yang ada pada Keterampilan sekarang sebenarnya mirip dengan masalah yang pernah dihadapi MCP—MCP pada waktu itu mengalami masalah seperti kualitas yang tidak terjamin dan risiko keamanan. Kini Keterampilan menghadapi hal yang sama: meskipun tampaknya ada banyak Keterampilan, namun yang berkualitas tinggi sangat sedikit, dan Keterampilan berkualitas rendah dapat memengaruhi akurasi Agent dalam menyelesaikan tugas. Selain itu, ada juga masalah injeksi jahat. Oleh karena itu, dari sudut pandang Penggunaan Alat, mungkin diperlukan peran komunitas untuk memperbaiki seluruh ekosistem Keterampilan, bahkan membuat Keterampilan mampu berevolusi secara mandiri selama proses eksekusi untuk menghasilkan Keterampilan baru.

Secara keseluruhan, dari Planning, Memory hingga Tool Use, ini adalah beberapa tantangan yang ada saat ini pada Agent, sekaligus arah potensial untuk masa depan.

07. Kata kunci 12 bulan mendatang: ekosistem, token berkelanjutan, evolusi mandiri, dan daya komputasi

Yang ZhiLin: Dapat dilihat bahwa dua tamu membahas masalah yang sama dari sudut pandang berbeda—seiring dengan meningkatnya kompleksitas tugas, konteks akan meledak. Dari sisi model, panjang konteks asli dapat ditingkatkan; dari sisi Agent Harness, mekanisme seperti Planning, Memory, dan Multi-Agent juga dapat mendukung tugas yang lebih kompleks dengan memanfaatkan kemampuan model tertentu. Saya merasa kedua arah ini akan menghasilkan lebih banyak reaksi kimia di masa depan, yang selanjutnya akan meningkatkan kemampuan menyelesaikan tugas.

Terakhir, mari kita buka pandangan terbuka. Silakan gunakan satu kata untuk menggambarkan tren perkembangan model besar dalam 12 bulan ke depan dan harapan Anda. Kali ini mari kita mulai dari Huang Chao.

Huang Chao: 12 bulan di bidang AI terasa sangat jauh, tidak tahu akan berkembang seperti apa setelah 12 bulan.

Yang Zhilin: Awalnya di sini tertulis lima tahun, saya mengubahnya.

Huang Chao: Ya, hahaha. Kata yang saya pikirkan adalah "ekosistem". Saat ini OpenClaw membuat orang sangat aktif, tetapi di masa depan, Agent benar-benar harus menjadi "pekerja", bukan sekadar sesuatu yang dimainkan sekadar untuk bersenang-senang atau karena penasaran. Di masa depan, seharusnya ia benar-benar menetap sebagai alat untuk bekerja keras, sebagai rekan kerja yang sejati.

Ini memerlukan upaya seluruh ekosistem, terutama open source; setelah eksplorasi teknis dan teknologi model dibuka secara open source, seluruh komunitas perlu bersama-sama membangunnya—baik itu iterasi model, iterasi platform Skill, maupun berbagai alat, semuanya perlu diciptakan dengan lebih baik untuk mendukung lobster.

Tren yang jelas adalah, apakah perangkat lunak di masa depan masih akan dirancang untuk manusia? Saya percaya bahwa banyak perangkat lunak di masa depan mungkin tidak lagi ditujukan untuk manusia—karena manusia membutuhkan GUI, sementara masa depan mungkin akan berbasis native Agent. Yang menarik, manusia mungkin hanya akan menggunakan GUI yang membuat mereka bahagia. Saat ini, seluruh ekosistem sedang berpindah dari GUI dan MCP ke model CLI. Ini memerlukan ekosistem untuk mengubah sistem perangkat lunak, data, dan berbagai teknologi menjadi bentuk native Agent, agar perkembangannya menjadi lebih kaya.

Luofuli: Menyempitkan pertanyaan ke satu tahun, menurut saya sangat bermakna. Jika lima tahun, menurut definisi AGI versi saya, saya rasa sudah tercapai. Jadi, jika harus menggambarkan satu hal paling krusial dalam perjalanan AGI tahun depan dalam satu kalimat, menurut saya adalah “evolusi mandiri”.

Kata ini terdengar agak mistis, dan sepanjang tahun terakhir banyak dibahas. Namun, baru-baru ini saya memiliki pemahaman yang lebih dalam, atau lebih tepatnya, memiliki solusi yang lebih pragmatis dan可行 untuk “evolusi mandiri”. Alasannya, setelah memiliki model yang kuat, kami sama sekali tidak memaksimalkan potensi model pra-pelatihan dalam paradigma Chat, sedangkan kerangka kerja Agent mengaktifkan batas maksimal tersebut. Ketika kami meminta model untuk menjalankan tugas yang lebih panjang, kami menemukan bahwa ia mampu belajar dan berevolusi sendiri.

Sebuah percobaan sederhana adalah: tambahkan batasan kondisi yang dapat diverifikasi ke dalam kerangka Agent yang ada, lalu atur loop agar model terus mengiterasi dan mengoptimalkan tujuan, maka Anda akan melihat bahwa ia terus menghasilkan solusi yang lebih baik. Evolusi mandiri semacam ini sekarang sudah bisa berjalan selama satu hingga dua hari, meskipun tergantung pada tingkat kesulitan tugas.

Misalnya, dalam beberapa penelitian ilmiah, seperti mengeksplorasi struktur model yang lebih baik, karena struktur model memiliki standar evaluasi, seperti PPL yang lebih rendah. Dalam tugas deterministik ini, kami menemukan bahwa ia sudah mampu mengoptimalkan dan menjalankan secara mandiri selama dua hingga tiga hari.

Jadi dari sudut pandang saya, self-evolution adalah satu-satunya tempat yang bisa "menciptakan hal baru". Ini bukan menggantikan produktivitas manusia yang sudah ada, tetapi seperti ilmuwan puncak yang menjelajahi hal-hal yang belum ada di dunia. Satu tahun lalu saya menganggap timeline ini akan memakan waktu tiga hingga lima tahun, tetapi baru-baru ini saya merasa seharusnya diperpendek menjadi satu hingga dua tahun. Mungkin dalam waktu dekat kita bisa menggabungkan model besar dengan kerangka kerja Agent self-evolution yang kuat, untuk mencapai percepatan setidaknya eksponensial dalam penelitian ilmiah.

Baru-baru ini, saya menyadari bahwa rekan-rekan di kelompok kami yang meneliti model besar memiliki alur kerja yang sangat tidak pasti dan sangat kreatif, tetapi dengan bantuan Claude Code ditambah model terkemuka, efisiensi penelitian kami telah meningkat hampir sepuluh kali lipat. Saya sangat menantikan paradigma ini menyebar ke disiplin dan bidang yang lebih luas, sehingga saya merasa bahwa “evolusi mandiri” sangat penting.

Xia Lixue: Kata kunci saya adalah "token berkelanjutan". Saya melihat perkembangan seluruh AI masih dalam proses jangka panjang, dan kami juga menginginkannya memiliki daya tahan yang lama. Dari sudut pandang infrastruktur, masalah besar adalah sumber daya pada akhirnya terbatas.

Seperti halnya dulu membahas keberlanjutan, sebagai pabrik token, kemampuan kami untuk secara berkelanjutan, stabil, dan dalam skala besar menyediakan token, sehingga model unggulan benar-benar dapat mendukung lebih banyak layanan hilir, adalah masalah penting yang kami lihat.

Kita perlu memperluas perspektif kita ke seluruh ekosistem—dari energi hingga daya komputasi, kemudian ke token, dan akhirnya ke aplikasi, membentuk iterasi ekonomi yang berkelanjutan. Kami tidak hanya akan memanfaatkan berbagai daya komputasi di dalam negeri, tetapi juga mengekspor kemampuan ini ke luar negeri, sehingga sumber daya global dapat terhubung dan diintegrasikan.

Saya juga merasa bahwa “berkelanjutan” sebenarnya sedang membangun ekonomi token khas Tiongkok. Dulu kita membicarakan Made in China, mengubah kapasitas manufaktur murah Tiongkok menjadi produk berkualitas yang diekspor ke seluruh dunia.

Sekarang yang harus kita lakukan adalah “AI Buatan China”—mengubah keunggulan China di bidang energi dan lainnya secara berkelanjutan menjadi token berkualitas tinggi melalui pabrik token, lalu mengekspornya ke seluruh dunia, menjadi pabrik token dunia. Ini adalah nilai yang ingin saya lihat dari AI yang diberikan China kepada dunia tahun ini.

Zhang Peng: Saya akan singkat saja. Semua orang memandang ke langit, saya akan tetap di bumi. Kata kunci saya adalah "hashrate".

Seperti yang baru saja disebutkan, semua teknologi dan kerangka agen telah meningkatkan kreativitas dan efisiensi Anda sepuluh kali lipat, tetapi dengan syarat Anda benar-benar dapat menggunakannya. Anda tidak bisa mengajukan satu pertanyaan dan membiarkannya berpikir lama tanpa memberikan jawaban—itu pasti tidak bisa diterima. Karena itu, banyak kemajuan penelitian dan banyak hal yang ingin dilakukan menjadi terhambat.

Dua tahun lalu, saya ingat seorang akademisi mengatakan di Forum Zhongguancun: "Tanpa kartu, tanpa perasaan; membicarakan kartu merusak perasaan." Saya merasa hari ini kita kembali berada di titik itu, tetapi situasinya berbeda. Sekarang kita memasuki tahap inferensi, permintaan benar-benar meledak—meningkat sepuluh kali, seratus kali. Tadi Anda mengatakan penggunaan meningkat sepuluh kali, tetapi sebenarnya permintaan mungkin seratus kali? Masih ada banyak permintaan yang belum terpenuhi, apa yang harus kita lakukan? Mari kita semua bersama-sama memikirkan solusinya.