Pakar membincangkan kesan OpenClaw terhadap agen AI dan cabaran pengiraan

Penulis: Chen Junda

Laporan Zhixidong pada 27 Mac, hari ini, di Forum Zhongguancun, Zhang Peng, CEO Zhipu, Yang Zhilin, CEO Moonshot (bertindak sebagai pengerusi), Luo Fuli, pemimpin model besar MiMo Xiaomi, Xia Lixue, CEO Wuweng Xianqiong, dan Profesor Bantu Universiti Hong Kong, Huang Chao, muncul bersama secara jarang untuk menjalankan perbincangan mendalam mengenai arah masa depan model besar sumber terbuka dan agen pintar.

Perbincangan ini bermula dengan OpenClaw yang paling popular semasa ini, di mana semua tetamu bersetuju bahawa agen membuat model besar benar-benar mulai "bekerja". OpenClaw boleh memperluaskan sempadan kemampuan model besar, tetapi juga menuntut lebih banyak daripada model tersebut. Zhipu sedang menyelidik kemampuan seperti perancangan jangka panjang dan penyesuaian sendiri, manakala pasukan Luo Fuli lebih fokus pada inovasi arkaitektur untuk mengurangkan kos dan meningkatkan kelajuan, bahkan mencapai evolusi sendiri model.

Infrastruktur juga perlu mengejar ritme agen. Xia Lixue berpendapat bahawa sistem pengiraan dan arsitektur perisian semasa masih direka untuk manusia, bukan untuk agen, sebenarnya menghadkan ruang persembahan Agen dengan kemampuan operasi manusia. Oleh itu, kita perlu membina Agentic Infra.

Dalam pandangan pelbagai tetamu, sumber terbuka merupakan salah satu daya pendorong utama dalam perkembangan model besar dan agen. Profesor Bantuan Universiti Hong Kong, Huang Chao, percaya bahawa kemakmuran ekosistem sumber terbuka adalah kunci bagi agen untuk berpindah dari “sekadar main-main” kepada menjadi “pekerja sebenar”; hanya melalui kerjasama komuniti, perisian, data, dan teknologi boleh sepenuhnya berubah menjadi bentuk asli agen, dan akhirnya membentuk ekosistem AI global yang berterusan.

Selain itu, beberapa tetamu juga membincangkan topik seperti kenaikan harga model besar, ledakan penggunaan token, dan kata kunci AI untuk 12 bulan ke depan. Berikut adalah pandangan utama dalam forum meja bulat ini:

1. Zhang Peng: Selepas model menjadi lebih besar, kos inferensinya juga akan meningkat secara sepadan; strategi kenaikan harga terkini dari Zhipu sebenarnya kembali kepada nilai perniagaan yang normal, dan persaingan harga rendah jangka panjang tidak memberi manfaat kepada perkembangan industri.

2. Zhang Peng: Ledakan teknologi baru seperti agen pintar telah meningkatkan penggunaan token sebanyak 10 kali, tetapi permintaan sebenar mungkin meningkat 100 kali, dengan masih banyak permintaan yang belum terpenuhi, oleh itu, kuasa pengiraan masih menjadi isu utama dalam 12 bulan ke depan.

3. Luo Fuli: Dari perspektif pembuat model dasar besar, OpenClaw menjamin batas bawah model dasar besar dan meningkatkan batas atas. Tingkat penyelesaian tugas model sumber terbuka domestik + OpenClaw kini sangat dekat dengan Claude.

4. Luo Fuli: DeepSeek memberikan keberanian dan keyakinan kepada pengeluar model besar tempatan. Inovasi struktur model yang kelihatan seperti "kompromi demi kecekapan" telah memicu perubahan sebenar, membolehkan industri mencapai tahap kecerdasan tertinggi dalam keadaan kuasa pengiraan yang terhad.

5. Luo Fuli: Perkara paling penting dalam perjalanan AGI setahun ke depan ialah “evolusi diri”. Evolusi diri membolehkan model besar menjelajah seperti saintis terkemuka, dan merupakan satu-satunya tempat yang mampu “mencipta sesuatu yang baru”. Xiaomi telah meningkatkan kecekapan penyelidikan sebanyak 10 kali ganda dengan menggunakan Claude Code + model terkemuka.

6. Xia Lixue: Apabila era AGI tiba, infrastruktur itu sendiri seharusnya menjadi agen, mengurus seluruh infrastruktur secara autonom, mengiterasi infrastruktur berdasarkan keperluan pelanggan AI, dan mencapai evolusi serta iterasi sendiri.

7. Xia Lixue: OpenClaw telah memicu penggunaan token. Kadar penggunaan token sekarang seakan-akan seperti ketika data telefon bimbit pada era 3G baru bermula, dengan kuota bulanan hanya 100MB.

8. Huang Chao: Di masa depan, banyak perisian bukan lagi direka untuk manusia; perisian, data, dan teknologi akan berbentuk Agent-Native, dan manusia mungkin hanya perlu menggunakan GUI yang "membuat mereka gembira".

Berikut ialah transkrip penuh forum meja bulat ini:

01. OpenClaw ialah "scaffolding", penggunaan token model besar masih berada di era 3G

Yang Zhilin: Saya sangat berbahagia dapat mengundang para tamu istimewa hari ini, di mana beberapa tamu berasal dari lapisan model, lapisan komputasi, hingga lapisan agen. Kata kunci utama hari ini adalah open source, kemudian agen.

Soal pertama ialah membincangkan OpenClaw yang paling popular sekarang. Apakah perkara yang paling imaginatif atau kesan mendalam yang anda rasa apabila menggunakan OpenClaw atau produk serupa dalam kehidupan harian? Dari sudut teknikal, bagaimanakah anda melihat perkembangan OpenClaw dan Agent berkaitan hari ini?

Zhang Peng: Saya sudah mula bermain OpenClaw sejak lama, ketika ia masih dipanggil Clawbot. Saya sendiri yang mencuba-cuba, kerana saya juga berasal dari latar belakang pengatur cara, jadi saya ada sedikit pengalaman sendiri dalam bermain perkara-perkara ini.

Saya rasa terobosan terbesar atau sensasi yang dibawa oleh OpenClaw kepada semua orang ialah ia bukan lagi eksklusif untuk programmer atau peminat teknologi. Orang biasa juga boleh menggunakan kemampuan model terkemuka dengan lebih mudah, terutamanya dalam bidang pengaturcaraan dan agen.

Jadi, sejauh ini dalam proses perbincangan dengan semua orang, saya lebih suka memanggil OpenClaw sebagai "perancah". Ia menyediakan satu kemungkinan, membina perancah yang kukuh, mudah, tetapi fleksibel di atas asas model. Semua orang boleh menggunakan fungsi-fungsi baru yang disediakan oleh model asas mengikut kehendak masing-masing.

Dulu, idea sendiri mungkin terhad kepada ketidakmampuan menulis kod atau tidak menguasai kemahiran berkaitan lain, tetapi hari ini dengan OpenClaw, akhirnya boleh menyelesaikannya melalui komunikasi yang sangat mudah.

OpenClaw memberi saya kesan yang sangat besar, atau membuat saya memahami semula perkara ini.

Xia Lixue: Sebenarnya, ketika saya pertama kali menggunakan OpenClaw, saya tidak terbiasa, kerana saya biasa berkomunikasi dengan model besar; selepas menggunakannya, saya rasa OpenClaw bereaksi perlahan.

Tetapi kemudian saya sedar satu masalah, iaitu ia berbeza besar daripada chatbot sebelum ini, pada dasarnya adalah “orang” yang boleh membantu saya menyelesaikan tugas besar. Saya mula menghantar tugas yang lebih kompleks kepadanya, dan mendapati sebenarnya ia boleh melakukan dengan sangat baik.

Perkara ini memberi saya kesan yang mendalam. Model yang awalnya berinteraksi berdasarkan token, kini telah berubah menjadi agen, bahkan menjadi ketam, yang boleh membantu anda menyelesaikan tugas. Perkara ini meningkatkan ruang imajinasi keseluruhan AI secara besar-besaran.

Pada masa yang sama, ia juga menuntut keupayaan yang tinggi terhadap keseluruhan sistem. Inilah sebabnya mengapa pada awalnya saya merasakan OpenClaw agak lambat. Sebagai pengeluar lapisan infrastruktur, saya melihat bahawa OpenClaw membawa lebih banyak peluang dan cabaran terhadap sistem dan ekosistem besar di belakang AI.

Sumber yang kami miliki sekarang tidak mencukupi untuk menyokong era pertumbuhan pesat seperti ini. Sebagai contoh, berdasarkan perusahaan kami, sejak akhir Januari, penggunaan token kami hampir berlipat ganda setiap dua minggu, dan kini telah meningkat sebanyak 10 kali ganda.

Terakhir kali saya melihat kelajuan ini ialah ketika menggunakan telefon 3G dan menghabiskan data. Saya ada perasaan bahawa penggunaan token sekarang seperti zaman dulu apabila kita hanya mempunyai 100MB data telefon sebulan.

Dalam keadaan ini, semua sumber daya kita perlu dioptimasi dan diintegrasikan dengan lebih baik, supaya setiap orang, bukan hanya di bidang AI, tetapi setiap individu dalam masyarakat, dapat memanfaatkan kemampuan AI OpenClaw.

Sebagai pemain dalam infrastruktur, saya sangat bersemangat dan sangat merasakan era ini. Saya juga percaya bahawa terdapat banyak ruang untuk penambahbaikan yang masih perlu kita eksplorasi dan cuba.

02. OpenClaw meningkatkan had model tempatan, mod interaktif membawa maksud yang penting

Luo Fuli: Saya sendiri memandang OpenClaw sebagai peristiwa yang sangat revolusioner dan menggugat dalam proses perkembangan kerangka agen.

Sebenarnya, semua orang di sekeliling saya yang melakukan coding yang sangat mendalam masih memilih Claude Code sebagai pilihan pertama mereka. Namun, saya percaya pengguna OpenClaw akan merasakan bahawa banyak reka bentuknya dalam kerangka Agent adalah lebih maju berbanding Claude Code. Baru-baru ini, banyak pembaruan pada Claude Code sebenarnya sedang bergerak mendekati OpenClaw.

Pengalaman saya sendiri menggunakan OpenClaw adalah bahawa kerangka ini memberi saya lebih banyak ruang untuk memperluaskan imajinasi saya di mana sahaja dan kapan sahaja. Claude Code pada mulanya hanya boleh memperluaskan kreativiti saya di atas meja saya, tetapi OpenClaw boleh memperluaskan kreativiti saya di mana sahaja dan kapan sahaja.

Nilai utama yang dibawa oleh OpenClaw terutama ada dua. Pertama, ia bersifat sumber terbuka. Perkara sumber terbuka ini sangat memudahkan komuniti secara mendalam terlibat, menghargai, dan mendorong perkembangan kerangka ini, yang merupakan syarat penting.

Saya rasa nilai besar dalam kerangka kerja AI seperti OpenClaw ialah ia menaikkan had model-model tempatan yang walaupun hampir setara dengan model tertutup, tetapi belum sepenuhnya mengejar kesetaraannya.

Dalam kebanyakan skenario, anda akan mendapati keberhasilan tugasnya (model sumber terbuka tempatan + OpenClaw) hampir sejajar dengan model terkini Claude. Sementara itu, ia juga berjaya menjamin batas bawah yang baik—melalui sistem Harness, atau dengan memanfaatkan reka bentuk pelbagai aspek seperti sistem Skills, untuk menjamin integriti dan ketepatan tugas.

Secara ringkas, dari perspektif pembangun pihak penghasil model dasar, OpenClaw menjamin batas bawah model dasar dan meningkatkan batas atasnya.

Selain itu, saya percaya nilai lain yang ia bawa kepada seluruh komuniti ialah ia memicu kesedaran semua orang bahawa di luar model besar, lapisan Agent sebenarnya menyimpan ruang imajinasi yang sangat besar.

Saya juga memperhatikan bahawa, selain penyelidik, semakin ramai orang dalam komuniti yang terlibat dalam revolusi AGI, dengan lebih ramai orang mula menggunakan kerangka Agen yang lebih kuat seperti Harness dan Scaffold. Orang-orang ini, dalam beberapa cara, menggunakan alat-alat ini untuk menggantikan sebahagian pekerjaan mereka, sambil membebaskan masa mereka untuk terlibat dalam perkara-perkara yang lebih penuh imajinasi.

Huang Chao: Saya rasa, dari segi mod interaksi, satu sebab utama mengapa OpenClaw menjadi popular ialah ia memberikan pengalaman yang lebih "bernyawa". Sebenarnya, kami telah membuat Agent selama satu atau dua tahun, tetapi Agent sebelum ini seperti Cursor dan Claude Code lebih memberikan kesan sebagai "alat". OpenClaw, untuk pertama kalinya, memperkenalkan cara "terbenam dalam perisian mesej segera", yang membuatkan pengguna merasakan ia lebih hampir dengan "J.A.R.V.I.S peribadi" yang mereka impikan. Saya rasa ini mungkin satu lompatan dalam mod interaksi.

Selain itu, ia memberikan inspirasi kepada seluruh komuniti: kerangka kerja yang ringkas tetapi berkesan seperti Agent Loop sekali lagi telah dibuktikan sebagai boleh dilaksanakan. Sambil itu, ia juga memaksa kita untuk memikirkan semula satu soalan: adakah kita memerlukan agen super yang serba boleh yang mampu melakukan segala-galanya, atau adakah kita memerlukan seorang “pengurus kecil” yang lebih baik, seperti sistem operasi atau rangka kerja yang ringkas?

Gagasan yang dibawa oleh OpenClaw ialah melalui "sistem kecil" ini, atau "sistem pengendali udang karang" dan ekosistemnya, membolehkan semua orang benar-benar mempunyai mentaliti "bermain", seterusnya mendorong seluruh alat dalam ekosistem tersebut.

Dengan munculnya kemampuan seperti Skills dan Harness, semakin ramai orang boleh merekabentuk aplikasi yang ditujukan kepada sistem seperti OpenClaw untuk memberdayakan pelbagai industri. Saya rasa perkara ini secara semula jadi sangat berkait rapat dengan keseluruhan ekosistem sumber terbuka. Menurut saya, dua perkara ini merupakan inspirasi terbesar yang kami peroleh.

03. GLM model baru direka khas untuk "bekerja", kenaikan harga adalah kembalinya nilai perniagaan yang normal

Yang Zhilin: Saya ingin bertanya kepada Zhang Peng. Baru-baru ini saya melihat Zhipu melancarkan model GLM-5 Turbo baru, dan saya memahami bahawa terdapat peningkatan besar dalam kemampuan Agent. Bolehkah anda memperkenalkan perbezaan antara model baru ini dan model-model lain? Selain itu, kami juga memperhatikan strategi peningkatan harga—apakah ini mencerminkan isyarat pasaran yang seperti apa?

Zhang Peng: Ini adalah soalan yang bagus. Dua tiga hari yang lalu, kami sebenarnya melakukan kemas kini segera, yang sebenarnya merupakan satu peringkat dalam peta jalan perkembangan kami, tetapi kami mengeluarkannya lebih awal.

Tujuan utama ialah berpindah daripada “perbualan ringkas” kepada “benar-benar melakukan kerja” — ini juga merupakan persepsi umum terkini: model besar bukan lagi hanya mampu berbual, tetapi benar-benar boleh membantu orang melakukan kerja.

Namun, kemampuan yang tersembunyi di balik “melaksanakan tugas” sangat tinggi. Model perlu merancang perencanaan tugas jangka panjang sendiri, terus-menerus mencuba dan membuat kesilapan, memampatkan konteks, membetulkan ralat, dan mungkin juga mengendalikan maklumat multimodal. Oleh itu, tuntutan terhadap kemampuan model ini sebenarnya berbeza daripada model umum berorientasikan dialog tradisional. GLM-5 Turbo telah diperkuat secara khusus dalam aspek-aspek ini, terutamanya seperti yang anda sebutkan—membuatnya melaksanakan tugas dan berjalan selama tujuh puluh dua jam, bagaimana ia boleh terus berputar dalam gelung, di mana kami telah melakukan banyak usaha.

Selain itu, pengguna juga sangat memperhatikan isu penggunaan token. Untuk menjalankan tugas kompleks, model pintar memerlukan penggunaan token yang sangat besar. Orang biasa mungkin tidak menyadarinya secara mendalam, tetapi ketika melihat bilangan, mereka akan melihat bahawa duit habis dengan sangat cepat. Oleh itu, kami juga telah mengoptimumkan aspek ini—apabila menghadapi tugas kompleks, model dapat menyelesaikannya dengan kecekapan token yang lebih tinggi. Secara keseluruhan, arsitektur model masih tetap merupakan arsitektur generik yang bekerjasama dalam pelbagai tugas, tetapi telah diperkukuhkan secara berfokus pada kemampuan tertentu.

Penyesuaian harga sebenarnya juga mudah dijelaskan. Tadi telah disebut, kini bukan lagi sekadar bertanya satu soalan dan mendapat satu jawapan; rantai penalaran di belakangnya sangat panjang. Banyak tugas memerlukan interaksi dengan kod dan infrastruktur asas, serta terus melakukan debug dan memperbaiki ralat, yang menghabiskan sumber yang sangat besar. Jumlah token yang diperlukan untuk menyelesaikan satu tugas kompleks mungkin sepuluh hingga seratus kali ganda jumlah yang diperlukan untuk menjawab soalan ringkas sebelum ini.

Oleh itu, harga perlu dinaikkan sedikit, model juga menjadi lebih besar, dan kos inferensinya meningkat secara sepadan. Kami membawa ia kembali kepada nilai komersial yang wajar, kerana persaingan harga rendah jangka panjang tidak mendukung perkembangan industri keseluruhan. Ini juga membolehkan komersialisasi membentuk satu lingkaran positif, mengoptimumkan kemampuan model secara berterusan, dan memberikan perkhidmatan yang lebih baik kepada anda.

04. Membina pabrik token yang lebih cekap, infrastruktur itu sendiri juga harus menjadi Agen

Yang Zhilin: Kini, model sumber terbuka semakin ramai dan mulai membentuk ekosistem, di mana pelbagai model boleh memberikan nilai tambah yang lebih besar kepada pengguna di pelbagai platform pengiraan. Dengan ledakan penggunaan token, model besar sedang berpindah dari era latihan ke era inferens. Saya ingin bertanya kepada Li Xue, dari segi infrastruktur, apakah maksud era inferens ini kepada Wuwen?

Xia Lixue: Kami adalah pembangun infrastruktur yang lahir di era AI, dan kini juga menyediakan sokongan kepada Zhipu, Kimi, Mimo, dan lain-lain, membantu pengguna memanfaatkan pabrik token dengan lebih cekap. Kami juga bekerjasama dengan banyak universiti dan institut penyelidikan.

Oleh itu, kami terus memikirkan satu perkara: infrastruktur macam apa yang diperlukan di era AGI? Dan bagaimana kami akan mencapai serta mengembangkan langkah demi langkahnya. Kami kini telah bersedia sepenuhnya untuk menangani masalah yang perlu diselesaikan pada peringkat jangka pendek, sederhana, dan panjang.

Masalah paling langsung semasa ini ialah apa yang baru dibincangkan oleh semua orang—jumlah token yang dibawa oleh Open meningkat secara mendadak, yang menuntut peningkatan dalam kecekapan sistem. Termasuk penyesuaian harga, sebenarnya juga merupakan satu cara respons terhadap keperluan ini.

Kami selalu merancang dan menyelesaikan melalui pendekatan pengintegrasian perangkat lunak dan perangkat keras. Sebagai contoh, kami telah menghubungkan hampir semua jenis chip komputasi, menyatukan lebih dari selusin jenis chip berbeda di dalam negeri dan puluhan kluster komputasi yang berbeda. Ini dapat menyelesaikan masalah kekurangan sumber daya komputasi dalam sistem AI; ketika sumber daya tidak mencukupi, cara terbaik adalah memanfaatkan semua sumber daya yang tersedia, lalu memastikan setiap unit komputasi digunakan secara optimal untuk mencapai efisiensi konversi terbesar.

Pada peringkat ini, kami menyelesaikan cara menciptakan pabrik token yang lebih cekap. Kami telah melakukan banyak pengoptimuman, termasuk menyesuaikan sumber daya seperti memori GPU pada model dan peranti secara optimum, serta mengkaji sama ada struktur model dan peranti terkini boleh menghasilkan tindak balas kimia yang lebih mendalam. Namun, menyelesaikan masalah kecekapan semasa sebenarnya hanya mencipta pabrik token yang distandardkan.

Menghadapi era Agent, kami percaya ini masih belum mencukupi. Kerana Agent lebih seperti seorang manusia, di mana anda boleh memberinya satu tugas. Saya percaya teguh bahawa infrastruktur banyak zaman komputing awan semasa ini direka untuk melayani satu program atau jurutera manusia, bukan untuk AI. Ini seakan-akan kita membuat infrastruktur dengan antaramuka yang ditujukan untuk manusia, kemudian menambahkan lapisan tambahan untuk menyambungkan Agent—cara ini sebenarnya membatasi ruang gerak Agent dengan kemampuan operasi manusia.

Sebagai contoh, agen mampu berfikir dan memulakan tugas dalam peringkat milisaat, tetapi kemampuan dasar seperti K8s (kubernetes) sebenarnya belum disiapkan untuk ini, kerana tugas yang dimulakan oleh manusia biasanya dalam peringkat minit. Oleh itu, kami memerlukan kemampuan yang lebih lanjut, yang kami sebut sebagai “Agentic Infra”, atau “pabrik token yang bijak”, yang merupakan perkara yang sedang dilakukan Wuwen Xinqiong.

Dari perspektif jangka panjang, apabila era AGI benar-benar tiba, kami percaya bahawa infrastruktur itu sendiri seharusnya menjadi agen. Pabrik yang kami bangun juga seharusnya mampu berevolusi dan beriterasi sendiri, membentuk sebuah organisasi autonom. Ia seolah-olah mempunyai CEO, di mana CEO tersebut sebenarnya adalah sebuah agen, mungkin OpenClaw, yang mengurus keseluruhan infrastruktur, serta mengemukakan keperluan dan mengiterasi infrastruktur secara automatik berdasarkan keperluan pelanggan AI. Dengan cara ini, AI boleh berinteraksi dengan lebih baik antara satu sama lain. Kami juga sedang menjalankan beberapa eksplorasi, seperti memperbaiki komunikasi antara agen dan membangunkan kemampuan seperti Cache to Cache.

Oleh itu, yang selalu kami fikirkan ialah perkembangan infrastruktur dan AI tidak seharusnya berlaku dalam keadaan terpisah—saya hanya menerima keperluan dan melaksanakannya, tetapi sepatutnya menghasilkan reaksi kimia yang sangat kaya. Inilah sebenarnya maksud kerjasama perisian dan keras, kerjasama antara algoritma dan infrastruktur, serta misi yang selalu ingin dicapai oleh Wuwen Xinqiong. Terima kasih.

05. Inovasi yang berkompromi demi kecekapan juga bermakna, DeepSeek memberikan keberanian dan keyakinan kepada pasukan tempatan

Yang Zhilin: Seterusnya, saya ingin bertanya kepada Fuli. Baru-baru ini, Xiaomi telah memberikan sumbangan besar kepada komuniti melalui pelancaran model baru dan sumber terbuka teknologi di belakangnya. Saya ingin bertanya, dalam hal model besar, menurut anda apakah kelebihan unik Xiaomi?

Luo Fuli: Saya rasa kita boleh terlepas dahulu topik kelebihan unik Xiaomi, dan saya lebih ingin membincangkan kelebihan keseluruhan pasukan China dalam membangun model besar. Saya rasa topik ini mempunyai nilai yang lebih luas.

Kira-kira dua tahun yang lalu, pasukan model dasar China telah mencapai terobosan yang sangat baik—kami bagaimana menembusi batasan komputasi rendah ini, terutama dalam keadaan komputasi terhadap lebar pita NVLink yang terhad, dengan melakukan inovasi struktur model yang kelihatan seperti “kompromi demi kecekatan”, seperti siri DeepSeek V2, V3, serta MoE, MLA, dan sebagainya.

Namun, kami kemudian menyedari bahawa inovasi ini memicu satu perubahan: bagaimana mencapai tahap kecerdasan tertinggi dalam keadaan kuasa pengiraan yang terhad. Ini memberikan keberanian dan keyakinan kepada semua pasukan model dasar di negara kami dari DeepSeek. Walaupun pada hari ini, cip tempatan kami, terutamanya cip inferens dan cip latihan, sudah tidak lagi terhad oleh pembatasan ini, justeru di bawah pembatasan inilah, kami terdorong untuk meneroka struktur model baru yang meningkatkan kecekapan latihan dan mengurangkan kos inferens.

Seperti struktur seperti Hybrid Sparse dan Linear Attention yang baru-baru ini muncul, contohnya NSA dari DeepSeek dan KSA dari Kimi, Xiaomi juga memiliki HySparse yang ditujukan untuk struktur generasi mendatang. Semua ini merupakan inovasi struktur model yang berbeda dari generasi MoE, yang dirancang khusus untuk era Agent.

Mengapa saya merasa inovasi struktur sangat penting? Sebenarnya, jika orang benar-benar menggunakan OpenClaw, mereka akan mendapati ia menjadi semakin mudah digunakan dan semakin pintar seiring penggunaan. Salah satu prasyaratnya ialah panjang konteks inferensi. Konteks panjang adalah topik yang telah kita perbincangkan lama, tetapi adakah model sekarang yang benar-benar mampu berprestasi baik, berkinerja kuat, dan dengan kos inferensi yang rendah dalam konteks panjang?

Sebenarnya, banyak model bukan tidak mampu menangani konteks 1M atau 10M, tetapi kerana kos inferens 1M, 10M terlalu tinggi dan laju terlalu perlahan. Hanya apabila kos diturunkan dan kelajuan ditingkatkan, tugas-tugas dengan nilai produktiviti tinggi sebenarnya boleh diserahkan kepada model, membolehkan tugas yang lebih kompleks diselesaikan dalam konteks panjang, bahkan mencapai iterasi sendiri oleh model.

Iterasi diri model merujuk kepada kemampuannya untuk mencapai evolusi diri dalam persekitaran yang kompleks dengan memanfaatkan konteks yang sangat panjang. Evolusi ini mungkin berlaku pada kerangka kerja Agent itu sendiri, atau pada parameter model itu sendiri—kerana saya percaya bahawa konteks itu sendiri sebenarnya merupakan bentuk evolusi parameter. Oleh itu, bagaimana untuk mewujudkan arsitektur konteks panjang, dan bagaimana untuk mencapai inferensi konteks panjang yang cekap di sisi inferensi, merupakan persaingan menyeluruh.

Selain fasa pra-pelatihan yang telah saya sebutkan sebelum ini, iaitu membina arsitektur yang efisien untuk konteks panjang—ini adalah isu yang kami mula eksplorasi kira-kira setahun yang lalu. Kini, untuk benar-benar mencapai kestabilan dan prestasi had tinggi dalam tugas jangka panjang, kami sedang mengiterasi paradigma inovatif dalam fasa pasca-pelatihan.

Kami sedang memikirkan bagaimana membina algoritma pembelajaran yang lebih berkesan, bagaimana mengumpulkan teks yang benar-benar mempunyai ketergantungan jangka panjang dalam konteks 1M, 10M, dan 100M dalam persekitaran sebenar, serta menggabungkan data trajektori yang dihasilkan daripada persekitaran yang kompleks. Ini adalah perkara yang sedang kami lakukan selepas latihan.

Namun, dari perspektif jangka panjang, dengan kemajuan pesat model besar itu sendiri ditambah dukungan kerangka Agent, seperti yang disebut Lixue, permintaan inferensi telah meningkat hampir sepuluh kali lipat dalam periode terakhir. Apakah penggunaan token keseluruhan tahun ini akan mencapai 100 kali lipat?

Di sini, persaingan memasuki dimensi lain—kekuatan pengiraan, atau cip inferens, bahkan lebih jauh lagi kepada tenaga. Jadi, saya rasa jika kita semua memikirkan masalah ini bersama-sama, saya mungkin akan belajar lebih banyak daripada anda semua. Terima kasih.

06. Agen mempunyai tiga modul utama, ledakan Agen berganda akan membawa kesan

Yang Zhi Lin: Perkongsian yang sangat mendalam. Seterusnya, saya ingin bertanya kepada Huang Chao, anda telah membangunkan projek Agent yang berkesan seperti Nanobot dan mempunyai banyak pengikut komuniti. Saya ingin bertanya, dari segi Harness atau aplikasi Agent, apakah arah teknologi seterusnya yang anda anggap penting dan patut diperhatikan oleh semua orang?

Huang Chao: Saya rasa jika teknologi Agent diabstrakkan, intinya ialah modul-modul Planning, Memory, dan Tool Use.

Mari kita mulakan dengan perancangan. Masalah semasa terutamanya berlaku dalam tugas jangka panjang atau konteks yang sangat kompleks, seperti 500 langkah atau lebih, di mana banyak model mungkin tidak mampu membuat perancangan yang baik. Saya rasa pada dasarnya model mungkin tidak memiliki pengetahuan tersirat semacam ini, terutamanya dalam bidang vertikal yang kompleks. Oleh itu, ke depannya mungkin perlu mengukuhkan pengetahuan pelbagai tugas kompleks ke dalam model—ini mungkin satu arah yang boleh diambil.

Tentu, Skill dan Harness juga se一定程度 mengurangi kesilapan yang dibawa oleh Planning, kerana ia menyediakan Skill berkualiti tinggi, yang pada dasarnya juga membimbing model untuk menyelesaikan beberapa tugas yang lebih sukar.

Mari kita bicara lagi tentang Memory. Kesannya, Memory selalu menghadapi masalah pemampatan informasi yang tidak tepat dan pencarian yang tidak akurat, terutama dalam tugas jangka panjang dan skenario kompleks, di mana beban pada Memory akan meningkat drastis. Saat ini, projek seperti OpenClaw sebenarnya menggunakan format Memory paling sederhana berupa Markdown berbasis sistem fail, yang berfungsi melalui perkongsian fail. Di masa depan, Memory mungkin akan bergerak ke arah reka bentuk bertingkat dan perlu menjadi lebih serbaguna.

Secara jujur, mekanisme Memory semasa ini sukar untuk dijadikan seragam—kerana skenario Coding, skenario Deep Research, dan skenario multimodal mempunyai perbezaan besar dalam mod data mereka; bagaimana untuk melakukan pencarian dan pengindeksan yang baik terhadap Memory ini sambil mengekalkan kecekapan, sentiasa menjadi satu kompromi.

Selain itu, selepas OpenClaw menurunkan rintangan untuk mencipta Agent, masa depan mungkin tidak lagi hanya ada satu "udang karang". Saya melihat Kimi juga telah mengeluarkan mekanisme seperti Agent Swarm, di mana di masa depan setiap orang mungkin akan mempunyai "sekumpulan udang karang".

Dibandingkan dengan satu ekor lobster, peningkatan konteks yang dibawa oleh sekumpulan lobster dapat dibayangkan, yang akan memberi tekanan besar terhadap Memori. Saat ini, sebenarnya belum ada mekanisme yang baik untuk mengurus konteks yang dibawa oleh “sekumpulan lobster”, terutama dalam skenario seperti Coding yang kompleks atau penemuan ilmiah, di mana baik model maupun keseluruhan arsitektur Agent mengalami tekanan besar.

Mari kita bicarakan lagi mengenai Penggunaan Alat, atau Skill. Masalah yang ada pada Skill sekarang sebenarnya mirip dengan masalah yang pernah dihadapi MCP—MCP pada masa itu menghadapi isu seperti kualitas yang tidak terjamin dan risiko keamanan. Kini, Skill juga mengalami hal serupa: meskipun tampaknya terdapat banyak Skill, namun yang berkualitas tinggi sangat sedikit, dan Skill berkualitas rendah dapat memengaruhi ketepatan Agent dalam menyelesaikan tugas. Selain itu, ada pula masalah injeksi jahat. Oleh karena itu, dari sudut pandang Penggunaan Alat, mungkin diperlukan peran komunitas untuk memperbaiki seluruh ekosistem Skill, bahkan memungkinkan Skill untuk berevolusi secara mandiri dan menghasilkan Skill baru selama proses eksekusi.

Secara keseluruhan, dari Planning, Memory hingga Penggunaan Alat, ini adalah beberapa titik kesukaran semasa yang dihadapi oleh Agent, serta arah yang mungkin diambil di masa depan.

07. Kata kunci untuk 12 bulan ke depan: ekosistem, token berterusan, evolusi diri dan kuasa pengiraan

Yang Zhi Lin: Dapat dilihat bahawa dua tetamu membincangkan masalah yang sama dari perspektif yang berbeza—seiring dengan peningkatan kerumitan tugas, konteks akan meningkat secara drastis. Dari segi model, panjang konteks asli boleh ditingkatkan, manakala dari segi Agent Harness, mekanisme seperti Perancangan, Memori, dan Multi-Agent juga boleh menyokong tugas yang lebih kompleks di bawah kemampuan model tertentu. Saya rasa kedua-dua arah ini akan menghasilkan lebih banyak reaksi kimia seterusnya, yang akan meningkatkan lagi keupayaan menyelesaikan tugas.

Akhir sekali, mari kita lihat satu perbincangan terbuka. Sila gunakan satu perkataan untuk menggambarkan trend perkembangan model besar dalam 12 bulan ke depan dan harapan anda. Kali ini, mari mulakan dengan Huang Chao.

Huang Chao: 12 bulan dalam bidang AI kelihatan sangat jauh, kita tidak tahu apa yang akan berkembang selepas 12 bulan.

Yang Zhi Lin: Awalnya di sini ditulis lima tahun, saya telah mengubahnya.

Huang Chao: Ya, hahaha. Satu perkataan yang saya fikirkan ialah “ekosistem”. Sekarang OpenClaw membuat orang sangat aktif, tetapi di masa depan, Agent benar-benar perlu menjadi “pekerja”, bukan sekadar sesuatu yang orang main-main atau hanya kerana rasa ingin tahu. Di masa depan, ia perlu benar-benar menetap sebagai alat untuk bekerja keras, sebagai rakan kerja yang sebenar.

Ini memerlukan usaha keseluruhan ekosistem, terutama open-source; selepas teknologi dan model teknikal dibuka sumbernya, seluruh komuniti perlu bekerjasama untuk membangunkannya—baik itu iterasi model, iterasi platform Skill, mahupun pelbagai alat, semuanya perlu dicipta dengan lebih baik untuk komuniti lobster.

Satu tren yang jelas ialah, perisian masa depan masih akan direka untuk manusia? Saya percaya bahawa banyak perisian masa depan mungkin tidak lagi ditujukan kepada manusia—kerana manusia memerlukan GUI, manakala masa depan mungkin akan berasaskan Agent. Menariknya, manusia mungkin hanya menggunakan GUI yang membuat mereka gembira. Sekarang, keseluruhan ekosistem telah berpindah dari GUI dan MCP ke model CLI. Ini memerlukan ekosistem untuk mengubah sistem perisian, data, dan pelbagai teknologi menjadi bentuk Agent Native, supaya perkembangan keseluruhan menjadi lebih kaya.

Luofuli: Menyempitkan soal ini kepada satu tahun, saya rasa sangat bermakna. Jika lima tahun, dari definisi AGI dalam pandangan saya, saya rasa ia sudah dicapai. Oleh itu, jika saya mesti menggambarkan perkara paling penting dalam perjalanan AGI setahun ke depan dalam satu ayat, saya percaya ia adalah “evolusi diri”.

Kata ini kedengaran agak mistik, dan selama setahun terakhir ia telah disebut berulang kali. Tetapi baru-baru ini saya mendapat pemahaman yang lebih mendalam, atau lebih tepatnya, saya memperoleh pendekatan yang lebih praktikal dan boleh dilaksanakan mengenai bagaimana melakukan “evolusi diri”. Sebabnya ialah, selepas memiliki model yang kuat, kita sebenarnya tidak memaksimakan potensi model pra-latihan dalam paradigma Chat, tetapi kerangka Agent mengaktifkan had ini. Apabila kita meminta model menjalankan tugas yang lebih panjang, kita mendapati ia mampu belajar dan berevolusi sendiri.

Satu percubaan ringkas adalah: tambahkan batasan bersyarat yang boleh diverifikasi ke dalam kerangka Agent yang sedia ada, kemudian tetapkan satu Gelung, supaya model terus mengulang dan mengoptimumkan objektif, dan anda akan mendapati ia terus menghasilkan penyelesaian yang lebih baik. Evolusi diri ini sebenarnya sudah boleh berjalan selama satu atau dua hari, walaupun bergantung kepada kesukaran tugas.

Sebagai contoh, dalam beberapa kajian saintifik, seperti mencari struktur model yang lebih baik, kerana struktur model mempunyai standard penilaian, seperti PPL yang lebih rendah. Dalam tugas deterministik ini, kami mendapati ia sudah mampu mengoptimumkan dan melaksanakan sendiri selama dua hingga tiga hari.

Jadi dari sudut pandang saya, evolusi diri adalah satu-satunya tempat yang boleh “mencipta sesuatu yang baru”. Ia bukan menggantikan produktiviti manusia yang sedia ada, tetapi seperti saintis terkemuka, ia meneroka perkara yang belum wujud di dunia. Setahun yang lalu, saya akan fikir garis masa ini perlu diperpanjangkan kepada tiga hingga lima tahun, tetapi baru-baru ini saya rasa ia sepatutnya dipendekkan kepada satu hingga dua tahun. Mungkin dengan segera kita akan dapat menggabungkan model besar dengan kerangka Agen evolusi diri yang kuat, untuk mencapai percepatan eksponen sekurang-kurangnya dalam penyelidikan saintifik.

Baru-baru ini, saya mendapati bahawa rakan-rakan dalam kumpulan saya yang mengkaji model besar mempunyai alur kerja yang sangat tidak pasti dan sangat kreatif, tetapi dengan bantuan Claude Code ditambah model terkemuka, kecekapan penyelidikan kami telah meningkat hampir sepuluh kali ganda. Saya sangat menantikan paradigma ini meresap ke bidang dan disiplin yang lebih luas, jadi saya rasa “evolusi diri” sangat penting.

Xia Lixue: Kata kunci saya ialah "token berterusan". Saya melihat perkembangan keseluruhan AI masih dalam proses jangka panjang, dan kami juga berharap ia mempunyai ketahanan jangka panjang. Dari segi infrastruktur, satu masalah besar ialah sumber akhirnya terhad.

Seperti dahulu ketika membincangkan pembangunan mampan, sebagai sebuah pabrik token, kemampuan kami untuk terus menyediakan token secara stabil dan berskala besar, membolehkan model terkemuka benar-benar melayani lebih banyak perkhidmatan hulu, adalah masalah penting yang kami lihat.

Kita perlu memperluas perspektif kita ke seluruh ekosistem—dari tenaga, kepada kekuatan pengiraan, kemudian kepada token, dan akhirnya kepada aplikasi, membentuk iterasi ekonomi yang berterusan. Kami tidak hanya akan memanfaatkan semua kekuatan pengiraan di dalam negara, tetapi juga mengeluarkan kemampuan ini ke luar negara, membolehkan sumber daya global disambungkan dan diintegrasikan.

Saya juga rasa “berterusan” sebenarnya sedang membangun ekonomi token ciri khas China. Dahulu kita bercakap tentang Made in China, menjadikan kapasiti pengeluaran murah China sebagai barangan berkualiti yang dieksport ke seluruh dunia.

Yang perlu kita lakukan sekarang ialah “AI Buatan China” — menukar kelebihan China dalam bidang tenaga dan sebagainya secara berterusan melalui pabrik token menjadi token berkualiti tinggi, dan menghantar ke seluruh dunia, menjadi pabrik token dunia. Ini adalah nilai yang saya ingin lihat China bawa kepada dunia melalui kecerdasan buatan tahun ini.

Zhang Peng: Saya akan ringkas saja. Semua orang memandang ke langit, saya lebih fokus pada hal yang nyata. Kata kunci saya ialah “kekuatan pengiraan”.

Tadi juga disebutkan, semua teknologi dan kerangka agen telah meningkatkan kreativiti dan kecekapan anda sepuluh kali ganda, tetapi dengan syarat anda benar-benar boleh menggunakannya. Anda tidak boleh mengajukan satu masalah dan membiarkannya berfikir lama tanpa memberikan jawapan—itu pasti tidak boleh diterima. Oleh sebab itu, banyak kemajuan penyelidikan dan banyak perkara yang ingin dilakukan menjadi terhambat.

Dua tahun lalu, saya ingat seorang akademikus mengatakan di Forum Zhongguancun: "Tanpa kartu, tanpa perasaan; bercakap tentang kartu merosakkan perasaan." Saya rasa hari ini kita berada pada titik yang sama, tetapi keadaannya berbeza. Kini kita memasuki fasa inferens, permintaan benar-benar meledak—meningkat sepuluh kali, seratus kali. Tadi anda menyebut penggunaan meningkat sepuluh kali, tetapi sebenarnya permintaan mungkin seratus kali? Masih terdapat banyak permintaan yang tidak terpenuhi, apa yang harus kita lakukan? Mari kita semua sama-sama fikirkan penyelesaian.