Artikel | Alpha公社
Kemampuan model AI besar, di beberapa aspek, telah melampaui rata-rata orang, misalnya dalam pemrograman dan matematika. Menurut kabar, Anthropic hampir mencapai 100% pemrograman oleh AI, dan Gemini Deep Think dari Google menyelesaikan 5 dari 6 soal di IMO 2025, mencapai level medali emas.
Namun, dalam penalaran visual, bahkan Gemini 3 Pro yang memiliki kinerja terdepan hanya mencapai tingkat anak usia 3 tahun pada benchmark BabyVision yang menguji kemampuan penalaran visual dasar.
Mengapa model besar kuat dalam pemrograman dan matematika, tetapi lemah dalam penalaran visual? Ini disebabkan oleh keterbatasan dalam "cara berpikir"nya; model bahasa-visual (VLM) harus terlebih dahulu mengubah input visual menjadi teks, lalu melakukan penalaran berbasis teks, namun banyak tugas visual tidak dapat dijelaskan secara tepat dengan kata-kata, sehingga menyebabkan kemampuan penalaran visual model menjadi lemah.
Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bersama dengan Yinfei Yang, pakar AI senior dari Apple, mendirikan perusahaan bernama Elorian AI, dengan tujuan meningkatkan kemampuan penalaran visual model dari tingkat "anak-anak" menjadi tingkat "dewasa", serta memberikan model kemampuan untuk berpikir secara asli di dalam "ruang visual", sehingga menantang AGI di dunia fisik.
Elorian AI memperoleh pendanaan awal sebesar $55 juta yang dipimpin bersama oleh Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan partisipasi dari 49 Palms dan ilmuwan AI terkemuka termasuk Jeff Dean.
Pioneer dari model multimodal, ingin memberikan kemampuan penalaran pada model visual
Andrew Dai, seorang keturunan Tiongkok, lulusan sarjana komputer dari Cambridge dan doktor pembelajaran mesin dari Edinburgh, melakukan magang di Google selama masa doktoralnya, bergabung dengan Google pada tahun 2012 dan tetap bekerja selama 14 tahun hingga memulai usaha sendiri.

Sumber gambar: LinkedIn Andrew Dai
Tidak lama setelah bergabung dengan Google, ia bersama Quoc V. Le menulis makalah pertama tentang pre-training model bahasa dan fine-tuning terawasi berjudul “Semi-supervised Sequence Learning”. Makalah ini meletakkan dasar bagi kelahiran GPT. Makalah pendiri lainnya adalah “Glam: Efficient scaling of language models with mixture-of-experts”, yang membuka jalan bagi arsitektur MoE yang kini menjadi standar utama.
Sumber gambar: Google
Selama di Google, ia juga secara mendalam terlibat dalam hampir semua pelatihan model besar, mulai dari PaLM hingga Gemini 1.5 dan Gemini 2.5. Atas arahan Jeff Dean, ia mulai memimpin divisi data Gemini (termasuk data sintetis) pada tahun 2023, dan tim ini kemudian berkembang menjadi ratusan orang.
Sumber gambar: LinkedIn Yinfei Yang
Bersama Andrew Dai, Yinfei Yang yang sebelumnya bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple untuk mengelola pengembangan model multimodal.
Sumber gambar: arxiv
Hasil penelitian representatifnya, "Scaling up visual and vision-language representation learning with noisy text supervision", mendorong perkembangan pembelajaran representasi multimodal.
Co-founder Elorian AI juga mencakup Seth Neel, yang sebelumnya merupakan AP (Asisten Profesor) di Harvard University dan ahli di bidang data dan AI.
Mengapa kita perlu membahas makalah-makalah inovatif yang ditulis oleh para pendiri bersama Elorian AI? Karena yang mereka lakukan bukanlah optimasi tingkat teknik, melainkan pembaruan paradigma dari arsitektur dasar, mengubah AI dari pemahaman cerdas berbasis teks menjadi pemahaman cerdas berbasis visual.
Saat ini, kondisi model AI adalah bahwa meskipun tampil sangat baik dalam tugas berbasis teks, bahkan model multimodal canggih teratas sekalipun masih mengalami kesulitan dalam tugas visual grounding paling dasar.
Misalnya, bagaimana cara memasang suatu komponen dengan pas sempurna ke dalam suatu perangkat mekanis agar beroperasi lebih akurat dan lebih efisien? Tugas fisika spasial semacam ini sangat mudah bagi siswa sekolah dasar, tetapi sangat sulit bagi model bahasa multimodal saat ini.
Ini masih harus mencari petunjuk dari biologi, di otak manusia, penglihatan merupakan matriks dasar yang mendukung banyak proses berpikir, kemampuan manusia menggunakan penglihatan dan penalaran spasial jauh lebih lama daripada menggunakan penalaran logis bahasa.
Misalnya, untuk mengajarkan seseorang menyelesaikan labirin, menjelaskan dengan kata-kata akan membuat orang bingung, tetapi menggambar sketsa akan membuat mereka langsung mengerti.
Misalnya, bahkan seekor burung, meskipun tidak memiliki bahasa, mampu mengenali dan menalar fitur geografis melalui visual, sehingga dapat melakukan migrasi jarak jauh secara global. Ini adalah sinyal kuat yang menunjukkan bahwa untuk benar-benar memajukan kemampuan penalaran mesin, kemungkinan besar visual adalah arah evolusi yang tepat.
Bayangkan jika sejak awal pembangunan model, kita mencoba menanamkan naluri visual biologis ini ke dalam gen AI, membangun model multimodal asli yang mampu “memahami dan memproses teks, gambar, video, dan audio secara bersamaan,” sehingga model memiliki kemampuan memahami visual. Andrew Dai dan tim ingin membangun seorang “sinestesia alami,” mengajari mesin tidak hanya “melihat” dunia, tetapi juga “memahami” dunia.
Menurut Andrew Dai dan timnya, pemahaman mendalam terhadap "dunia fisik" yang sebenarnya adalah kunci utama untuk mencapai lompatan cerdas mesin generasi berikutnya, dan pada akhirnya mencapai "Visual AGI".
VLM dengan inferensi tertunda bukanlah jalur yang tepat menuju inferensi visual
Sebelumnya bukan tidak ada tim yang ingin melakukan hal ini; sebenarnya tim Andrew Dai sebelumnya di Gemini sudah menjadi salah satu tim paling terkemuka di dunia dalam bidang multimodal. Namun, model multimodal tradisional masih didominasi oleh VLM (Visual Language Model), yang logikanya didasarkan pada pendekatan “dua langkah”: pertama, mengubah input visual menjadi teks, lalu melakukan penalaran berbasis teks (kadang dibantu dengan memanggil alat eksternal).
Namun, inferensi pasca-pemrosesan pada dasarnya memiliki keterbatasan, di satu sisi mudah menimbulkan ilusi model, di sisi lain banyak tugas visual yang tidak dapat dijelaskan secara tepat dengan teks.
Selain itu, model generasi visual seperti NanoBanana memiliki kemampuan luar biasa dalam generasi multimodal, tetapi kemampuan generasi tidak sama dengan kemampuan penalaran; "pemikiran" yang mereka lakukan sebelum menghasilkan konten pada dasarnya masih bergantung pada model bahasa, bukan kemampuan penalaran asli.
Untuk mengembangkan model yang benar-benar mampu memahami kompleksitas ruang, struktur, dan hubungan di dunia visual, diperlukan inovasi mendasar pada teknologi dasar.
Lalu, bagaimana inovasinya? Beberapa pendiri Elorian AI telah lama terlibat dalam bidang multimodal, dan pendekatan mereka adalah: mengintegrasikan secara mendalam pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk inferensi multimodal. Mereka meninggalkan praktik tradisional yang memperlakukan gambar sebagai input statis, dan beralih ke pelatihan model untuk secara langsung berinteraksi dan mengoperasikan representasi visual untuk secara mandiri menganalisis struktur, hubungan, dan batasan fisik di dalamnya.
Of course, another core element is data, which determines the performance and success of these models.
Andrew Dai menyatakan bahwa mereka sangat memperhatikan kualitas data, rasio pencampuran data, sumber data, serta keragaman data, serta melakukan inovasi di lapisan data, merekonstruksi rantai penalaran dalam ruang visual, dan secara luas serta mendalam menggunakan data sintetis.
Upaya-upaya ini secara terpadu akan menciptakan sistem AI baru yang mampu melampaui “persepsi” visual sederhana dan menuju “penalaran” visual tingkat tinggi.
Sistem AI ini bisa menjadi model dasar penalaran visual: membangun model yang sangat universal, tetapi berkinerja sangat unggul dalam kumpulan kemampuan tertentu, yaitu penalaran visual.
Karena merupakan model dasar umum, bidang aplikasinya seharusnya luas.
Pertama, di lintasan robot, ia dapat menjadi pusat saraf sistem yang kuat, memberikan kemampuan untuk beroperasi mandiri di berbagai lingkungan asing.
Misalnya, di bidang robot, mengirimkan robot untuk menangani kegagalan keamanan mendadak di lingkungan berbahaya. Ini memerlukan keputusan instan yang cepat dan akurat dari robot. Jika robot tidak memiliki model dasar kemampuan penalaran mendalam, orang tidak akan berani membiarkannya menekan tombol atau mengoperasikan tuas secara sembarangan. Namun, jika ia memiliki kemampuan penalaran yang sangat kuat, ia mungkin akan berpikir: “Sebelum mengoperasikan panel ini, mungkin saya sebaiknya menarik tuas ini terlebih dahulu untuk mengaktifkan mekanisme perlindungan keamanan.”
Selain itu, dalam manajemen bencana, model dengan kemampuan penalaran visual dapat memantau dan mencegah kebakaran hutan melalui analisis citra satelit; di bidang teknik, ia dapat memahami dengan akurat gambar visual yang kompleks dan diagram sistem, yang maknanya terletak pada perbedaan mendasar antara hukum operasi dunia fisik dan dunia kode murni—Anda tidak bisa hanya dengan mengetik beberapa baris kode murni untuk merancang sayap pesawat.
Namun, saat ini model dan kemampuan Elorian AI masih hanya ada di atas kertas; mereka berencana meluncurkan model yang mencapai SOTA di bidang visual reasoning pada tahun 2026, saat itu hasil mereka dapat diverifikasi apakah sesuai dengan klaimnya.
Ketika AI benar-benar memiliki kemampuan "penalaran visual", bagaimana hal itu akan mengubah dunia fisik?
Teknologi telah mengalami beberapa iterasi untuk memungkinkan AI memahami dan memengaruhi dunia fisik nyata.
Dari pengenalan gambar di era CV tradisional, hingga model generatif AI untuk gambar/model multimodal, hingga model dunia, pemahaman terhadap dunia fisik terus meningkat.
Sedangkan model dasar penalaran visual sangat mungkin berkembang lebih jauh, karena dengan kemampuan penalaran visual, AI dapat memahami dunia fisik secara lebih mendalam, sehingga mencapai kecerdasan mesin pada tingkat yang lebih tinggi.
Bayangkan ketika model dengan pemahaman mendalam dan operasi halus memberi daya pada industri kecerdasan tubuh dan industri perangkat keras AI, yang akan sangat memperluas cakupan aplikasinya. Misalnya, robot dapat melakukan produksi industri dengan keandalan lebih tinggi, atau di bidang perawatan medis; perangkat keras AI, terutama perangkat yang dapat dipakai, menjadi asisten pribadi yang lebih cerdas.
Namun, di balik teknologi-teknologi ini, tetaplah data. Andrew Dai juga menyatakan sebelumnya bahwa kualitas data, rasio pencampuran data, sumber data, serta keragaman data menentukan kinerja model.
Di bidang AI fisik, perusahaan-perusahaan Tiongkok, baik di tingkat model maupun data, jauh lebih dekat dengan pemimpin dunia dibandingkan model bahasa besar. Jika mampu memanfaatkan keunggulan data dan aplikasi yang lebih beragam untuk mempercepat kecepatan iterasi, maka baik dalam bidang embodied intelligence maupun perangkat keras AI, baik diterapkan di industri, kesehatan, maupun rumah tangga, memiliki peluang lebih besar untuk mencapai tingkat terdepan, sekaligus berpotensi melahirkan perusahaan kelas dunia.
