Tulisan | Alpha Partners
Kemampuan model AI besar, dalam beberapa aspek, telah melebihi kebanyakan orang, contohnya dalam pemrograman dan matematik. Menurut berita, Anthropic hampir mencapai 100% pemrograman AI, sementara Gemini Deep Think dari Google menyelesaikan 5 daripada 6 soal dalam IMO 2025, mencapai tahap pingat emas.
Namun, dalam penalaran visual, walaupun Gemini 3 Pro mempunyai prestasi terkemuka, ia hanya mencapai tahap kanak-kanak berumur 3 tahun dalam benchmark BabyVision yang menguji kemampuan penalaran visual asas.
Mengapa model besar kuat dalam pemrograman dan matematik, tetapi lemah dalam penalaran visual? Ini disebabkan oleh batasan dalam "cara berfikir"nya; model bahasa-visual (VLM) perlu mengubah input visual menjadi teks terlebih dahulu, kemudian melakukan penalaran berbasis teks, tetapi banyak tugas visual tidak dapat dinyatakan secara tepat dengan kata-kata, yang menyebabkan kemampuan penalaran visual model menjadi lemah.
Andrew Dai, yang bekerja di Google DeepMind selama 14 tahun, bekerja sama dengan pakar AI berpengalaman dari Apple, Yinfei Yang, untuk mendirikan perusahaan bernama Elorian AI, dengan tujuan meningkatkan kemampuan penalaran visual model dari tingkat "anak-anak" menjadi tingkat "dewasa", serta memberikan model kemampuan untuk berpikir secara asli dalam "ruang visual", sehingga menantang AGI di dunia fisik.
Elorian AI memperoleh pendanaan awal sebesar US$55 juta yang dipimpin bersama oleh Striker Venture Partners, Menlo Ventures, dan Altimeter, dengan penyertaan dari 49 Palms dan ilmuwan AI terkemuka termasuk Jeff Dean.
Peneraju model multimodal, ingin memberikan kemampuan penalaran kepada model visual
Andrew Dai, seorang Cina, lulusan sarjana komputer dari Cambridge dan doktor pembelajaran mesin dari Edinburgh, telah melakukan latihan di Google semasa pengajian doktoratnya, menyertai Google pada tahun 2012 dan tinggal selama 14 tahun sebelum memulakan perniagaan sendiri.

Sumber gambar: LinkedIn Andrew Dai
Selepas menyertai Google, beliau bersama Quoc V. Le menulis kertas kerja pertama mengenai pra-pelatihan model bahasa dan penyesuaian halus berbasiskan pengawasan, berjudul “Semi-supervised Sequence Learning”. Kertas kerja ini meletakkan asas kepada kelahiran GPT. Kertas kerja penemunya yang lain ialah “Glam: Efficient scaling of language models with mixture-of-experts”, yang membuka jalan kepada arsitektur MoE yang kini menjadi standard utama.
Sumber gambar: Google
Semasa di Google, beliau juga terlibat secara mendalam dalam hampir semua latihan model besar, dari PaLM hingga Gemini 1.5 dan Gemini 2.5. Atas pengaturan Jeff Dean, beliau bermula bertanggungjawab memimpin bahagian data Gemini (termasuk data sintetik) pada tahun 2023, dan pasukan ini kemudian diperluaskan kepada ratusan orang.
Sumber gambar: LinkedIn Yinfei Yang
Rakan usaha bersama Andrew Dai ialah Yinfei Yang, yang sebelumnya bekerja di Google Research selama empat tahun, fokus pada pembelajaran representasi multimodal, kemudian bergabung dengan Apple untuk bertanggung jawab atas pengembangan model multimodal.
Sumber gambar: arxiv
Karyanya yang terkenal, "Scaling up visual and vision-language representation learning with noisy text supervision", telah mendorong perkembangan pembelajaran representasi multimodal.
Ko-pendiri Elorian AI juga termasuk Seth Neel, yang sebelumnya merupakan AP (asisten profesor) di Harvard University dan pakar dalam bidang data dan AI.
Mengapa kita perlu membincangkan kertas-kertas inovatif yang ditulis oleh para penubuh bersama Elorian AI? Kerana apa yang mereka lakukan bukan sekadar pengoptimuman peringkat kejuruteraan, tetapi pembaruan paradigma dari struktur asas, untuk memindahkan AI dari pemahaman pintar berdasarkan teks kepada pemahaman pintar berdasarkan visual.
Saat ini, keadaan model AI ialah, walaupun berprestasi baik dalam tugas berbasis teks, model besar multimodal terkini sekalipun masih gagal dalam tugas visual grounding yang paling asas.
Sebagai contoh, bagaimana cara memasang sebahagian tertentu dengan tepat ke dalam suatu peralatan mekanikal supaya beroperasi dengan lebih tepat dan lebih cekap? Tugas fizikal ruang semacam ini sangat mudah untuk pelajar sekolah rendah, tetapi sangat sukar untuk model besar multimodal semasa ini.
Ini masih perlu mencari petunjuk dari biologi; dalam otak manusia, penglihatan merupakan matriks dasar yang menyokong banyak proses berfikir, dan kemampuan manusia menggunakan penglihatan dan penalaran spasial jauh lebih lama daripada menggunakan penalaran logik bahasa.
Sebagai contoh, untuk mengajar seseorang melalui sebuah labirin, menggambarkannya dengan kata-kata akan membuat orang bingung, tetapi dengan membuat sketsa, orang akan segera mengerti.
Sebagai contoh, walaupun seekor burung tidak memiliki bahasa, ia mampu mengenali dan menarik kesimpulan tentang ciri-ciri geografi melalui penglihatan, membolehkannya bermigrasi jarak jauh secara global. Ini adalah isyarat kuat yang menunjukkan bahawa untuk benar-benar memajukan kemampuan penalaran mesin, penglihatan kemungkinan besar merupakan arah evolusi yang betul.
Bayangkan sekiranya sejak awal pembinaan model, kita cuba menanamkan naluri visual biologi ini ke dalam gen AI, membina model multimodal asli yang mampu “memahami dan memproses teks, gambar, video, dan audio secara serentak”, sehingga model tersebut memiliki kemampuan memahami visual. Andrew Dai dan pasukannya ingin membina seorang “sinestesia semula jadi”, mengajar mesin tidak hanya untuk “melihat” dunia, tetapi juga “memahami” dunia.
Menurut Andrew Dai dan pasukannya, pemahaman mendalam terhadap "dunia fizikal" yang sebenar adalah kunci utama untuk mencapai lompatan pintar mesin generasi seterusnya, dan akhirnya mencapai "Kecerdasan Buatan Am Visual (Visual AGI)".
VLM dengan inferensi pasca-tindakan bukanlah jalan yang betul menuju inferensi visual
Sebelum ini bukan tidak ada pasukan yang cuba melakukan perkara ini; sebenarnya, pasukan Andrew Dai semasa di Gemini sudah menjadi salah satu pasukan terdepan secara global dalam bidang multimodal. Namun, model multimodal tradisional masih berpusat pada VLM (Visual Language Model), yang logiknya berasaskan pendekatan “dua langkah”: pertama, mengubah input visual menjadi teks, kemudian melakukan penalaran berdasarkan teks (kadang-kadang disertai dengan pemanggilan alat luar).
Namun, inferens selepas tindakan pada dasarnya mempunyai batasan, sama ada mudah menghasilkan ilusi model, atau banyak tugas visual tidak boleh digambarkan dengan tepat menggunakan teks.
Selain itu, model generasi visual seperti NanoBanana mempunyai kemampuan luar biasa dalam generasi multimodal, tetapi kemampuan generasi tidak sama dengan kemampuan penalaran; "pemikiran" mereka sebelum menghasilkan output masih bergantung pada model bahasa, bukan kemampuan penalaran asli.
Untuk membangun model yang benar-benar mampu memahami kompleksitas ruang, struktur, dan hubungan dalam dunia visual, diperlukan inovasi mendasar pada teknologi dasar.
Lalu, bagaimana cara berinovasi? Beberapa pendiri Elorian AI telah berkecimpung lama di bidang multimodal, dan pendekatan mereka adalah: menggabungkan secara mendalam pelatihan multimodal dengan arsitektur baru yang dirancang khusus untuk inferensi multimodal. Mereka meninggalkan pendekatan tradisional yang memperlakukan gambar sebagai input statis, dan sebaliknya melatih model untuk berinteraksi secara langsung dan mengoperasikan representasi visual untuk secara mandiri menganalisis struktur, hubungan, dan batasan fisik di dalamnya.
Of course, another core element is data, which is crucial in determining the performance and success of these models.
Andrew Dai menyatakan bahawa mereka memberi keutamaan kepada kualiti data, nisbah pencampuran data, sumber data, dan kepelbagaian data, serta melakukan inovasi pada lapisan data, membina semula rantai penalaran dalam ruang visual, serta menggunakan data sintetik secara meluas dan mendalam.
Keseluruhan usaha ini akan menghasilkan sistem AI baharu yang mampu melangkah melepasi “persepsi” visual yang ringkas ke arah “penarikan kesimpulan” visual yang lebih tinggi.
Sistem AI ini boleh menjadi model asas penalaran visual: membina model yang sangat generik, tetapi berprestasi sangat cemerlang dalam set kemampuan tertentu, iaitu penalaran visual.
Kerana ia adalah model asas umum, bidang aplikasinya seharusnya luas.
Pertama, di lintasan robot, ia boleh menjadi pusat saraf sistem yang kuat, memberikan kemampuan untuk beroperasi secara bebas di pelbagai persekitaran asing.
Sebagai contoh, dalam bidang robot, menghantar satu robot untuk menangani kegagalan keselamatan mendadak dalam persekitaran berbahaya. Ini memerlukan robot membuat keputusan pantas dan tepat pada ketika itu. Jika robot tidak mempunyai model asas kemampuan penarikan kesimpulan mendalam, orang tidak akan berani membiarkannya menekan butang atau mengendalikan tuil secara sembarangan. Tetapi jika ia mempunyai kemampuan penarikan kesimpulan yang sangat kuat, ia mungkin akan berfikir: “Sebelum mengendalikan panel ini, mungkin saya sepatutnya menarik tuil ini dahulu untuk mengaktifkan mekanisme perlindungan keselamatan.”
Selain itu, dalam pengurusan bencana, model dengan penalaran visual boleh memantau dan mencegah kebakaran hutan melalui analisis imej satelit; dalam bidang kejuruteraan, ia mampu memahami gambar rajah visual yang kompleks dan skema sistem dengan tepat, dan kepentingan kemampuan ini ialah bahawa hukum operasi dunia fizikal berbeza secara asas daripada dunia kod tulen, anda tidak boleh hanya merekabentuk sayap pesawat dengan menaip beberapa baris kod tulen.
Namun, model dan kemampuan Elorian AI pada masa kini masih berada di atas kertas sahaja; mereka merancang untuk melancarkan model yang mencapai SOTA dalam penalaran visual pada tahun 2026, ketika itu hasil mereka boleh diuji sama ada memenuhi jaminan yang dinyatakan.
Apabila AI benar-benar memiliki kemampuan "penalaran visual", bagaimana ia akan mengubah dunia fizikal?
Teknologi telah berulang kali diiterasi untuk membolehkan AI memahami dan mempengaruhi dunia fizikal yang sebenar.
Dari pengenalan imej era CV tradisional, ke model penghasilan imej AI generatif/model multimodal, hingga model dunia, pemahaman terhadap dunia fizikal terus meningkat.
Model asas penalaran visual pula kemungkinan besar akan terus berkembang, kerana dengan kemampuan penalaran visual, AI akan dapat memahami dunia fizikal dengan lebih mendalam, seterusnya mencapai kecerdasan mesin pada peringkat yang lebih tinggi.
Bayangkan apabila model yang memiliki pemahaman mendalam dan operasi halus memberi tenaga kepada industri kecerdasan embodi dan industri peranti AI, ia akan memperluaskan lingkup aplikasi mereka secara besar-besaran. Sebagai contoh, robot boleh melakukan penghasilan industri yang lebih boleh dipercayai, atau bidang penjagaan kesihatan; peranti AI, terutamanya peranti yang boleh dipakai, menjadi asisten peribadi yang lebih pintar.
Namun, di bawah teknologi-teknologi ini, tetaplah data. Andrew Dai juga menyatakan sebelum ini bahawa kualiti data, nisbah campuran data, sumber data, dan kepelbagaian data semuanya menentukan prestasi model.
Dalam bidang AI fizikal, syarikat-syarikat China, sama ada dari segi model atau data, lebih dekat dengan pemimpin dunia berbanding model teks berskala besar. Jika mampu memanfaatkan kelebihan data dan aplikasi yang lebih pelbagai untuk mempercepatkan kadar iterasi, maka sama ada kecerdasan badani atau peranti AI, sama ada digunakan dalam industri, perubatan, atau rumah, terdapat peluang yang lebih besar untuk mencapai tahap terdepan, serta peluang untuk menghasilkan syarikat berkelas dunia.
