Artikel | LetterAI
Sehari sebelum liburan Hari Buruh, DeepSeek tiba-tiba merilis laporan teknologi multimodal visual.
Sebelum membukanya, saya sudah punya perkiraan kira-kira seberapa jauh dan seberapa jelas yang bisa saya lihat.
Setelah semua, selama setahun terakhir, model multimodal pada dasarnya semua bersaing ke arah ini. OpenAI membahas thinking with images, memungkinkan model untuk memotong, memperbesar, dan memutar gambar selama proses penalaran; Gemini dan Claude juga berusaha membuat model mampu menangani input visual dengan resolusi lebih tinggi dan lebih kompleks.
Asumsi umum adalah bahwa semakin detail model melihat, semakin kuat pula penalaran visualnya.
Namun, setelah membaca laporan DeepSeek ini, Anda akan menemukan bahwa mereka benar-benar mengambil jalan yang berbeda.
DeepSeek tidak fokus pada "membuat model melihat lebih banyak piksel", mereka menaruh perhatian pada masalah yang lebih mendasar.
Meskipun model sudah melihat dengan jelas, bagaimana Anda bisa memastikan bahwa model dan Anda merujuk pada hal yang sama selama proses penalaran?
Sebenarnya ini adalah titik lemah paling sering diabaikan dalam inferensi multimodal.
Saat manusia melihat gambar, mereka bisa menggunakan jari untuk menandai objek. Misalnya, "Orang ini siapa", "Orang itu siapa". Tapi bagaimana model tahu yang kamu maksud itu yang mana?
Model hanya bisa menggunakan bahasa untuk mengatakan "yang kiri", "yang atas", "garis ini". Begitu gambar menjadi rumit, referensi bahasa akan bergeser, dan penalaran pun ikut runtuh.
Jadi DeepSeek berkata, mengapa tidak memberi model satu “jari” saja?
It turns dots and bounding boxes into fundamental units for the model to think with, allowing the model to reason while pointing at objects with this cyber finger.
01 From Continuous Vision to Discrete Symbols
DeepSeek dalam laporan teknis ini mengajukan pertanyaan yang menarik. Mereka berpendapat bahwa tantangan sejati dari model multimodal bukanlah melihat gambar, melainkan secara stabil menunjuk ke objek visual yang sama selama proses penalaran berkelanjutan.
Misalnya Anda berkata kepada teman Anda, “Di pasar sayur, stand nenek Zhang menjual sayuran yang paling segar.” Tapi di pasar sayur, ada terlalu banyak nenek dan kakek, siapa sebenarnya nenek Zhang?
Tetapi jika kamu langsung menunjuk dengan jari dan berkata, "Itu dia," temanmu akan segera mengerti.
DeepSeek menamai masalah ini sebagai "Reference Gap".
Dalam setahun terakhir, hampir semua model multimodal canggih telah menyelesaikan masalah "Perception Gap".
Misalkan ada sebuah foto di depan Anda, jika foto terlalu kabur atau resolusinya terlalu rendah, Anda mungkin tidak bisa membaca teks kecil atau detail jauh di dalamnya. AI juga demikian; jika kualitas gambar masukan tidak memadai atau cara pemrosesannya salah, AI akan "tidak bisa melihat dengan jelas"—inilah yang disebut kesenjangan persepsi.
Model-model seperti GPT, Claude, dan Gemini terus meningkatkan resolusi, memperkenalkan cropping resolusi tinggi, pemotongan dinamis, dan pemrosesan multi-skala, dengan tujuan agar model dapat melihat lebih banyak detail.
Arah ini tentu memiliki nilai, tetapi DeepSeek dalam laporannya menunjukkan bahwa bahkan jika model melihat dengan sangat jelas, ia masih akan mengalami kegagalan logis dalam tugas penalaran ruang yang kompleks.
Masalahnya ada pada bahasa alami itu sendiri.
Ada belasan anjing dalam foto, jika Anda mengatakan "anjing di sebelah kiri", model tidak akan bisa memahami anjing mana yang Anda maksud.
Masih ada yang lebih parah, jika Anda meminta model untuk menghitung jumlah anjing dalam foto, model tersebut dengan mudah menjadi bingung selama proses inferensi tentang mana yang sudah dihitung dan mana yang belum.
Laporan tersebut juga menyebutkan kasus ekstrem seperti navigasi labirin, di mana bahasa murni tidak dapat secara akurat menggambarkan jalur bentuk tidak beraturan dan hubungan topologis yang kompleks.
Bahasa sebagai alat referensi secara alami kabur dalam ruang visual yang kontinu. Bahasa unggul dalam konsep abstrak dan hubungan sebab-akibat, tetapi memiliki keterbatasan mendasar dalam ekspresi posisi spasial dan hubungan topologis.
DeepSeek sendiri adalah model bahasa umum, lalu bagaimana cara menyelesaikannya?
Oleh karena itu, muncullah "jari" yang disebutkan di awal artikel.
Konsep inti yang mereka ajukan adalah "Visual Primitives", yaitu meningkatkan dua tanda spasial paling dasar dalam komputer vision—bounding boxes dan points—menjadi "unit terkecil dari pemikiran".
Model multimodal sebelumnya memang bisa memberi kotak annotasi pada objek, tetapi hanya menunjukkan hasil akhir, membuktikan "saya menemukannya". Seperti saat ujian, Anda hanya mengirim jawaban tanpa menulis proses penyelesaiannya.
Beberapa penelitian juga memungkinkan AI untuk menggambar kotak selama proses berpikir, tetapi tujuannya hanya untuk “melihat lebih akurat”, kotak-kotak tersebut hanyalah alat bantu. Seperti ketika Anda mengerjakan soal matematika menggunakan kertas coretan, kertas coretan hanya membantu Anda menghitung lebih jelas, bukan bagian dari strategi pemecahan masalah.
DeepSeek ingin melakukan sesuatu yang sama sekali berbeda.
Mereka menyematkan penanda ruang ini langsung ke dalam proses inferensi model, menjadikannya bagian organik dari inferensi. Saat berpikir, model tidak hanya menggambarkan secara verbal "Saya melihat seekor anjing", tetapi juga menghasilkan output "Saya melihat seekor anjing, ia berada di sini: [[x1,y1,x2,y2]]".
Mekanisme ini disebut oleh DeepSeek sebagai "point while it reasons".

Setiap langkah pemikiran model diarahkan pada koordinat spesifik gambar.
Laporan teknis hanya memberikan contoh ini: model memulai dari titik awal, menjelajahi, mundur, dan mencoba lagi, hingga menghasilkan rangkaian koordinat lengkap, di mana setiap koordinat sesuai dengan satu titik yang telah dilewati di labirin.
Dengan cara ini, model tidak akan tersesat selama proses inferensi. Model tidak akan bingung tentang apa yang sedang dibicarakan atau ditunjuk. Setiap objek visual memiliki titik anchoring spasial yang jelas, sehingga proses inferensi menjadi dapat dilacak dan diverifikasi.
Jalur teknis ini membentuk perbandingan menarik dengan arah OpenAI.
OpenAI secara resmi menyebutkan konsep "thinking with images" dalam pengenalan o3 dan o4-mini, yaitu model dapat memasukkan gambar ke dalam rantai pemikiran dan memproses gambar melalui pemotongan, pembesaran, rotasi, dan cara lainnya. Fokus arah ini adalah menjadikan gambar itu sendiri sebagai bagian dari rantai pemikiran, sehingga model dapat menghasilkan gambar baru, memodifikasi gambar, atau melakukan operasi pada gambar selama proses penalaran.
OpenAI's roadmap emphasizes general capabilities, with vision, code, search, files, and tool calling working together. The model features a powerful "visual workspace" that can flexibly handle various visual tasks.
Rute DeepSeek lebih "simbolis". Ia membuat koordinat memasuki rantai pemikiran. Model secara eksplisit menuliskan koordinat bounding box dan titik dalam teks penalaran, mengubah objek visual menjadi titik acuan yang dapat digunakan ulang saat penalaran.
Ini menyebabkan penalaran visual OpenAI terjadi di dalam, sehingga pengguna hanya dapat melihat jawaban akhir dan penjelasan yang diperlukan, sementara proses pemrosesan visual tengah adalah kotak hitam. DeepSeek sengaja memperjelas titik-titik visual tengah, sehingga proses penalaran menjadi sepenuhnya transparan.
Dengan cara ini, DeepSeek memungkinkan proses inferensi lebih mudah dilatih, diperiksa, dan dinilai. Ini juga membuatnya lebih mudah untuk merancang reward berdasarkan format, kualitas, dan tingkat tugas. Terutama dalam tugas seperti labirin dan pelacakan jalur, dapat memberikan umpan balik yang lebih rinci mengenai validitas jalur, tingkat cakupan trajektori, dll.
Model tidak hanya belajar menghasilkan jawaban yang benar, tetapi juga belajar cara bernalar menggunakan primitif visual.
02 Efisiensi adalah intinya
Ada detail yang sangat mudah diabaikan namun sangat penting dalam laporan DeepSeek ini: model mereka menggunakan jumlah token jauh lebih sedikit daripada model mutakhir lainnya saat memproses gambar.
Laporan tersebut mencakup grafik perbandingan yang menunjukkan jumlah token yang dikonsumsi oleh berbagai model saat memproses gambar dengan resolusi 800×800.
Gemini-3-Flash sekitar 1.100, Claude-Sonnet-4.6 sekitar 870, GPT-5.4 sekitar 740, Qwen3-VL sekitar 660, DeepSeek sekitar 361, dan hanya menyimpan sekitar 90 entri dalam cache KV.
Selisih ini bukan sedikit. Jumlah token yang digunakan DeepSeek hanya sepertiga dari Gemini, dan entri cache KV bahkan hanya sekitar sepersepuluh.
Bagaimana efisiensi ekstrem ini dicapai?
DeepSeek menggunakan mekanisme yang disebut "Compressed Sparse Attention" (CSA).
Anda bisa memahaminya seperti ini, misalnya Anda menunjukkan foto keluarga kepada teman, Anda tidak akan mengatakan “Mulai dari piksel ke-237 dari kiri ada area merah...”, Anda akan langsung mengatakan “Di kiri adalah ibu saya, di kanan adalah ayah saya.”
DeepSeek-ViT terlebih dahulu memampatkan gambar menjadi lebih sedikit token visual, lalu CSA memampatkan lebih lanjut representasi token visual tersebut dalam cache KV.
Mekanisme ini telah digunakan pada model DeepSeek-V4-Flash, dan sekarang diterapkan pada multimodal visual.
Proses kompresi spesifiknya adalah sebagai berikut. Sebuah gambar berukuran 756×756 yang mengandung 571536 piksel pertama-tama diproses oleh ViT, dipotong dengan ukuran patch 14×14, menghasilkan 2916 patch token. Kemudian dilakukan kompresi spasial 3×3, di mana setiap 9 token yang berdekatan dikompres menjadi 1 token sepanjang dimensi saluran, menjadi 324 token visual.
324 token ini dimasukkan ke dalam model bahasa besar untuk pre-filling. Akhirnya, mekanisme CSA akan mengompresi token visual ini sebanyak 4 kali di dalam cache KV, sehingga hanya menyisakan 81 entri.
Dari 571536 piksel menjadi 81 entri cache KV, rasio kompresi keseluruhan mencapai 7056 kali.
Perusahaan AI besar biasanya menggunakan metode brute force untuk mengumpulkan sumber daya komputasi, sementara DeepSeek melakukan kompromi pada tingkat teori informasi, hanya menyisakan informasi yang paling intuitif dan mudah dipahami.
Hasil paling langsungnya adalah kecepatan inferensi menjadi jauh lebih cepat.
Jumlah token gambar secara langsung memengaruhi latensi inferensi model. Dalam proses generasi autoregresif, setiap kali token baru dihasilkan, model harus melakukan perhitungan perhatian pada cache KV dari semua token sebelumnya. Jika gambar memakan 1000 token, maka setiap generasi harus melakukan perhatian terhadap 1000 token ini. Jika hanya memakan 90 token, beban komputasi akan berkurang secara signifikan.
Untuk skenario aplikasi yang memerlukan respons real-time, seperti visi robotika, kendaraan otonom, dan analisis video real-time, peningkatan kecepatan inferensi memainkan peran penentu.
Dan itu juga menggunakan sedikit memori.
KV cache merupakan bottleneck memori dalam inferensi model besar. Terutama saat menangani konteks panjang atau inferensi batch, KV cache akan memakan banyak memori GPU. DeepSeek mengompresi KV cache dari token visual menjadi 90 entri, yang berarti dapat memproses lebih banyak gambar atau percakapan multi-putaran yang lebih panjang pada perangkat keras yang sama.
Ini sangat penting untuk implementasi nyata. Banyak model multimodal perusahaan berkinerja baik di laboratorium, tetapi menghadapi masalah biaya saat diterapkan secara nyata. Semakin banyak token yang dikonsumsi setiap gambar, semakin tinggi biaya inferensi dan semakin sedikit pengguna paralel yang dapat didukung. Keunggulan efisiensi DeepSeek akan diperbesar saat skala deployment.
Juga secara tidak langsung meningkatkan kapasitas konteks model.
Jika satu gambar memerlukan 1000 token, maka dalam jendela konteks 128k, hanya dapat memuat lebih dari 100 gambar. Jika hanya memerlukan 300 token, maka dapat memuat lebih dari 400 gambar. Ini sangat penting untuk skenario yang memerlukan penanganan percakapan multi-gambar, analisis video panjang, dan pemahaman dokumen dalam jumlah besar.
Model DeepSeek dapat memproses lebih banyak gambar dalam satu percakapan, membandingkan dan menganalisis puluhan bahkan ratusan gambar, serta melacak perubahan jangka panjang dalam video.
Yang paling penting adalah biaya pelatihan.
Meskipun laporan terutama membahas efisiensi inferensi, mekanisme kompresi ini juga efektif selama tahap pelatihan. Lebih sedikit token visual berarti grafik komputasi yang lebih kecil, kecepatan pelatihan yang lebih cepat, dan persyaratan perangkat keras yang lebih rendah.
DeepSeek selalu dikenal karena "menghasilkan hasil lebih baik dengan sumber daya lebih sedikit". Dari pelatihan pembelajaran penguatan R1, hingga arsitektur MoE V4, hingga multimodal visual saat ini, filosofi yang mengutamakan efisiensi ini berlangsung secara konsisten.
Tetapi ada masalah kunci di sini. Apakah kompresi akan menyebabkan kehilangan informasi?
DeepSeek tidak menyangkal bahwa kompresi menyebabkan kehilangan informasi. Klaimnya adalah, pada rangkaian tugas penalaran spasial dan penghitungan ini, representasi yang dikompresi tetap cukup efektif.
Setiap kompresi menyimpan informasi paling penting untuk inferensi, sambil menghilangkan redundansi dan noise.
Sebenarnya, mekanisme visual primer DeepSeek yang disebutkan sebelumnya juga merupakan bentuk kompresi informasi. Sebuah bounding box dapat secara tepat menentukan posisi objek dengan hanya 4 angka, dan sebuah titik dapat menandai lokasi dengan hanya 2 angka. Simbol-simbol diskret ini membawa kepadatan informasi yang jauh lebih tinggi daripada piksel asli.
Dari hasil eksperimen, kompresi ini tidak merusak kinerja, bahkan meningkatkan performa pada beberapa tugas.
Ini menunjukkan bahwa untuk banyak tugas penalaran visual, bottlenecknya bukan pada ketidakjelasan penglihatan, tetapi pada belum ditemukannya cara representasi yang tepat.
Keunggulan efisiensi ini juga membuktikan bahwa kecerdasan multimodal tidak selalu memerlukan model yang lebih besar, lebih banyak daya komputasi, atau biaya yang lebih tinggi.
Sejak lahirnya DeepSeek, perusahaan ini selalu memiliki garis tersembunyi, “Kecerdasan sejati bukan terletak pada kekuatan komputasi, tetapi pada pemahaman terhadap esensi masalah.”
Ketika Anda benar-benar memahami apa yang dibutuhkan oleh penalaran visual, Anda tidak memerlukan begitu banyak token. Ketika Anda menemukan cara representasi yang tepat, Anda tidak memerlukan model yang sebesar itu.
Dari sudut pandang ini, efisiensi ekstrem DeepSeek bukanlah tujuan, melainkan produk sampingan. Tujuan sebenarnya adalah menemukan paradigma yang tepat untuk penalaran visual. Efisiensi hanyalah bukti bahwa paradigma ini benar.
03 Hal yang Belum Selesai
DeepSeek secara jujur mencantumkan beberapa masalah yang ada pada metode saat ini di bagian keterbatasan laporan. Masalah-masalah ini bukanlah kelemahan kecil pada detail teknis, melainkan menunjuk pada tahap berikutnya dari penalaran visual.
Masalah pertama adalah ketergantungan pada kata pemicu.
Laporan secara jelas menyatakan bahwa kemampuan "berpikir dengan primitif visual" saat ini memerlukan kata pemicu eksplisit untuk diaktifkan. Artinya, model belum dapat secara alami dan otonom memutuskan "kapan harus menggambar kotak atau titik".
Ini berarti model belum benar-benar belajar kapan harus menggunakan visual primitives dan kapan bahasa sudah cukup.
Secara ideal, model seharusnya dapat membuat keputusan mandiri berdasarkan sifat tugas. Namun, ketika pengguna bertanya, “Berapa banyak anjing yang ada di gambar?”, model seharusnya secara otomatis beralih ke mode primitif visual untuk membantu penghitungan dengan kotak batas.
Secara teknis, ini memerlukan pembuatan lapisan metakognitif dalam model. Lapisan metakognitif ini dapat mengevaluasi kompleksitas tugas saat ini, menentukan apakah penalaran bahasa murni sudah cukup, dan memutuskan apakah perlu memanggil primitif visual.
DeepSeek saat ini belum mengimplementasikan lapisan meta-kognisi ini, tetapi mereka telah menetapkan arahnya. Versi mendatang mungkin akan memungkinkan model belajar memutuskan strategi penalaran secara mandiri, bukan bergantung pada pemicu eksternal.
Masalah kedua adalah batasan resolusi.
Laporan tersebut menyebutkan bahwa, karena batasan resolusi masukan, kinerja model dalam skenario halus belum optimal, dan primitif visual yang dihasilkan terkadang tidak akurat.
Masalah ini terkait dengan strategi efisiensi DeepSeek. Untuk mengontrol jumlah token, mereka membatasi rentang token visual antara 81 hingga 384. Untuk gambar yang melebihi rentang ini, akan dilakukan proses penskalaan.
Desain ini masuk akal dalam sebagian besar skenario, tetapi akan menghadapi batasan dalam tugas-tugas yang memerlukan presisi sangat tinggi. Misalnya, analisis citra medis memerlukan identifikasi lesi kecil, sementara pemeriksaan kualitas industri memerlukan deteksi cacat halus—skenario-skenario ini menuntut resolusi yang tinggi.
DeepSeek dalam laporan tersebut menyebutkan bahwa masalah ini dapat diatasi dengan mengintegrasikan metode resolusi tinggi yang sudah ada. Artinya, kerangka kerja primitif visual mereka dan metode pemotongan resolusi tinggi tradisional bukanlah saling bertentangan, melainkan saling melengkapi.
Saya merasa DeepSeek bisa mengeluarkan solusi hibrida.
Secara khusus, untuk sebagian besar tugas rutin, gunakan representasi visual yang dikompresi dan penalaran berbasis primitif visual untuk menjaga efisiensi tinggi. Untuk area lokal yang memerlukan analisis fine-grained, panggil secara dinamis potongan resolusi tinggi untuk mengekstrak informasi visual yang lebih rinci. Dengan demikian, efisiensi keseluruhan tetap terjaga sambil memenuhi kebutuhan akurasi lokal.
Kunci dari solusi hibrida ini adalah membuat model belajar menilai area mana yang memerlukan pemrosesan resolusi tinggi. Maka ini kembali pada masalah metakognitif tadi.
Masalah ketiga adalah generalisasi lintas skenario.
Laporan tersebut menyatakan bahwa menggunakan titik sebagai primitif visual untuk menyelesaikan masalah penalaran topologis kompleks masih sulit, dan kemampuan generalisasi model lintas skenario terbatas.
Masalah ini terlihat jelas dalam tugas navigasi labirin dan pelacakan jalur. Meskipun DeepSeek mencapai akurasi 66,9% dan 56,7% pada himpunan uji yang dibuat sendiri, melebihi model lain, angka-angka ini sendiri masih belum cukup.
Lebih penting lagi, tugas-tugas ini dilatih dan diuji menggunakan data sintetis. Labirin dihasilkan secara algoritmik, dan kurva pelacakan jalur juga digambar secara prosedural. Ketika model menghadapi masalah penalaran topologi di dunia nyata, seperti merencanakan rute pada peta nyata atau melacak koneksi dalam diagram pipa yang kompleks, kinerjanya mungkin menurun.
Metode DeepSeek adalah dengan meningkatkan kemampuan generalisasi melalui data berskala besar dan beragam tinggi. Mereka mengambil data dari 97.984 sumber, setelah penyaringan ketat, 31.701 sumber dipertahankan, dan akhirnya menghasilkan lebih dari 40 juta sampel. Dalam tugas labirin dan pelacakan jalur, mereka juga merancang berbagai struktur topologi, gaya visual, dan tingkat kesulitan untuk mencakup sebanyak mungkin variasi.
Namun, keragaman data hanyalah sebagian dari kemampuan generalisasi. Apakah model benar-benar memahami esensi penalaran topologis, atau apakah itu hanya mengingat pola dalam data pelatihan?
Selain itu, primitif visual DeepSeek adalah sistem representasi baru yang memerlukan format data, proses pelatihan, dan metode evaluasi khusus. Ini tidak sepenuhnya kompatibel dengan ekosistem multimodal yang ada.
Sebagian besar dataset dan benchmark multimodal dirancang berdasarkan paradigma tradisional "gambar + teks" tanpa mempertimbangkan visual primitives. Jika ingin mengevaluasi model DeepSeek pada benchmark ini, either perlu menonaktifkan fitur visual primitives, atau perlu merancang ulang metode evaluasinya.
Peneliti lain yang ingin mereproduksi atau meningkatkan pekerjaan ini perlu membangun ulang seluruh proses data dan pelatihan, sehingga hambatannya cukup tinggi.
DeepSeek dapat membahas masalah-masalah ini dalam laporan mereka, menunjukkan bahwa mereka memiliki kesadaran yang jelas terhadap pekerjaan mereka.
Ini mungkin lebih berharga daripada memberikan jawaban yang sempurna. Karena yang sering mendorong kemajuan sosial bukanlah jawaban, melainkan pertanyaan.
