DeepSeek Memperkenalkan Primitif Visual untuk Meningkatkan Penalaran Spasial AI

Tulisan | Huruf AI

Sehari sebelum cuti Hari Pekerja, DeepSeek tiba-tiba mengeluarkan laporan teknologi multi-modal visual.

Sebelum saya klik, saya agak ada harapan, cuma tentang sejauh mana saya boleh lihat dan sejelas apa saya boleh melihat.

Setelah setahun terakhir, model multimodal semuanya berlomba ke arah ini. OpenAI membincangkan thinking with images, membenarkan model memotong, memperbesar, dan memutar gambar semasa penalaran; Gemini dan Claude juga berusaha membolehkan model mengolah input visual yang lebih beresolusi tinggi dan lebih kompleks.

Anggapan umum adalah bahawa semakin halus model melihat, semakin kuat penalaran visualnya.

Tetapi setelah membaca laporan DeepSeek ini, anda akan mendapati bahawa mereka sepenuhnya mengambil jalan yang berbeza.

DeepSeek tidak menumpukan perhatian pada "membolehkan model melihat lebih banyak piksel", mereka menumpukan perhatian pada masalah yang lebih asas.

Walaupun model telah melihat dengan jelas, bagaimana anda boleh memastikan bahawa model dan anda merujuk kepada perkara yang sama semasa proses penarikan kesimpulan?

Sebenarnya ini adalah titik lemah yang paling sering diabaikan dalam penalaran multimodal.

Semasa manusia melihat gambar, mereka boleh menggunakan jari untuk menandakan objek. Contohnya, “orang ini ialah siapa”, “orang itu ialah siapa”. Tetapi model bagaimana tahu yang anda maksudkan itu yang mana?

Model hanya boleh menggunakan bahasa untuk mengatakan "yang kiri", "yang atas", "garis ini". Apabila gambar menjadi kompleks, rujukan bahasa akan bergeser, dan penalaran juga akan runtuh.

Jadi DeepSeek berkata, kenapa tidak berikan model satu “jari” saja?

Ia mengubah titik dan kotak batas menjadi unit asas pemikiran model, membolehkan model membuat inferens sambil menunjuk objek dengan jari siber ini.

01 Daripada visual berterusan kepada simbol diskret

DeepSeek dalam laporan teknikal ini mengemukakan satu soalan yang menarik. Mereka berpendapat, cabaran sebenar model multimodal bukanlah melihat gambar, tetapi menunjuk secara stabil kepada objek visual yang sama semasa proses penalaran berterusan.

Contohnya, anda berkata kepada rakan anda, “Di pasar tani, gerai nenek Zhang menjual sayur yang paling segar.” Tetapi di pasar tani, terlalu ramai nenek dan kakek, siapakah nenek Zhang?

Tetapi jika kamu secara langsung menunjuk dengan jari dan berkata, "Itu dia," rakan kamu akan segera faham.

DeepSeek menamakan masalah ini sebagai "Reference Gap".

Dalam setahun terakhir, hampir semua model multimodal terkini telah menyelesaikan masalah “Perception Gap”.

Bayangkan terdapat satu gambar di hadapan anda; jika gambar terlalu kabur atau resolusi terlalu rendah, anda mungkin tidak dapat melihat teks kecil atau butiran jauh di dalamnya. AI juga sama—jika kualiti gambar masukan tidak mencukupi atau cara pemprosesannya salah, ia akan "tidak dapat melihat dengan jelas", dan inilah yang disebut jurang persepsi.

Model-model seperti GPT, Claude, dan Gemini terus meningkatkan resolusi, memperkenalkan pemotongan resolusi tinggi, pemecahan dinamik, dan pemrosesan multiskal, dengan tujuan agar model dapat melihat lebih banyak butiran.

Arah ini tentu mempunyai nilai, tetapi DeepSeek dalam laporannya menunjukkan bahawa walaupun model melihat dengan jelas, ia masih akan mengalami kegagalan logik dalam tugas penalaran ruang yang kompleks.

Masalahnya terletak pada bahasa semula jadi itu sendiri.

Dalam gambar itu terdapat belasan anjing, apabila anda berkata "anjing di sebelah kiri", model tidak akan dapat memahami anjing mana yang anda maksudkan.

Masih ada yang lebih teruk lagi, jika anda meminta model untuk mengira bilangan anjing dalam gambar, model tersebut akan mudah bingung dalam proses penalaran tentang anjing mana yang telah dihitung dan mana yang belum.

Laporan tersebut juga menyebutkan kesan ekstrem seperti navigasi labirin, di mana bahasa semata-mata tidak mampu menggambarkan dengan tepat laluan bentuk tidak teratur dan hubungan topologi yang kompleks.

Bahasa, sebagai alat rujukan, secara alami kabur dalam ruang visual yang berterusan. Ia mahir dalam konsep abstrak dan hubungan sebab-akibat, tetapi dalam penempatan ruang dan hubungan topologi, kemampuan bahasa untuk menyampaikan makna mengalami had asas.

DeepSeek sendiri adalah model bahasa umum, bagaimana cara menyelesaikannya?

Oleh itu, muncullah “jari” yang disebutkan di awal artikel.

Konsep utama yang mereka usulkan ialah “visual primitives”, iaitu meningkatkan tanda ruang paling asas dalam penglihatan komputer—kotak batas (bounding boxes) dan titik (points)—sebagai “unit terkecil pemikiran”.

Model multimodal sebelumnya walaupun mampu menandai objek dengan kotak, hanya menunjukkan hasil akhir kepada anda, membuktikan "saya telah menemukannya". Seperti semasa peperiksaan, anda hanya menyerahkan jawapan tanpa menulis proses penyelesaian.

Beberapa kajian juga membolehkan AI menggambar kotak semasa proses pemikiran, tetapi tujuannya hanya untuk “melihat lebih tepat”, dan kotak-kotak itu hanyalah alat bantu. Seperti ketika anda menyelesaikan soalan matematik dengan kertas buram, kertas buram hanya membantu anda mengira dengan lebih jelas, bukan sebahagian daripada strategi penyelesaian.

DeepSeek melakukan perkara yang sama sekali berbeza.

Mereka menyematkan penanda ruang ini secara langsung ke dalam proses inferensi model, menjadikannya sebagai komponen organik inferensi. Semasa model berfikir, ia tidak hanya menggambarkan secara bahasa "Saya melihat seekor anjing", tetapi juga mengeluarkan "Saya melihat seekor anjing, ia berada di sini: [[x1,y1,x2,y2]]".

Mekanisme ini dipanggil oleh DeepSeek sebagai "point while it reasons".

DeepSeek

Setiap langkah pemikiran model dipatok pada koordinat spesifik gambar.

Laporan teknikal memberikan contoh berikut: model bermula dari titik permulaan, menjelajah, mundur, dan mencuba semula, akhirnya menghasilkan satu siri laluan koordinat yang lengkap, di mana setiap koordinat berkaitan dengan satu titik yang dilalui dalam labirin.

Dengan cara ini, model tidak akan tersesat semasa proses inferens. Ia tidak akan keliru tentang apa yang sedang dibincangkan atau dirujuk. Setiap objek visual mempunyai titik rujukan ruang yang jelas, menjadikan proses inferens boleh dilacak dan boleh disahkan.

Jalur teknikal ini membentuk perbandingan yang menarik dengan arah OpenAI.

OpenAI secara jelas menyebut konsep "thinking with images" dalam pengenalan rasmi o3 dan o4-mini, iaitu model boleh memasukkan gambar ke dalam rantai pemikiran dan memproses gambar melalui pemotongan, pembesaran, putaran, dan sebagainya. Fokus arah ini ialah menjadikan gambar itu sendiri sebahagian daripada rantai pemikiran, di mana model boleh menghasilkan gambar baru, mengubah gambar, atau melakukan operasi terhadap gambar semasa proses penalaran.

OpenAI menekankan jalan yang menekankan kemampuan umum, di mana penglihatan, kod, carian, fail, dan pemanggilan alat bekerjasama bersama-sama. Model ini mempunyai "meja kerja penglihatan" yang kuat, yang boleh menangani pelbagai tugas penglihatan dengan fleksibel.

Pendekatan DeepSeek pula lebih "simbolik". Ia membenarkan koordinat memasuki rantai pemikiran. Model secara eksplisit menulis koordinat kotak batas dan titik dalam teks penalaran, menjadikan objek visual sebagai titik rujukan yang boleh digunakan semula semasa penalaran.

Ini menyebabkan penalaran visual OpenAI berlaku secara dalaman, di mana pengguna hanya dapat melihat jawapan akhir dan penjelasan yang diperlukan, sementara proses pemprosesan visual antara adalah kotak hitam. DeepSeek sengaja membuat titik rujukan visual antara menjadi eksplisit, supaya proses penalaran sepenuhnya telus.

DeepSeek melakukan ini, manfaatnya ialah proses penalaran lebih mudah dilatih, diperiksa, dan dinilai. Ini juga memudahkan reka bentuk ganjaran berdasarkan format, kualiti, dan tahap tugas. Terutama dalam tugas seperti labirin dan penjejakkan laluan, ia boleh memberikan maklum balas yang lebih terperinci mengenai keabsahan laluan, tahap penutupan trajektori, dan sebagainya.

Model bukan sahaja belajar menghasilkan jawapan yang betul, tetapi juga belajar cara berfikir menggunakan elemen visual.

02 Efisiensi adalah inti utama

Satu butir yang mudah diabaikan tetapi sangat penting dalam laporan DeepSeek ialah, model mereka menggunakan jumlah token yang jauh lebih sedikit daripada model terkini lain semasa memproses gambar.

Laporan tersebut mengandung satu grafik perbandingan yang menunjukkan jumlah token yang digunakan oleh model yang berbeza semasa memproses imej berresolusi 800×800.

Gemini-3-Flash sebanyak kira-kira 1100, Claude-Sonnet-4.6 sebanyak kira-kira 870, GPT-5.4 sebanyak kira-kira 740, Qwen3-VL sebanyak kira-kira 660, DeepSeek sebanyak kira-kira 361, dan hanya menyimpan kira-kira 90 entri dalam cache KV.

Perbezaan ini bukan sedikit. Jumlah token yang digunakan oleh DeepSeek hanya sepertiga daripada Gemini, dan entri cache KV pula hanya sekitar satu persepuluh.

Bagaimana kecekapan ekstrem ini dicapai?

DeepSeek menggunakan mekanisme yang dipanggil "Compressed Sparse Attention" (CSA).

Anda boleh memahaminya seperti ini: sekiranya anda menunjukkan gambar keluarga kepada rakan, anda tidak akan berkata, “Mulai dari piksel ke-237 dari kiri, terdapat kawasan merah...”, tetapi anda akan terus berkata, “Di sebelah kiri ialah ibu saya, di sebelah kanan ialah bapa saya.”

DeepSeek-ViT terlebih dahulu mampat gambar menjadi lebih sedikit token visual, kemudian CSA memampatkan lagi perwakilan token visual ini dalam cache KV.

Mekanisme ini telah digunakan pada model DeepSeek-V4-Flash dan kini diterapkan ke dalam multimodal visual.

Proses pemampatan adalah seperti berikut. Sebuah gambar 756×756 mengandungi 571536 piksel. Piksel-piksel ini terlebih dahulu diproses melalui ViT, dipotong dengan saiz patch 14×14, menghasilkan 2916 patch token. Kemudian, pemampatan ruang 3×3 dilakukan, di mana setiap 9 token bersebelahan diringkaskan menjadi 1 token sepanjang dimensi saluran, menjadi 324 token visual.

324 token ini dimasukkan ke dalam model bahasa besar untuk pra-isian. Akhirnya, mekanisme CSA akan mengompres 4 kali ganda token visual ini dalam cache KV, sehingga hanya menyimpan 81 entri.

Dari 571536 piksel ke 81 entri cache KV, nisbah mampatan keseluruhan mencapai 7056 kali.

Kebanyakan syarikat AI besar menggunakan kaedah kekerasan untuk mengumpulkan sumber pengiraan, manakala DeepSeek membuat pilihan pada aras teori maklumat, hanya mengekalkan maklumat yang paling intuitif dan mudah difahami.

Hasil paling langsungnya ialah kelajuan inferens menjadi jauh lebih pantas.

Jumlah token gambar secara langsung mempengaruhi latensi inferens model. Dalam proses generasi autoregresif, setiap kali token baru dihasilkan, model perlu melakukan pengiraan perhatian terhadap cache KV untuk semua token sebelumnya. Jika gambar menggunakan 1000 token, setiap generasi akan memerlukan perhatian terhadap 1000 token ini. Jika hanya menggunakan 90 token, beban pengiraan akan berkurang secara besar-besaran.

Bagi aplikasi yang memerlukan respons secara masa nyata, seperti penglihatan robot, pemanduan kendaraan sendiri, dan analisis video masa nyata, peningkatan kelajuan inferens memainkan peranan penentu.

Dan ia juga menggunakan sedikit memori.

KV cache merupakan bottleneck memori dalam inferens model besar. Terutama semasa mengendalikan konteks panjang atau inferens batch, KV cache akan mengambil banyak memori GPU. DeepSeek mengompresi KV cache untuk token visual kepada 90 entri, bermakna lebih banyak gambar boleh diproses, atau perbualan berbilang putaran yang lebih panjang boleh ditangani pada peranti yang sama.

Ini sangat penting untuk pelaksanaan sebenar. Banyak model multimodal syarikat berprestasi baik di makmal, tetapi menghadapi masalah kos apabila dilaksanakan secara sebenar. Semakin banyak token yang digunakan setiap gambar, semakin tinggi kos inferens dan semakin sedikit pengguna serentak yang boleh disokong. Kelebihan kecekapan DeepSeek akan dipertingkatkan semasa pelaksanaan berskala.

Juga secara tidak langsung meningkatkan kapasiti konteks model.

Jika satu gambar memerlukan 1000 token, maka dalam jendela konteks 128k, hanya boleh memuat lebih daripada 100 gambar. Jika ia hanya memerlukan 300 token, boleh memuat lebih daripada 400 gambar. Ini sangat penting untuk skenario yang memerlukan percakapan berbilang gambar, analisis video panjang, dan pemahaman dokumen dalam jumlah besar.

Model DeepSeek boleh memproses lebih banyak gambar dalam satu perbualan, boleh membandingkan dan menganalisis puluhan bahkan ratusan gambar, serta memantau perubahan jangka panjang dalam video.

Yang paling penting ialah kos latihan.

Walaupun laporan itu terutama membincangkan kecekapan inferens, mekanisme pemampatan ini juga berkesan pada peringkat latihan. Kurangnya token visual bermaksud graf pengiraan yang lebih kecil, kelajuan latihan yang lebih pantas, dan keperluan peranti keras yang lebih rendah.

DeepSeek selalu dikenal dengan filosofi "menghasilkan hasil yang lebih baik dengan sumber daya yang lebih sedikit". Dari pelatihan pembelajaran penguatan R1, hingga arsitektur MoE V4, hingga multimodal visual sekarang, filosofi yang mengutamakan efisiensi ini berlanjut secara konsisten.

Tetapi ada satu masalah utama di sini. Adakah pemampatan akan menyebabkan kehilangan maklumat?

DeepSeek tidak menyangkal bahawa pemampatan akan membawa kehilangan maklumat. Pernyataannya ialah, pada set tugas penalaran ruang dan pengiraan ini, representasi yang dipadatkan masih cukup berkesan.

Setiap langkah pemampatan mengekalkan maklumat paling penting untuk inferens, sambil membuang data berulang dan gangguan.

Sebenarnya, mekanisme primitif visual DeepSeek yang disebutkan sebelumnya juga merupakan jenis pemampatan maklumat. Satu kotak sempadan boleh menentukan lokasi objek dengan tepat menggunakan hanya empat nombor, dan satu titik boleh menandakan kedudukan dengan hanya dua nombor. Simbol diskret ini membawa kepadatan maklumat yang jauh lebih tinggi berbanding pixel asal.

Daripada keputusan eksperimen, kompresi ini tidak merosakkan prestasi, malah membawa peningkatan dalam beberapa tugas.

Ini menunjukkan bahawa bagi banyak tugas penalaran visual, bottleneck bukanlah kerana tidak melihat dengan jelas, tetapi kerana tidak menemui cara perwakilan yang sesuai.

Kelebihan kecekapan ini juga membuktikan bahawa kecerdasan multimodal tidak semestinya memerlukan model yang lebih besar, lebih banyak kuasa pengiraan, atau kos yang lebih tinggi.

Sejak lahirnya DeepSeek, syarikat ini telah mempunyai satu garisan tersembunyi, “Kecerdasan sejati bukan terletak pada kuasa pengiraan, tetapi pada pemahaman terhadap esensi masalah.”

Apabila anda benar-benar memahami apa yang diperlukan oleh penalaran visual, anda tidak memerlukan banyak token. Apabila anda menemukan cara representasi yang tepat, anda tidak memerlukan model yang sebesar itu.

Dari sudut pandang ini, kecekapan ekstrem DeepSeek bukanlah tujuan, tetapi produk sampingan. Tujuan sebenarnya adalah mencari paradigma yang betul untuk penalaran visual. Kecekapan hanya membuktikan bahawa paradigma ini betul.

03 Perkara yang Belum Selesai

DeepSeek dalam bahagian keterbatasan laporan tersebut dengan jujur menyenaraikan beberapa isu yang wujud dalam kaedah semasa. Masalah-masalah ini bukanlah kelemahan kecil dari segi teknikal, tetapi menunjuk kepada peringkat seterusnya dalam penalaran visual.

Masalah pertama ialah ketergantungan pada perkataan pemicu.

Laporan tersebut dengan jelas menyatakan bahawa kemampuan "berfikir dengan elemen visual" semasa ini memerlukan perkataan pemicu eksplisit untuk diaktifkan. Dengan kata lain, model masih belum mampu menentukan secara semula jadi dan autonomi "kapan harus membuat kotak atau titik".

Ia bermaksud model belum benar-benar belajar untuk menentukan kapan perlu menggunakan primitif visual dan kapan bahasa sudah cukup.

Dalam keadaan ideal, model seharusnya mampu membuat keputusan sendiri berdasarkan sifat tugas. Namun, apabila pengguna bertanya, “Berapakah bilangan anjing dalam gambar itu?”, model seharusnya secara automatik beralih ke mod primitif visual untuk membantu pengiraan menggunakan kotak sempadan.

Secara teknikal, ini memerlukan pembinaan lapisan meta-kognitif dalam model. Lapisan meta-kognitif ini boleh menilai kekompleksan tugas semasa, menentukan sama ada penaakulan bahasa semata-mata mencukupi, dan memutuskan sama ada perlu memanggil primitif visual.

DeepSeek belum lagi mengimplementasikan lapisan meta-kognitif ini, tetapi mereka telah menentukan arahnya. Versi masa depan mungkin membolehkan model belajar membuat keputusan autonomi terhadap strategi penalaran, bukan bergantung pada pemicu luar.

Masalah kedua ialah had resolusi.

Laporan tersebut menyatakan bahawa, akibat pembatasan resolusi input, model belum menunjukkan prestasi yang baik dalam senario halus, dan elemen visual yang dihasilkan kadang-kadang tidak cukup tepat.

Masalah ini berkaitan dengan strategi kecekapan DeepSeek. Untuk mengawal jumlah token, mereka membatasi julat token visual antara 81 hingga 384. Gambar yang melampaui julat ini akan diskaikan.

Reka bentuk ini adalah munasabah dalam kebanyakan senario, tetapi akan menghadapi batasan dalam tugas-tugas yang memerlukan ketepatan sangat tinggi. Sebagai contoh, analisis imej perubatan memerlukan pengenalan lesi halus, manakala pemeriksaan kualiti industri perlu mengesan cacat halus, dan senario-senario ini memerlukan resolusi yang tinggi.

DeepSeek dalam laporan tersebut menyatakan bahawa masalah ini boleh diselesaikan dengan mengintegrasikan kaedah resolusi tinggi yang sedia ada. Dengan kata lain, kerangka primitif visual mereka dan kaedah pemotongan resolusi tinggi tradisional bukanlah bertentangan, tetapi saling melengkapi.

Saya rasa DeepSeek boleh mengeluarkan penyelesaian gabungan.

Secara khusus, untuk sebahagian besar tugas biasa, gunakan perwakilan visual yang dipadatkan dan penalaran elemen visual untuk mengekalkan kecekapan tinggi. Untuk kawasan tempatan yang memerlukan analisis halus, panggil pemotongan resolusi tinggi secara dinamik untuk mengekstrak maklumat visual yang lebih terperinci. Ini mengekalkan kecekapan keseluruhan sambil memenuhi keperluan ketepatan tempatan.

Kunci kepada gabungan ini ialah membolehkan model belajar menilai kawasan mana yang memerlukan pemprosesan resolusi tinggi. Oleh itu, ini kembali kepada masalah metakognitif tadi.

Masalah ketiga ialah penggeneralisasian lintas skenario.

Laporan tersebut menyatakan bahawa menyelesaikan masalah penalaran topologi kompleks dengan titik sebagai primitif visual masih sukar, dan kemampuan generalisasi model antara skenario terhad.

Masalah ini lebih jelas terlihat dalam tugas navigasi labirin dan pelacakan laluan. Walaupun DeepSeek mencapai ketepatan 66.9% dan 56.7% pada set ujian yang dibina sendiri, melebihi model lain, nombor ini masih belum mencukupi.

Lebih penting lagi, tugas-tugas ini dilatih dan diuji menggunakan data sintetik. Labirin dihasilkan secara algoritmik, dan lengkung pelacakan laluan juga digambarkan secara prosedural. Apabila model menghadapi masalah penalaran topologi di dunia nyata, seperti merancang laluan pada peta sebenar atau melacak hubungan dalam gambar paip yang kompleks, prestasinya mungkin menurun.

Metodologi DeepSeek adalah dengan meningkatkan kemampuan generalisasi melalui data berskala besar dan beraneka ragam. Mereka mengambil data dari 97.984 sumber, setelah penyaringan ketat, 31.701 sumber dipertahankan, dan akhirnya menghasilkan lebih dari 40 juta sampel. Dalam tugas labirin dan pelacakan jalur, mereka juga merancang berbagai struktur topologi, gaya visual, dan tingkat kesukaran untuk mencakup sebanyak mungkin variasi.

Namun, kepelbagaian data hanyalah sebahagian daripada kemampuan penggeneralisasian. Adakah model benar-benar memahami esensi penalaran topologi, atau ia hanya mengingat corak dalam data latihan?

Selain itu, primitif visual DeepSeek adalah sistem perwakilan baharu yang memerlukan format data, proses latihan, dan kaedah penilaian khas. Ia tidak sepenuhnya serasi dengan ekosistem multimodal yang sedia ada.

Sebahagian besar set data dan tolok penilaian multimodal direka berdasarkan paradigma "gambar + teks" tradisional, tanpa mempertimbangkan primitif visual. Jika ingin menilai model DeepSeek pada tolok-tolok ini, ia memerlukan penutupan fungsi primitif visual atau penyesuaian semula kaedah penilaian.

Penyelidik lain yang ingin mereplikasi atau memperbaiki kerja ini perlu membina semula keseluruhan proses data dan latihan, dengan had yang tinggi.

DeepSeek dapat membincangkan isu-isu ini dalam laporan mereka, menunjukkan bahawa mereka mempunyai kesedaran yang jelas terhadap pekerjaan mereka.

Ini mungkin lebih berharga daripada memberikan jawapan yang sempurna. Kerana yang sering mendorong kemajuan masyarakat bukanlah jawapan, tetapi soalan.