Kinilala ni DeepSeek ang mga Visual Primitives upang mapabuti ang spatial reasoning ng AI

Artikulo | TulaAI

Isang araw bago ang pagsasara ng pista ng Labor Day, biglang inilabas ni DeepSeek ang isang ulat tungkol sa teknolohiya ng visual multimodal.

Bago ko itinindig, mayroon akong ilang inaasahan—tungkol lang sa kung gaano kalayo at gaano kalinaw ang makikita ko.

Sa katotohanan, sa nakaraang taon, ang mga multimodal model ay nagkakaroon ng kompetisyon sa direksyong ito. Sinasabi ng OpenAI ang “thinking with images,” kung saan pinapayagan ang model na mag-crop, mag-zoom, at mag-rotate ng mga larawan habang nagpapasya; samantala, ang Gemini at Claude ay nagtataglay din ng mga paraan upang payagan ang mga model na tratuhin ang mas mataas na resolusyon at mas kumplikadong mga visual input.

Ang karaniwang palagay ng lahat ay na kung ang modelo ay makakakita nang mas detalyado, ang visual reasoning ay magiging mas malakas nang natural.

Ngunit pagkatapos mong basahin ang ulat ng DeepSeek, makikita mo na sila ay puno ng ibang daan.

Hindi pinuntahan ng DeepSeek ang “pagpapakita ng higit pang pixel sa modelo,” pinuntahan nila ang isang mas pangunahing problema.

Kahit na malinaw na nakikita ng model, paano mo masisiguro na ang pinag-uusapan ng model at ikaw ay iisang bagay?

Sa katotohanan, ito ang pinakamadaling kalimutan na kahinaan sa multimodal reasoning.

Kapag tinitingnan ng tao ang isang larawan, maaari nilang gamitin ang kanilang daliri upang tukuyin ang mga bagay. Halimbawa, “Sino ang tao na ito?” o “Sino ang tao na iyon?” Pero paano alam ng modelo kung alin sa mga ito ang tinutukoy mo?

Ang modelo ay maaaring gamitin ang wika lamang upang sabihin ang “iyan sa kaliwa,” “iyan sa itaas,” “iyan ang linya.” Kapag naging komplikado ang larawan, ang pagtutukoy sa wika ay magkakaroon ng pagbabago, at ang pag-iisip ay susunod na magkakaroon ng pagbagsak.

Kaya sinabi ni DeepSeek, bakit hindi lang ibigay sa model ang isang “dikit”?

Ito ay ginagawa ang mga punto at bounding boxes bilang mga pangunahing yunit sa pag-iisip ng modelo, na nagpapahintulot sa modelo na mag-isip habang ginagamit ang cyber finger na ito upang tukuyin ang mga bagay.

01 Mula sa tuloy-tuloy na paningin patungo sa mga diskretong simbolo

Sa teknikal na ulat na ito ng DeepSeek, isinampa nila ang isang interesanteng tanong. Naniniwala sila na ang tunay na hamon ng mga multimodal na modelo ay hindi ang pagkakita ng imahe, kundi ang pagpapanatili ng tiyak na pagtutok sa parehong visual na objekto habang nagpapatuloy ang pag-iisip.

Halimbawa, sinabi mo sa iyong kaibigan, “Sa palengke, ang mga gulay sa tindahan ni Aling Zha ay pinakamaliksi.” Ngunit maraming matatanda lalaki at babae sa palengke, sino ba ang Aling Zha?

But if you point directly with your finger and say, "That one," your friend will immediately understand.

Inilalagay ng DeepSeek ang tanong na ito bilang “Reference Gap”.

Sa nakaraang taon, halos lahat ng mga pinakabagong multimodal na modelo ay naglalutas ng problema na “Perception Gap”.

Kung may isang litrato na nakalagay sa harap mo, at sobrang blura o mababa ang resolusyon nito, posibleng hindi mo makikita ang mga maliit na titik o detalye sa kalayuan. Parehong nangyayari sa AI—kung hindi sapat ang kalidad ng input na imahe o mali ang paraan ng pagproseso nito, “hindi makikita” nito ang detalye, at ito ay tinatawag na perceptual gap.

Patuloy na binabawasan ng mga modelo tulad ng GPT, Claude, at Gemini ang resolusyon, at ipinapakilala ang high-resolution cropping, dynamic tiling, at multi-scale processing upang makita ng modelo ang higit pang detalye.

Ang direksyon na ito ay may halaga, ngunit sinabi ng DeepSeek sa kanilang ulat na kahit gaano pa kalinaw ang modelong nakikita, maaari pa ring magkaron ng logical collapse sa mga kumplikadong gawain sa spatial reasoning.

Ang problema ay nasa sariling natural na wika.

May sampu-sampuong aso sa litrato, kung sinasabi mo ang “kanan na aso,” hindi makakaintindi ang modelo kung alin ang tama.

Mayroon pa ng mas kakaibang bagay: kung hihingin mo sa model na bilangin ang bilang ng mga aso sa isang larawan, madaling mabigo ang model sa pag-iisip kung alin na ang mga aso na binilang at alin pa ang hindi.

Ang ulat ay nagtalakay din sa ekstremong kaso ng pag-navigate sa maze, kung saan ang wika lamang ay hindi kayang masuri nang tumpak ang mga hindi regular na hugis ng daan at ang mga kumplikadong topolohikal na ugnayan.

Ang wika bilang isang instrumento ng pagtukoy ay likas na ambiguo sa isang tuloy-tuloy na visual na espasyo. Mas mahusay ito sa abstraktong mga konsepto at ugnayang sanhi at epekto, ngunit may fundamental na limitasyon sa pagpapahayag ng spatial positioning at topological relationships.

Ang DeepSeek ay isang pangkalahatang language model, paano ito lutasin?

Kaya nabuo ang “dakilang daliri” na nabanggit sa simula ng artikulo.

Ang pangunahang konsepto na kanilang ipinapakita ay ang “mga visual primitive,” na partikular na itaas ang mga bounding box at mga punto, ang dalawang pinakabasehan ng spatial annotation sa computer vision, bilang “pinakamaliit na yunit ng pag-iisip.”

Kahit na makapagpapakita ng mga box para sa mga bagay ang mga dating multimodal na modelo, nagpapakita lamang sila ng resulta sa huli upang patunayan na “nahanap ko ito.” Tulad ng pagsusulit, nagpapasa ka lang ng sagot, hindi ng proseso ng paglutas.

Mayroon ding ilang pag-aaral na nagpapahintulot sa AI na gumawa ng mga box habang isinusuri ang proseso, ngunit ang layunin ay para lamang sa “mas malinaw na pagtingin” — ang mga box ay simpleng kasangkapan. Tulad ng paggamit ng papel sa paggawa ng mga math problem, ang papel ay tumutulong lamang upang mas maayos ang pagkalkula, hindi bahagi ng solusyon.

Ang DeepSeek ay gagawin ang lubos na iba.

Nilalagay nila ang mga space marker nang direkta sa proseso ng inference ng modelo, gawing organic na bahagi nito ang pag-iisip. Habang isinisiwalat ng modelo ang kanyang pag-iisip, hindi lamang ito gumagamit ng wika upang ilarawan, “Nakikita ko ang isang aso,” kundi naglalabas din ito ng “Nakikita ko ang isang aso, at narito ito: [[x1,y1,x2,y2]]”.

Ang mekanismo na ito ay tinatawag ng DeepSeek na “point while it reasons.”

DeepSeek

Ang bawat hakbang ng pag-iisip ng modelo ay nakabase sa mga tiyak na koordinado ng imahe.

Ang teknikal na ulat ay nagbigay ng ganitong halimbawa: ang modelo ay nagsimula mula sa simula, nag-explor ng patuloy, nag-backtrack, at muli ay sinubukan, at sa huli ay naglabas ng isang buong serye ng mga koordinado, kung saan bawat koordinado ay tumutugma sa isang punto sa maliit na kahon.

Sa ganitong paraan, hindi mababigo ang modelo sa proseso ng pag-iisip. Hindi ito magkakaroon ng pagkakamali sa pag-uugnay ng kung ano ang sinasabi o tinutukoy. May malinaw na spatial anchor bawat visual object, at ang proseso ng pag-iisip ay naging masusuri at mapapatotohanan.

Ang teknikal na direksyong ito ay nagtatagpo nang interesante sa direksyon ng OpenAI.

Binigyang-diin ng OpenAI sa opisyal na pagpapakilala ng o3 at o4-mini ang konsepto ng “thinking with images”, kung saan ang modelo ay maaaring isama ang mga imahe sa hanay ng pag-iisip at gamitin ang mga paraan tulad ng pag-crop, pag-zoom, at pag-rotate para sa pagtrato sa mga imahe. Ang pangunahing layunin ng direksyong ito ay gawing bahagi ng hanay ng pag-iisip ang mga imahe mismo, kung saan ang modelo ay maaaring lumikha ng mga bagong imahe, baguhin ang mga imahe, at mag-operate sa mga imahe habang nagpapasya.

Pinapahalagahan ng roadmap ng OpenAI ang pangkalahatang kakayahan, kung saan ang paningin, code, paghahanap, file, at pagtawag sa mga kasangkapan ay nagtatrabaho nang sama-sama. Mayroon ang modelo ng isang makapangyarihang “visual workspace” na maaaring maliwanag na harapin ang iba’t ibang visual tasks.

Ang landas ng DeepSeek ay mas “simboliko.” Ipinapahintulot nito ang mga koordinado na pumasok sa chuva ng pag-iisip. Ipinapakita ng modelo nang eksplisito ang mga koordinado ng bounding box at mga punto sa teksto ng pag-iisip, na ginagawa ang mga visual na bagay na mga anchor point na maaaring gamitin muli sa pag-iisip.

Nagresulta ito sa pagiging loob ng visual reasoning ng OpenAI, kung saan ang mga user ay nakikita lamang ang huling sagot at kinakailangang paliwanag, habang ang gitnang proseso ng visual processing ay isang black box. Ang DeepSeek ay sinadyang gawing eksplisito ang mga gitnang visual anchor upang gawing buong transparent ang proseso ng pag-iisip.

Ang paggawa nito ng DeepSeek ay nagbibigay ng benepisyo sa pagtratrabaho, pagsusuri, at pagmamarka ng proseso ng pag-iisip. Ito rin ay nagpapadali sa pagdidisenyo ng format, kalidad, at mga reward sa antas ng gawain. Lalo na sa mga gawain tulad ng maliit na labirinto at pagsubaybay sa daan, maaaring bigyan ng mas detalyadong feedback ang legalidad ng daan at sakop ng trajektoriya.

Hindi lang natututo ang modelo na maglabas ng tamang sagot, kundi natututo rin ito ng paraan ng pag-iisip gamit ang mga visual primitives.

02 Ang efisensya ang pangunahin

May isang detalye na madaling maikakailang ngunit napakahalaga sa report na ito ni DeepSeek: ang kanilang modelo ay gumagamit ng mas maliit na bilang ng token kapag sinusuri ang mga imahe kumpara sa iba pang mga lider sa industriya.

May isang komparatibong larawan sa ulat na nagpapakita ng bilang ng mga token na ginamit ng iba’t ibang modelo habang pinaproseso ang isang imahe na may resolusyon na 800×800.

Gemini-3-Flash ay tungkol sa 1,100, Claude-Sonnet-4.6 ay tungkol sa 870, GPT-5.4 ay tungkol sa 740, Qwen3-VL ay tungkol sa 660, DeepSeek ay tungkol sa 361, at nagpapanatili lamang ng tungkol sa 90 mga entry sa KV cache.

Hindi ito kaunting pagkakaiba. Ang bilang ng mga token na ginagamit ng DeepSeek ay tanging isang-tatlo ng bilang ng Gemini, at ang bilang ng mga entry sa KV cache ay tanging halos isang-sampu.

Paano natutupad ang ganitong ekstrim na efficiency?

Gumamit ang DeepSeek ng isang mekanismo na tinatawag na "Compressed Sparse Attention" (CSA).

Maaari mong iintindihin nang ganito: kung ipapakita mo sa isang kaibigan ang isang pamilyang litrato, hindi mo sasabihin, “Mula sa 237th pixel mula sa kaliwa, may isang pula na rehiyon...” kundi direktang sasabihin mo, “Kaliwa ay ang nanay ko, kanan ay ang tatay ko.”

Ang DeepSeek-ViT ay unang pinipigil ang imahe sa mas kaunting visual tokens, at ang CSA ay karagdagang pinipigil ang pagkakataon ng mga visual token sa KV cache.

Ginamit na ang mekanismong ito sa DeepSeek-V4-Flash model, at ngayon ay nailapat sa visual multimodal.

Ang proseso ng pag-compress ay ganito. Ang isang imahe na may sukat na 756×756 na may 571,536 na pixel, muna itong hinati sa pamamagitan ng ViT gamit ang patch size na 14×14 upang makabuo ng 2,916 na patch token. Pagkatapos, ginagawa ang 3×3 spatial compression, kung saan ang bawat 9 na kapitbahay na token ay pinipigil sa pamamagitan ng channel dimension upang maging 1, na nagiging 324 na visual token.

Ang 324 na token ay pumasok sa malaking modelo ng wika para sa pre-filling. Sa huli, ang mekanismo ng CSA ay komprimo pa ang mga visual token sa KV cache ng 4 beses, at natitirang 81 na entry lamang.

Mula sa 571,536 na pixels patungo sa 81 na KV cache entries, ang kabuuang kompresyon ay umabot sa 7,056 beses.

Ang mga pangunahang kumpanya sa AI ay karaniwang gumagamit ng puwersa sa pagpapalaki ng mga yunit ng pagkalkula, samantalang ang DeepSeek ay gumagawa ng mga pagpili sa antas ng teorya ng impormasyon, at pinapanatili lamang ang pinakamadaling maintindihan at direktang impormasyon.

Ang pinakatuwid na epekto ay ang pagtaas ng bilis ng pag-iisip.

Ang bilang ng image tokens ay diretso na nakakaapekto sa inference latency ng model. Sa proseso ng autoregressive generation, bawat pagbuo ng isang bagong token ay nangangailangan ng attention computation sa KV cache ng lahat ng dating tokens. Kung ang imahe ay gumagamit ng 1000 na tokens, ang bawat pagbuo ay magkakaroon ng attention sa 1000 na tokens na iyon. Kung tanging 90 na tokens lang ang ginagamit, malaki ang pagbawas sa computation load.

Para sa mga aplikasyon na nangangailangan ng real-time response, tulad ng robot vision, autonomous driving, at real-time video analysis, ang pagtaas ng inference speed ay naglalaro ng desisyon.

At maliit din ang paggamit ng memorya.

Ang KV cache ay ang memory bottleneck sa inference ng malalaking modelo. Lalo na sa pagtrato ng mahabang konteksto o batch inference, ang KV cache ay nakakakuha ng malaking dami ng VRAM. Pinapaliit ng DeepSeek ang KV cache ng visual tokens sa 90 na entry, na nangangahulugan na mas maraming imahe ang maaaring tratuhin sa parehong hardware, o mas mahabang multi-turn conversation.

Mahalaga ito para sa aktwal na pag-deploy. Maraming kumpanya ang may mabuting performa sa kanilang multimodal na modelo sa laboratorio, ngunit nagkakaroon ng mga problema sa gastos kapag ipinapasa sa aktwal na pag-deploy. Mas maraming token ang ginagamit bawat imahe, mas mataas ang gastos sa inference, at mas kaunti ang bilang ng magkakasabay na user na maaaring suportahan. Ang kahusayan ng DeepSeek ay lalawak kapag isinasaayos sa malaking iskala.

Kasabay nito, tumataas din ang kapasidad sa konteksto ng modelo.

Kung ang isang larawan ay nangangailangan ng 1,000 na token, maaaring ilagay lamang ang higit sa 100 na larawan sa isang context window na 128k. Kung ang isang larawan ay nangangailangan lamang ng 300 na token, maaaring ilagay ang higit sa 400. Mahalaga ito para sa mga sitwasyon na nangangailangan ng pagproseso ng maraming larawan, pag-analisa ng mahabang video, at pag-unawa sa malaking dami ng dokumento.

Ang mga modelo ng DeepSeek ay maaaring magtratrabaho sa mas maraming imahe sa isang usapan, maaaring i-compare at i-analyze ang mga imahe na maaaring maging ilang dosen o higit pa, at maaaring suriin ang mga matagalang pagbabago sa video.

Ang pinakamahalagang bagay ay ang gastos sa pagtuturo.

Bagaman ang ulat ay pangunahing tumutok sa pagiging epektibo ng pag-iisip, ang mekanismo ng kompresyon na ito ay epektibo rin sa panahon ng pagtuturo. Mas kaunting visual token ay nangangahulugan ng mas maliit na computational graph, mas mabilis na pagtuturo, at mas mababang hinihingi sa hardware.

Laging kilala si DeepSeek sa “paggawa ng mas magandang epekto gamit ang mas kaunting yaman.” Mula sa pag-train ng reinforcement learning ng R1, hanggang sa MoE architecture ng V4, at patungo sa kasalukuyang visual multimodal, ang pilosopiyang prioritizadong efficiency ay patuloy na sumasaklaw.

Ngunit may isang mahalagang tanong dito. Nagkakaroon ba ng pagkawala ng impormasyon ang compression?

Hindi kinabiglaan ng DeepSeek na ang pag-compress ay nagdudulot ng pagkawala ng impormasyon. Ang kanilang pananaw ay na sa set na ito ng mga gawain sa spatial reasoning at pagbilang, sapat pa ring epektibo ang compressed representation.

Ang bawat pag-compress ay nagpapanatili ng mga impormasyon na mahalaga para sa pag-iisip, at inalis ang mga redundant at ingay.

Sa katotohanan, ang mekanismo ng visual primitives ng DeepSeek na nabanggit kanina ay isang uri ng pag-compress ng impormasyon. Isang bounding box ay maaaring tukuyin nang eksakto gamit ang apat na numero, habang isang punto ay maaaring markahan gamit ang dalawang numero. Ang mga diskretong simbolo na ito ay may mas mataas na density ng impormasyon kaysa sa orihinal na pixel.

Batay sa mga resulta ng eksperimento, ang kompresyon na ito ay hindi nagdulot ng pagkasira sa performance, kundi nagdala ng pagpapabuti sa ilang mga gawain.

Ito ay nagpapakita na para sa maraming visual reasoning tasks, ang bottleneck ay hindi sa pagkakakita ng hindi malinaw, kundi sa pagkakaroon ng tamang paraan ng pagpapahayag.

Nagpapatotoo ang kalakasan na ito na ang maramihang modalidad na inteligensya ay hindi kailangang magkaroon ng mas malalaking modelo, mas maraming computing power, o mas mataas na gastos.

Mula sa pagkakalikha ng DeepSeek hanggang sa kasalukuyan, mayroon ang kumpanyang ito sa isang lihim na patakaran: “Ang totoong inteligensya ay hindi nasa computing power, kundi sa pag-unawa sa esensya ng problema.”

Kapag naiintindihan mo nang tunay kung ano ang kailangan ng visual reasoning, hindi mo kailangan ng maraming token. Kapag natuklasan mo ang tamang paraan ng pagpapakita, hindi mo kailangan ng malaking modelo.

Sa pananaw na ito, ang ekstrim na efisensya ng DeepSeek ay hindi ang layunin, kundi isang produkto. Ang tunay na layunin ay makahanap ng tamang paraan sa visual reasoning. Ang efisensya ay nagpapatotoo na ang paraang ito ay tama.

03 Walang natapos

Sa seksyon ng mga limitasyon ng ulat, tinanggap nang tapat ng DeepSeek ang ilang mga problema sa kasalukuyang paraan. Ang mga problema na ito ay hindi mga maliit na kahinaan sa teknikal na detalye, kundi nagtuturo sa susunod na yugto ng visual reasoning.

Ang unang problema ay ang pagkakabase sa trigger word.

Nakasaad sa ulat na ang kasalukuyang kakayahan na “mag-isip gamit ang mga visual primitive” ay nangangailangan ng mga eksplisitong trigger words upang ma-activate. Ibig sabihin, hindi pa kayang natural at awtomatikong pumili ang modelo kung “kailan dapat gumawa ng frame o marka.”

Ito ay nangangahulugan na ang modelo ay hindi pa talaga natutunan kung kailan kailangan gamitin ang mga visual primitive at kailan sapat na ang wika.

Ang ideal ay ang modelo ay dapat makapagdesisyon nang sarili nito batay sa kalikasan ng gawain. Ngunit kapag tanong ng user, “Ilang aso ang nasa larawan?”, dapat awtomatikong mag-switch ang modelo sa visual primitive mode at gamitin ang bounding boxes para tulungan sa pagbilang.

Teknikal na nangangailangan ito ng pagbuo ng isang metacognitive layer sa loob ng modelo. Ang metacognitive layer na ito ay maaaring mag-evaluate ng kahirapan ng kasalukuyang gawain, matukoy kung sapat ang pagsasalin ng wika, at magdesisyon kung kailangan ang pagtawag sa mga visual primitive.

Hindi pa nagagawa ng DeepSeek ang metacognitive layer na ito, ngunit tiyak na nalalaman nila ang direksyon. Maaaring magbigay ang mga susunod na bersyon ng kakayahan sa modelong magpasya nang sarili upang piliin ang estratehiya ng pag-iisip, hindi na kailangang mag-antay sa external trigger.

Ang pangalawang problema ay ang limitasyon sa resolusyon.

Ang ulat ay nagpapahiwatig na dahil sa limitasyon ng input na resolusyon, ang modelo ay hindi pa sapat na mabuti sa mga detalyadong skena, at ang mga output na visual primitives ay minsan ay hindi sapat na tumpak.

May kinalaman ito sa prioridad sa efficiency ng DeepSeek. Upang kontrolin ang bilang ng mga token, limitado nila ang saklaw ng mga visual token sa 81 hanggang 384. Para sa mga imahe na lalabas sa saklaw na ito, gagawin ang pag-scale.

Ang ganitong disenyo ay makabuluhan sa karamihan ng mga skena, ngunit maaaring makaharap sa mga hangganan sa ilang mga gawain na nangangailangan ng napakataas na presisyon. Halimbawa, ang analisis ng medikal na imahe ay nangangailangan ng pagkilala sa maliliit na lesyon, habang ang pagsusuri sa industriya ay nangangailangan ng paghahanap ng mga maliit na kapintasan, at ang mga skenang ito ay may mataas na pangangailangan sa resolusyon.

Sinabi ng DeepSeek sa ulat na maaaring lutasin ang problema sa pamamagitan ng pag-integrate ng mga umiiral na mataas na resolusyon na paraan. Ibig sabihin, ang kanilang framework ng visual primitives at ang tradisyonal na paraan ng high-resolution cropping ay hindi magkakaalting, kundi komplementario.

Naniniwala ako na maaaring maglabas ang DeepSeek ng isang mixed solution.

Sa pamamagitan ng paggamit ng komprimitong visual representation at visual primitive reasoning para sa karamihan sa mga karaniwang gawain upang mapanatili ang mataas na epektibidad. Para sa mga lokal na rehiyon na nangangailangan ng detalyadong analisis, dinamikong tinatawag ang high-resolution crop up para makakuha ng mas detalyadong visual information. Sa ganitong paraan, pinapanatili ang pangkabuuang epektibidad habang natutugunan ang pangangailangan sa lokal na precision.

Ang susi sa hybrid na solusyon ay ang pagtuturo sa modelo kung aling mga rehiyon ang kailangang masuri sa mataas na resolusyon. Kaya ito ay bumabalik sa tanong tungkol sa metacognition na nabanggit kanina.

Ang ikatlong tanong ay ang pagpapalawak sa iba’t ibang escena.

Ang ulat ay nagpapahiwatig na ang paggamit ng mga punto bilang mga visual primitive upang lutasin ang mga komplikadong problema sa topological reasoning ay patuloy na mahirap, at ang kakayahan ng modelo sa cross-scene generalization ay limitado.

Nakikita ang problema sa mga gawain sa pag-navigate sa maze at pagtutuloy ng landas. Kahit na nakamit ng DeepSeek ang 66.9% at 56.7% na akurasyon sa sariling binuo nitong test set, na higit sa ibang modelo, ang mga numero na ito ay hindi pa sapat.

Mas mahalaga pa, ang mga gawain na ito ay tinuturuan at sinusubok sa synthetic data. Ang mga maliit na daan ay ginawa ng algorithm, at ang mga kurba ng pagsubaybay sa landas ay dinisenyo nang prosesuwal. Kapag nakakasalungat ang modelo sa mga problema ng topological reasoning sa totoong mundo, tulad ng pagpaplano ng landas sa totoong mapa o pagsubaybay sa mga koneksyon sa mga kumplikadong schematic ng pipe, maaaring bumaba ang kanilang performance.

Ang paraan ng DeepSeek ay ang pagpapabuti sa kakayahang pangkalahatan sa pamamagitan ng malawak at mataas na diversity ng data. Nilikha nila ang 97,984 na pinagmumulan ng data, at matapos ang mahigpit na pagpapaliwanag, nanatili ang 31,701. Sa huli, nakakuha sila ng higit sa 40 milyon na sample. Sa mga gawain sa maliit na daan at pagsubaybay sa landas, nilikha rin nila ang iba’t ibang istruktura ng topolohiya, istilo ng biswal, at antas ng kahirapan upang sakop ang kahit anong uri ng pagkakaiba.

Gayunpaman, ang pagkakaiba-iba ng data ay bahagi lamang ng kakayahang pangkalahatan. Naiintindihan ba talaga ng modelo ang esensya ng topological reasoning? O baka naman ay tanging natutunan lamang nito ang mga pattern sa training data?

Bukod dito, ang mga visual primitive ng DeepSeek ay isang bagong sistema ng pagpapakita na nangangailangan ng espesyalong format ng data, proseso ng pagtuturo, at paraan ng pagtataya. Hindi ito ganap na compatible sa umiiral na multi-modal na ecosystem.

Ang karamihan sa mga multimodal dataset at benchmark ay disenyo batay sa tradisyonal na “imahe + teksto” na paraan, at hindi isinasaalang-alang ang mga visual primitive. Kung gagawin ang pag-evaluate sa mga modelo ng DeepSeek sa mga benchmark na ito, kailangan o i-disable ang mga visual primitive o i-redesign ang paraan ng pag-evaluate.

Kung gustong i-reproduce o i-improve ng iba pang mga mananaliksik ang gawaing ito, kailangan nilang muling ibuksan ang buong proseso ng data at pagtatrain, na may mataas na hadlang.

Maaaring pag-usapan ng DeepSeek ang mga tanong na ito sa kanilang ulat, na nagpapakita ng malinaw na pag-unawa nila sa kanilang sariling trabaho.

Mas maaaring mas mahalaga ito kaysa sa pagbibigay ng perpektong sagot. Dahil kadalasan, hindi ang sagot ang nagpapalaya sa pag-unlad ng lipunan, kundi ang tanong.