DeepSeek giới thiệu các yếu tố trực quan để nâng cao khả năng suy luận không gian của AI

Bài viết | Chữ AI

Ngày trước kỳ nghỉ lễ Ngày Lao động, DeepSeek bất ngờ công bố một báo cáo về công nghệ đa mô hình trực quan.

Trước khi nhấn vào, tôi đã có một dự đoán nhất định, chẳng qua là có thể nhìn thấy xa bao nhiêu, rõ ràng bao nhiêu.

Sau cùng, trong năm qua, các mô hình đa mô tả cơ bản đều đang cạnh tranh theo hướng này. OpenAI nói về việc suy nghĩ với hình ảnh, cho phép mô hình cắt, phóng to, xoay hình ảnh trong quá trình suy luận; Gemini và Claude cũng đang tìm cách giúp mô hình xử lý đầu vào thị giác có độ phân giải cao hơn và phức tạp hơn.

Giả định chung của mọi người là, chỉ cần mô hình quan sát kỹ hơn, suy luận thị giác sẽ tự nhiên mạnh mẽ hơn.

Nhưng khi xem báo cáo của DeepSeek, bạn sẽ nhận ra họ hoàn toàn đi theo một con đường khác.

DeepSeek không tập trung vào việc “đưa nhiều pixel hơn vào mô hình”, mà họ chú ý đến một vấn đề cơ bản hơn.

Ngay cả khi mô hình đã nhìn rõ, nhưng trong quá trình suy luận, làm sao bạn có thể đảm bảo mô hình và bạn đang nói đến cùng một thứ?

Thực ra đây là điểm yếu dễ bị bỏ qua nhất trong suy luận đa mô-đun.

Khi con người xem hình ảnh, có thể dùng ngón tay để đánh dấu đối tượng. Ví dụ: “Người này là ai đó”, “Người kia là ai đó”. Nhưng mô hình làm sao biết bạn đang nói đến cái nào?

Mô hình chỉ có thể dùng ngôn ngữ để nói “cái bên trái”, “cái phía trên”, “đường này”. Một khi hình ảnh trở nên phức tạp, sự chỉ định bằng ngôn ngữ sẽ bị lệch, suy luận cũng theo đó mà sụp đổ.

Vì vậy, DeepSeek đã nói: vậy thì cho mô hình một “ngón tay” chẳng phải xong rồi sao?

Nó biến các điểm và hộp giới hạn thành đơn vị cơ bản để mô hình suy nghĩ, cho phép mô hình vừa chỉ vào đối tượng bằng ngón tay ảo này, vừa thực hiện suy luận.

01 Từ hình ảnh liên tục đến ký hiệu rời rạc

DeepSeek trong báo cáo kỹ thuật này đã đặt ra một câu hỏi rất thú vị. Họ cho rằng, điểm khó thực sự của các mô hình đa phương thức không phải là nhìn thấy hình ảnh, mà là duy trì sự định hướng ổn định vào cùng một đối tượng thị giác trong quá trình suy luận liên tục.

Ví dụ như bạn nói với bạn bè: “Ở chợ, quầy của bà Trương bán rau tươi nhất”. Nhưng trong chợ có quá nhiều ông bà, thì bà Trương là ai?

Nhưng nếu bạn chỉ trực tiếp vào đó và nói “chính cái đó”, bạn bè bạn sẽ lập tức hiểu.

DeepSeek đặt tên cho vấn đề này là “Reference Gap”.

Trong năm qua, hầu hết các mô hình đa mô态 tiên tiến đều đang giải quyết vấn đề “khoảng cách nhận thức” (Perception Gap).

Giả sử có một bức ảnh đặt trước mặt bạn, nếu bức ảnh quá mờ hoặc độ phân giải quá thấp, bạn có thể không nhìn rõ các chữ nhỏ hoặc chi tiết ở xa. AI cũng tương tự, nếu chất lượng hình ảnh đầu vào không đủ tốt hoặc cách xử lý không đúng, nó sẽ “không nhìn rõ”, đó chính là khoảng cách nhận thức.

Các mô hình GPT, Claude, Gemini liên tục nâng cao độ phân giải, giới thiệu cắt xén độ phân giải cao, phân chia động và xử lý đa tỷ lệ, nhằm giúp mô hình nhìn thấy nhiều chi tiết hơn.

Hướng này tất nhiên có giá trị, nhưng DeepSeek trong báo cáo chỉ ra rằng, dù mô hình nhìn rõ đến đâu, vẫn sẽ xảy ra sự sụp đổ logic trong các nhiệm vụ suy luận không gian phức tạp.

Vấn đề nằm ở chính ngôn ngữ tự nhiên.

Trong ảnh có hơn mười con chó, nếu bạn nói “con chó bên trái”, thì mô hình sẽ không thể hiểu bạn đang chỉ cụ thể con nào.

Còn tệ hơn nữa, nếu bạn yêu cầu mô hình đếm số lượng con chó trong ảnh, thì trong quá trình suy luận, mô hình rất dễ bị nhầm lẫn giữa những con đã đếm và những con chưa đếm.

Báo cáo cũng đề cập đến các tình huống cực đoan như điều hướng mê cung, nơi ngôn ngữ thuần túy không thể mô tả chính xác các lộ trình hình dạng bất thường và các mối quan hệ topo phức tạp.

Ngôn ngữ như một công cụ chỉ định, vốn dĩ mơ hồ trong không gian thị giác liên tục. Nó giỏi trong việc diễn đạt các khái niệm trừu tượng và mối quan hệ nhân quả, nhưng về mặt định vị không gian và quan hệ topo, khả năng biểu đạt của ngôn ngữ có những giới hạn cơ bản.

DeepSeek vốn là một mô hình ngôn ngữ tổng quát, vậy thì nên giải quyết thế nào?

Vì vậy, đã xuất hiện ngón tay được nhắc đến ở đầu bài viết.

Khái niệm cốt lõi mà họ đề xuất là “các nguyên tố thị giác” (Visual Primitives), cụ thể là nâng cao hai loại dấu hiệu không gian cơ bản nhất trong thị giác máy tính — hộp giới hạn (bounding boxes) và điểm (points) — thành “đơn vị nhỏ nhất của tư duy”.

Các mô hình đa mô态 trước đây dù cũng có thể vẽ khung ghi chú vật thể, nhưng chỉ hiển thị kết quả cuối cùng cho bạn, chứng minh rằng “tôi đã tìm thấy”. Giống như trong kỳ thi, bạn chỉ nộp đáp án mà không viết ra quá trình giải.

Một số nghiên cứu cũng cho AI vẽ khung trong quá trình suy nghĩ, nhưng mục đích chỉ là để “nhìn rõ hơn”, khung chỉ là công cụ hỗ trợ. Giống như khi bạn làm bài toán dùng giấy nháp, giấy nháp chỉ giúp bạn tính toán rõ ràng hơn, chứ không phải là một phần của cách giải.

DeepSeek đang làm điều hoàn toàn khác biệt.

Họ nhúng trực tiếp các nhãn không gian này vào quá trình suy luận của mô hình, khiến chúng trở thành một phần hữu cơ của quá trình suy luận. Khi mô hình suy nghĩ, nó không chỉ mô tả bằng ngôn ngữ “Tôi thấy một con chó”, mà còn đồng thời đầu ra “Tôi thấy một con chó, nó ở đây: [[x1,y1,x2,y2]]”.

Cơ chế này được DeepSeek gọi là “chỉ trong khi suy luận” (point while it reasons).

DeepSeek

Mỗi bước suy nghĩ của mô hình đều được căn cứ vào tọa độ cụ thể của hình ảnh.

Báo cáo kỹ thuật chỉ đưa ra một ví dụ như vậy: mô hình xuất phát từ điểm đầu, liên tục khám phá, lùi lại và thử lại, cuối cùng đầu ra là một chuỗi tọa độ hoàn chỉnh, mỗi tọa độ tương ứng với một điểm đã đi qua trong mê cung.

Như vậy, mô hình sẽ không bị “mất phương hướng” trong quá trình suy luận. Nó sẽ không còn bối rối về việc mình đang nói gì hay chỉ đến đâu. Mỗi đối tượng trực quan đều có điểm neo không gian rõ ràng, giúp quá trình suy luận trở nên có thể theo dõi và xác minh được.

Con đường kỹ thuật này tạo ra sự tương phản thú vị với hướng đi của OpenAI.

OpenAI trong các bài giới thiệu chính thức về o3 và o4-mini đã rõ ràng đề cập đến khái niệm “thinking with images”, tức là mô hình có thể tích hợp hình ảnh vào chuỗi suy luận và xử lý hình ảnh thông qua các thao tác như cắt, phóng to, xoay. Trọng tâm của hướng đi này là biến hình ảnh thành một phần của chuỗi suy luận, để mô hình có thể tạo ra hình ảnh mới, chỉnh sửa hình ảnh và thực hiện các thao tác trên hình ảnh trong quá trình suy luận.

OpenAI's roadmap emphasizes general capabilities, with vision, code, search, files, and tool calling working together. The model features a powerful "visual workspace" that can flexibly handle various visual tasks.

Con đường của DeepSeek mang tính “biểu tượng” hơn một chút. Nó đưa tọa độ vào chuỗi suy luận. Mô hình sẽ ghi rõ tọa độ khung giới hạn và điểm trong văn bản suy luận, biến các đối tượng thị giác thành các điểm neo có thể tái sử dụng trong quá trình suy luận.

Điều này dẫn đến việc suy luận thị giác của OpenAI diễn ra bên trong, người dùng chỉ có thể thấy câu trả lời cuối cùng và các giải thích cần thiết, trong khi các quá trình xử lý thị giác trung gian là một “hộp đen”. DeepSeek cố ý làm rõ các điểm neo thị giác trung gian, giúp quá trình suy luận hoàn toàn minh bạch.

DeepSeek làm như vậy, lợi ích là quá trình suy luận dễ dàng hơn để huấn luyện, kiểm tra và chấm điểm. Điều này cũng giúp dễ dàng thiết kế các phần thưởng về định dạng, chất lượng và cấp độ nhiệm vụ. Đặc biệt trong các nhiệm vụ như mê cung, theo dõi đường đi, có thể cung cấp phản hồi chi tiết hơn về tính hợp lệ của đường đi, mức độ bao phủ quỹ đạo, v.v.

Mô hình không chỉ học cách đưa ra câu trả lời đúng, mà còn học được cách suy luận bằng các yếu tố trực quan.

02 Efficiency is the core

Một chi tiết rất dễ bị bỏ qua nhưng cực kỳ quan trọng trong báo cáo của DeepSeek là mô hình của họ sử dụng số lượng token ít hơn nhiều so với các mô hình tiên tiến khác khi xử lý hình ảnh.

Báo cáo có một biểu đồ so sánh hiển thị số lượng token được tiêu tốn khi các mô hình khác nhau xử lý một hình ảnh có độ phân giải 800×800.

Gemini-3-Flash khoảng 1100, Claude-Sonnet-4.6 khoảng 870, GPT-5.4 khoảng 740, Qwen3-VL khoảng 660, DeepSeek khoảng 361, và chỉ giữ lại khoảng 90 mục trong bộ nhớ đệm KV.

Sự khác biệt này không phải là nhỏ. Số lượng token DeepSeek sử dụng chỉ bằng một phần ba của Gemini, và các mục bộ nhớ đệm KV thậm chí chỉ khoảng một phần mười.

Làm thế nào để đạt được hiệu suất cực kỳ cao này?

DeepSeek sử dụng một cơ chế gọi là “Compressed Sparse Attention” (CSA).

Bạn có thể hiểu theo cách này: giả sử bạn đang cho bạn bè xem một bức ảnh gia đình, bạn sẽ không nói “Bắt đầu từ pixel thứ 237 tính từ bên trái có một vùng màu đỏ…”, mà bạn sẽ nói trực tiếp “Bên trái là mẹ tôi, bên phải là bố tôi”.

DeepSeek-ViT đầu tiên nén hình ảnh thành ít token thị giác hơn, sau đó CSA tiếp tục nén thêm các biểu diễn của các token thị giác này trong bộ nhớ đệm KV.

Cơ chế này đã được sử dụng trên mô hình DeepSeek-V4-Flash và hiện đang được áp dụng vào đa phương tiện trực quan.

Quy trình nén cụ thể như sau. Một hình ảnh 756×756 chứa 571536 pixel. Các pixel này đầu tiên được xử lý bởi ViT, chia thành các patch có kích thước 14×14, tạo ra 2916 patch token. Sau đó thực hiện nén không gian 3×3, nén mỗi 9 token liền kề dọc theo chiều kênh thành 1 token, còn lại 324 visual token.

324 token này được đưa vào mô hình ngôn ngữ lớn để tiền điền. Cuối cùng, cơ chế CSA sẽ nén thêm 4 lần các token thị giác trong bộ nhớ đệm KV, cuối cùng chỉ giữ lại 81 mục.

Từ 571536 pixel đến 81 mục bộ nhớ đệm KV, tỷ lệ nén toàn bộ đạt 7056 lần.

Các công ty AI lớn thường sử dụng phương pháp brute force để tích lũy tài nguyên tính toán, trong khi DeepSeek lại thực hiện sự lựa chọn trên cấp độ lý thuyết thông tin, chỉ giữ lại những thông tin trực quan và dễ hiểu nhất.

Kết quả trực tiếp nhất là tốc độ suy luận nhanh hơn nhiều.

Số lượng token hình ảnh直接影响模型的推理延迟。在自回归生成过程中，每生成一个新token，模型都需要对之前所有token的KV缓存进行注意力计算。如果图像占用了1000个token，那么每次生成都要对这1000个token做注意力。如果只占用90个，计算量就大幅减少。

Đối với các ứng dụng yêu cầu phản hồi thời gian thực như thị giác robot, tự lái, phân tích video thời gian thực, việc tăng tốc độ suy luận đóng vai trò quyết định.

Và nó cũng chiếm ít bộ nhớ.

KV cache là điểm nghẽn bộ nhớ trong suy luận mô hình lớn. Đặc biệt khi xử lý ngữ cảnh dài hoặc suy luận theo lô, KV cache sẽ tiêu tốn lượng lớn bộ nhớ GPU. DeepSeek nén KV cache của các token hình ảnh xuống còn 90 mục, cho phép xử lý nhiều hình ảnh hơn hoặc các cuộc hội thoại đa vòng dài hơn trên cùng phần cứng.

Điều này rất quan trọng đối với việc triển khai thực tế. Nhiều mô hình đa phương thức của các công ty hoạt động tốt trong phòng thí nghiệm, nhưng khi triển khai thực tế lại gặp vấn đề về chi phí. Càng nhiều token tiêu tốn cho mỗi hình ảnh, chi phí suy luận càng cao và số lượng người dùng đồng thời có thể hỗ trợ càng ít. Lợi thế về hiệu suất của DeepSeek sẽ được khuếch đại khi triển khai quy mô lớn.

Đồng thời cũng gián tiếp tăng dung lượng ngữ cảnh của mô hình.

Nếu một hình ảnh chiếm 1000 token, thì trong cửa sổ ngữ cảnh 128k, chỉ có thể chứa hơn 100 hình ảnh. Nếu chỉ chiếm 300 token, có thể chứa hơn 400 hình ảnh. Điều này cực kỳ quan trọng đối với các tình huống cần xử lý hội thoại nhiều hình ảnh, phân tích video dài, hoặc hiểu大量 tài liệu.

Các mô hình của DeepSeek có thể xử lý nhiều hình ảnh hơn trong một cuộc hội thoại, có thể so sánh và phân tích hàng chục thậm chí hàng trăm hình ảnh, đồng thời theo dõi những thay đổi dài hạn trong video.

Quan trọng nhất là chi phí đào tạo.

Mặc dù báo cáo chủ yếu nói về hiệu suất suy luận, nhưng cơ chế nén này cũng hiệu quả trong giai đoạn huấn luyện. Ít token hình ảnh hơn có nghĩa là đồ thị tính toán nhỏ hơn, tốc độ huấn luyện nhanh hơn và yêu cầu phần cứng thấp hơn.

DeepSeek luôn nổi tiếng với triết lý “tạo ra hiệu quả tốt hơn bằng ít tài nguyên hơn”. Từ việc huấn luyện học tăng cường của R1, đến kiến trúc MoE của V4, rồi đến đa phương tiện thị giác hiện tại, triết lý ưu tiên hiệu suất này luôn được duy trì.

Nhưng ở đây có một vấn đề then chốt. Việc nén có làm mất thông tin không?

DeepSeek không phủ nhận rằng việc nén sẽ gây mất thông tin. Tuyên bố của nó là trên tập các nhiệm vụ suy luận không gian và đếm này, biểu diễn đã nén vẫn đủ hiệu quả.

Mỗi bước nén đều giữ lại thông tin quan trọng nhất cho suy luận, loại bỏ sự trùng lặp và nhiễu.

Thực tế, cơ chế nguyên tố thị giác của DeepSeek được đề cập ở trên cũng là một dạng nén thông tin. Một khung giới hạn có thể xác định chính xác một vật thể chỉ bằng 4 con số, một điểm có thể đánh dấu vị trí chỉ bằng 2 con số. Những ký hiệu rời rạc này mang mật độ thông tin cao hơn nhiều so với pixel gốc.

The results show that this compression does not harm performance and even improves it on certain tasks.

Điều này cho thấy đối với nhiều nhiệm vụ suy luận thị giác, điểm nghẽn không nằm ở việc nhìn không rõ, mà nằm ở việc chưa tìm ra cách biểu diễn phù hợp.

Lợi thế hiệu suất này còn chứng minh rằng trí tuệ đa mô hình không nhất thiết cần mô hình lớn hơn, nhiều năng lực tính toán hơn hoặc chi phí cao hơn.

Kể từ khi ra đời vào thời điểm DeepSeek, công ty này luôn có một sợi dây ẩn: “Trí thông minh thực sự không nằm ở sức mạnh tính toán, mà ở sự hiểu biết bản chất của vấn đề.”

Khi bạn thực sự hiểu được yêu cầu của suy luận thị giác, bạn sẽ không cần nhiều token đến vậy. Khi bạn tìm ra cách biểu diễn phù hợp, bạn sẽ không cần mô hình lớn đến vậy.

Từ góc độ này, hiệu suất cực cao của DeepSeek không phải là mục tiêu, mà là sản phẩm phụ. Mục tiêu thực sự là tìm ra mô hình đúng đắn cho suy luận thị giác. Hiệu suất chỉ chứng minh rằng mô hình này là chính xác.

03 Việc chưa hoàn thành

DeepSeek trong phần hạn chế của báo cáo đã trung thực liệt kê một số vấn đề hiện có trong phương pháp hiện tại. Những vấn đề này không phải là những khuyết điểm nhỏ về mặt kỹ thuật, mà hướng tới giai đoạn tiếp theo của suy luận thị giác.

Vấn đề đầu tiên là sự phụ thuộc vào từ kích hoạt.

Báo cáo rõ ràng nêu rằng khả năng “suy nghĩ bằng các nguyên tố thị giác” hiện tại cần các từ kích hoạt rõ ràng (explicit trigger words) để kích hoạt. Nói cách khác, mô hình vẫn chưa thể tự nhiên và tự chủ quyết định “khi nào nên vẽ khung, đặt điểm”.

Điều đó có nghĩa là mô hình chưa thực sự học được cách xác định khi nào cần sử dụng các nguyên tố thị giác và khi nào chỉ cần dùng ngôn ngữ là đủ.

Trong trường hợp lý tưởng, mô hình nên tự quyết định dựa trên bản chất của nhiệm vụ. Nhưng khi người dùng hỏi “Đếm xem trong hình có bao nhiêu con chó”, mô hình nên tự động chuyển sang chế độ nguyên tố thị giác, sử dụng khung giới hạn để hỗ trợ đếm.

Về mặt kỹ thuật, điều này yêu cầu xây dựng một lớp nhận thức phản tư trong mô hình. Lớp nhận thức phản tư này có thể đánh giá độ phức tạp của nhiệm vụ hiện tại, xác định liệu suy luận ngôn ngữ thuần túy có đủ hay không, và quyết định có cần gọi các nguyên tố thị giác hay không.

DeepSeek hiện chưa triển khai lớp nhận thức này, nhưng họ đã xác định rõ hướng đi. Các phiên bản tương lai có thể cho phép mô hình học cách tự quyết định chiến lược suy luận, thay vì phụ thuộc vào các kích hoạt bên ngoài.

Vấn đề thứ hai là giới hạn độ phân giải.

Báo cáo cho biết, do giới hạn độ phân giải đầu vào, mô hình chưa thể hiện tốt trong các cảnh chi tiết, và các nguyên tố thị giác đầu ra đôi khi chưa chính xác.

Vấn đề này liên quan đến chiến lược ưu tiên hiệu suất của DeepSeek. Để kiểm soát số lượng token, họ giới hạn phạm vi token hình ảnh từ 81 đến 384. Đối với các hình ảnh vượt quá phạm vi này, chúng sẽ được thu nhỏ.

Thiết kế này là hợp lý trong hầu hết các tình huống, nhưng sẽ gặp giới hạn trong một số nhiệm vụ yêu cầu độ chính xác cực cao. Ví dụ: phân tích hình ảnh y tế cần nhận diện các tổn thương nhỏ, kiểm tra chất lượng công nghiệp cần phát hiện các khuyết tật tinh vi, những tình huống này đòi hỏi độ phân giải cao.

DeepSeek trong báo cáo cho rằng vấn đề này có thể được giải quyết bằng cách tích hợp các phương pháp độ phân giải cao hiện có. Nói cách khác, khung nguyên tố thị giác của họ và các phương pháp cắt độ phân giải cao truyền thống không đối lập mà bổ sung cho nhau.

Tôi nghĩ DeepSeek có thể đưa ra một giải pháp hỗn hợp.

Cụ thể, đối với hầu hết các nhiệm vụ thông thường, sử dụng biểu diễn hình ảnh nén và suy luận dựa trên các nguyên tố hình ảnh để duy trì hiệu suất cao. Đối với các khu vực cần phân tích chi tiết, tự động gọi các vùng cắt độ phân giải cao để trích xuất thông tin hình ảnh chi tiết hơn. Như vậy vừa duy trì được hiệu suất tổng thể, vừa đáp ứng nhu cầu độ chính xác tại từng khu vực.

Chìa khóa của giải pháp hỗn hợp này là giúp mô hình học cách xác định những khu vực nào cần xử lý với độ phân giải cao. Do đó, vấn đề lại quay trở lại với vấn đề nhận thức về nhận thức vừa nêu.

Vấn đề thứ ba là tổng quát hóa xuyên các kịch bản.

Báo cáo cho biết, việc sử dụng điểm như các nguyên tố trực quan để giải quyết các vấn đề suy luận topo phức tạp vẫn rất khó khăn, và khả năng tổng quát hóa giữa các cảnh của mô hình bị hạn chế.

Vấn đề này rõ ràng hơn trong các nhiệm vụ điều hướng mê cung và theo dõi đường đi. Mặc dù DeepSeek đạt được độ chính xác lần lượt là 66,9% và 56,7% trên bộ thử nghiệm do chính nó xây dựng, vượt trội hơn các mô hình khác, nhưng con số này vẫn chưa đủ.

Hơn nữa, các nhiệm vụ này đều được huấn luyện và kiểm tra trên dữ liệu tổng hợp. Các mê cung được tạo bằng thuật toán, và các đường cong theo dõi lộ trình cũng được vẽ theo chương trình. Khi mô hình đối mặt với các vấn đề suy luận topo trong thế giới thực, chẳng hạn như lập kế hoạch lộ trình trên bản đồ thực hoặc theo dõi mối quan hệ kết nối trong sơ đồ đường ống phức tạp, hiệu suất có thể giảm xuống.

Phương pháp của DeepSeek là tăng cường khả năng tổng quát thông qua dữ liệu quy mô lớn và đa dạng cao. Họ thu thập 97.984 nguồn dữ liệu, sau khi lọc nghiêm ngặt giữ lại 31.701 nguồn, cuối cùng thu được hơn 40 triệu mẫu. Trong các nhiệm vụ mê cung và theo dõi đường đi, họ cũng thiết kế nhiều cấu trúc topo, phong cách trực quan và cấp độ khó khác nhau để bao quát càng nhiều biến thể càng tốt.

Tuy nhiên, tính đa dạng của dữ liệu chỉ là một phần của khả năng khái quát. Liệu mô hình có thực sự hiểu bản chất của suy luận topo hay chỉ đơn thuần ghi nhớ các mẫu trong dữ liệu huấn luyện?

Ngoài ra, các nguyên tố trực quan của DeepSeek là một hệ thống biểu diễn mới, đòi hỏi định dạng dữ liệu, quy trình huấn luyện và phương pháp đánh giá chuyên biệt. Điều này không hoàn toàn tương thích với hệ sinh thái đa phương tiện hiện có.

Hầu hết các bộ dữ liệu và tiêu chuẩn đánh giá đa mô态 đều được thiết kế dựa trên mô hình truyền thống “hình ảnh + văn bản”, không xem xét các nguyên tố thị giác. Nếu muốn đánh giá mô hình của DeepSeek trên các tiêu chuẩn này, hoặc cần tắt tính năng nguyên tố thị giác, hoặc cần thiết kế lại phương pháp đánh giá.

Các nhà nghiên cứu khác nếu muốn tái hiện hoặc cải tiến công việc này, cần xây dựng lại toàn bộ quy trình dữ liệu và huấn luyện, mức độ yêu cầu khá cao.

DeepSeek có thể đề cập đến những vấn đề này trong báo cáo, cho thấy họ có nhận thức rõ ràng về công việc của mình.

Điều này có thể còn có giá trị hơn việc đưa ra câu trả lời hoàn hảo. Bởi vì những gì thực sự thúc đẩy sự tiến bộ của xã hội, thường không phải là câu trả lời, mà là câu hỏi.