MiniMax ra mắt mô hình M3 gây chú ý toàn cầu, CEO của Vercel công khai ủng hộ, nhưng cộng đồng trong nước có tranh cãi về điều chỉnh giá. Các nhà phát triển xác thực năng lực của M3 thông qua kiểm tra mù và thực tế, kết quả cho thấy khả năng sinh mã của nó tương đương Claude Opus 4.8, lọt vào top 10 toàn cầu trên nhiều bài kiểm tra chuẩn, trở thành mô hình mã nguồn mở mạnh nhất. Mô hình sử dụng kiến trúc Sparse Attention mới của MiniMax, giảm lượng tính toán xuống 1/20 so với trước đây khi xử lý ngữ cảnh 1 triệu. MiniMax đồng thời ra mắt tính năng Agent Team, với sự hợp tác của ba loại Agent: Leader, Worker và Verifier. Trọng số mô hình và báo cáo kỹ thuật đầy đủ sẽ được mở nguồn trong vòng 10 ngày tới, giúp các nhà phát triển toàn cầu tiến hành kiểm thử trên các dự án thực tế.

Tác giả bài viết, nguồn: NewZe Yuan

Báo cáo của Xinzhiyuan

【Dẫn chuyện của Tân Trí Nguyên】Các大佬 từ Thung lũng Silicon ủng hộ, nhưng cộng đồng lại tranh cãi náo loạn. Liệu MiniMax M3 có chịu được thử thách thực tế? Các nhà phát triển toàn cầu đã bắt tay vào sử dụng.

Gần đây, cả trong và ngoài nước đều bị một mô hình này lấp đầy.

Giám đốc điều hành Vercel, Guillermo Rauch, với 5,4 triệu người theo dõi, đã hiếm khi công khai ủng hộ.

Anh ấy đề xuất một mô hình hoàn toàn đến từ Trung Quốc — MiniMax M3.

Tuy nhiên, chính M3 này cũng nhận không ít lời phàn nàn, nhiều bình luận trong cộng đồng trong nước đã trở thành một mớ hỗn độn.

Nhiều bình luận đã tập trung vào việc điều chỉnh giá của Token Plan. Nhiều người dùng cũ cảm thấy quyền lợi của mình bị giảm sút và phản ứng rất mạnh mẽ.

Trong khi phong cách của cộng đồng nước ngoài hoàn toàn khác với trong nước.

Một số nhà phát triển nước ngoài đang đoán các tham số kiến trúc M3, cơ chế chú ý thưa thớt và quy mô dữ liệu huấn luyện.

Ví dụ, người dùng Rohan trên X cho biết, chỉ xem xét giá cả là không có ý nghĩa; mặc dù chi phí cũng rất quan trọng, nhưng anh ấy muốn biết rõ hơn về cách mô hình mắc lỗi và hiệu suất thực tế trong hệ thống Agent.

Một người dùng khác trực tiếp hơn, cho rằng: “M3 là mô hình mã nguồn mở mà đã theo kịp Opus và GPT-5 thì đã rất ấn tượng, nhưng trước khi tin vào những lời quảng bá này, tôi cần tự mình xem nó có gặp sự cố khi trình diễn thực tế không.”

Trước những đánh giá từ bên ngoài, MiniMax đã phản ứng nhanh chóng, cùng ngày đã công bố phương án bồi thường: người dùng cũ giữ nguyên quyền lợi hiện có, người dùng mới được tăng thêm 50% hạn mức tuần.

Vấn đề giá đã được giải quyết, giờ đây, vấn đề thiết yếu nhất là: M3 thực sự mạnh hay chỉ là ảo giác do刷榜?

72 giờ

Một cuộc “kiểm tra nghiêm ngặt” lan rộng toàn cầu đến các nhà phát triển

Để xác minh hiệu suất thực tế của M3, nhà phát triển Victoria Wu đã cung cấp cùng một prompt (yêu cầu AI tạo hoạt hình một con bồ nông đạp xe) cho M3, Sonnet 4.6 và Opus 4.8.

Sau đó, đánh dấu ba kết quả là A, B, C để người dùng ngẫu nhiên đoán kết quả nào là M3.

Phần bình luận gần như đồng thuận: “A trơn tru quá, chắc chắn là Opus”, “M3 hẳn là B hoặc C”.

Kết quả đã được công bố. A chính là M3.

Không chỉ có vậy, nhà phát triển JAZII cũng đã thực hiện một loạt thí nghiệm so sánh ở cấp độ kiểm tra mù.

Anh ấy đã sử dụng cùng một Prompt, yêu cầu mô hình tạo từ đầu một bản sao của Minecraft bằng Three.js trong HTML, với các thí sinh là M3 và Opus 4.8.

M3 tuy mất chút thời gian hơn, nhưng trong kết quả chạy mã cuối cùng, JAZII đã đưa ra hai từ: «Super close».

Bên trái là M3, bên phải là Opus 4.8, bạn đoán đúng chưa?

Trên X, nhà phát triển Trung Quốc "Thực Tiễn Ca minli" đã đẩy khả năng đa mô态 và lập trình Agentic của M3 đến giới hạn, dùng M3 để tạo ra một trò chơi đối kháng cử chỉ "Phàm Nhân Tu Tiên Truyện".

Trong quá trình này, M3 cần hiểu các cử chỉ thị giác phức tạp và viết mã logic dài hạn. Khi chạy trọn vẹn một quy trình, lượng Token tiêu thụ chỉ bằng 20% của Claude Sonnet.

Người đánh giá AI nổi tiếng khắt khe Thomas Wiegold cũng đã công bố ngay một báo cáo thực nghiệm dài 3.000 chữ.

Anh ấy đánh giá về M3: "Đây là một trong những mô hình thú vị nhất mà tôi đã thử trong năm nay."

Lần cuối cùng một mô hình Trung Quốc gây chấn động Thung lũng Silicon là cách đây nửa năm, khi DeepSeek V4 ra mắt.

Lần này, sự gây chấn động mang đến bởi MiniMax M3 dường như còn sâu sắc hơn.

Đưa vào một bài luận 50 trang, M3 tự tách ra

Chỉ xem người khác làm thì chưa đã. Chúng tôi tự tay thực hiện, đặc biệt chọn ra hai câu hỏi khó nhất để thử thách mô hình.

Đầu tiên là báo cáo kỹ thuật DeepSeek-V3 dài 50 trang, với nhiều biểu đồ, công thức và mã giả đan xen, mật độ thông tin cực cao.

Đầu tiên, hãy để M3 lập ra một chuỗi nguyên nhân - hệ quả kỹ thuật về « sự chồng chéo giữa giao tiếp và tính toán cấp底层 », xem liệu nó có thể làm rõ logic kỹ thuật cốt lõi nhất trong bài báo này hay không.

M3 đã suy nghĩ 15 lần, thực thi 19 lệnh và gọi 1 công cụ.

Cuối cùng, nó đã làm rõ toàn bộ lộ trình triển khai chiến lược lập lịch DualPipe, không có điểm đứt gãy trong chuỗi logic.

Trượt lên xuống để xem

Tiếp theo sẽ kiểm tra khả năng đa mô态 của M3.

Tải lên một sơ đồ cấu trúc MLA, sau đó yêu cầu mô hình xác định các công thức toán học nào trong văn bản chính tương ứng với quá trình lập lịch động và chiếu.

M3 đã nhanh chóng đưa ra phân tích tương ứng, chính xác trúng đích.

Độ khó tiếp tục được tăng lên. Nếu một đường nối nào đó trong hình thực chất ẩn chứa các ràng buộc sâu hơn trong mô tả văn bản của phần正文, hãy yêu cầu M3 chỉ ra vị trí trực quan của nó trong hình và giải thích lý do đằng sau.

M3 đã thêm chú thích trực tiếp lên sơ đồ kiến trúc MLA và phân tích chi tiết ba ràng buộc.

Một bài phát biểu GTC kéo dài 2 giờ, M3 trực tiếp ra bản thảo

Câu thứ hai có độ khó tăng lên, không chỉ cần hiểu được mà còn phải viết ra được.

Tài liệu lần này là bài phát biểu chính kéo dài 1 giờ 57 phút từ hội nghị GTC của NVIDIA, cùng với các quy định viết lách, đều được ném hết cho M3.

Một câu lệnh: Sau khi xem video, hãy viết một bài điều tra sâu từ 3.000 đến 40.000 chữ theo tiêu chuẩn.

Đối với video gốc 1,15 GB, các công cụ AI thông thường phần lớn sẽ báo lỗi và rút lui.

Nhưng với sự hỗ trợ của bộ công cụ cấp hệ thống MiniMax Code, M3 đã ngay lập tức tìm ra giải pháp—

Đã sử dụng ffmpeg để nén và cắt đoạn, tự mình mở ra một con đường có thể đi được.

Sau khi ăn hết 12 đoạn, M3 đã đưa ra một danh sách tài liệu ấn tượng.

Mốc thời gian được chính xác đến mức phút, chi tiết hình ảnh được ghi lại cực kỳ tinh tế.

Chiếc áo khoác da đen có hoa văn vảy cá trên người Lão Hoàng, cảnh cận cảnh nâng chip N1X lên cao quá đầu trong 15 giây liền từ túi quần, và lời đùa khi đưa máy thật Vera Rubin lên sân khấu: “Chắc có khoảng 2000 người đang kéo ở phía sau,” đều được liệt kê đầy đủ.

Ngay cả câu tiếng Trung bất ngờ của Lão Hoàng: “Quá nhiều thứ rồi”, nó cũng không bỏ sót.

Điều đáng sợ hơn là M3 còn đưa ra ba điểm mà họ cho là nổi bật nhất, mỗi điểm đều có lý do phán đoán riêng.

Sau khi xác nhận danh sách tài liệu, M3 bắt đầu viết.

Mở đầu bằng cảnh lão Hoàng lục túi quần, kết thúc bằng việc nâng tầm lên “chủ nhân của chuỗi công nghiệp này đang dần từ con người chuyển thành Agent”.

Bản nháp 3500 từ, nộp bài sau 40 phút.

Mặc dù vẫn chưa đạt đến mức độ bài viết của chúng tôi, nhưng nó cung cấp một điểm khởi đầu có chất lượng đủ cao.

Xem xong video 2 giờ với đa mô-đun, ngữ cảnh dài đưa toàn bộ tài liệu + tiêu chuẩn viết + mẫu bài vào cùng một cửa sổ, khả năng Agent đảm nhiệm giải quyết mọi vấn đề phát sinh.

Ba năng lực cốt lõi của M3 đã bị khai thác đến giới hạn tối đa trong nhiệm vụ này; thiếu bất kỳ yếu tố nào đều không thể hoàn thành.

Bảng điểm của 12 mô hình, M3 tự tạo một bản tổng quan toàn cảnh

Câu thứ ba hãy chuyển sang hướng khác, không kiểm tra văn bản dài, mà kiểm tra đọc biểu đồ + kết nối internet + thực hiện kỹ thuật.

Khi các mô hình được phát hành, chúng đều đính kèm một biểu đồ so sánh benchmark, nhưng định dạng rất đa dạng, có bảng, có biểu đồ cột, có biểu đồ radar, và cách tính dữ liệu cũng không thống nhất.

Để so sánh ngang hàng, bạn phải tự lật từng trang, đối chiếu từng ô, cực kỳ khó khăn.

Lần này, hãy trực tiếp gửi cho M3 mười ảnh chụp màn hình benchmark từ các blog chính thức của các mô hình khác nhau và các nền tảng đánh giá bên thứ ba, để nó tự mình hiểu tất cả các biểu đồ, kết nối internet để bổ sung dữ liệu còn thiếu, thống nhất tiêu chí và tạo thành một bảng so sánh tương tác.

M3 hãy nhận diện từng ảnh chụp màn hình để xác định tên mô hình và điểm số. Đối với các biểu đồ có định dạng khác nhau, tự thực hiện chuẩn hóa dữ liệu. Nếu thiếu dữ liệu trong ảnh chụp màn hình, hãy trực tiếp tìm kiếm trên mạng để bổ sung từ nguồn chính thức.

Đã tạo ra một màn hình tương tác màu tối phong cách Bloomberg Terminal.

12 mô hình, 14 bài kiểm tra benchmark, bao gồm bảng xếp hạng tổng hợp, biểu đồ radar so sánh, biểu đồ cột từng mục và biểu đồ phân tán giá/hiệu suất, bốn mô-đun trong một lần duy nhất.

Ba khả năng, một lần nâng tối đa

Sau khi hoàn thành ba câu hỏi, ranh giới năng lực của M3 đã trở nên rõ ràng. Vấn đề tiếp theo là nó đã làm được điều đó nhờ vào cái gì.

Đáp án là ba năng lực cốt lõi đồng thời được đáp ứng: lập trình cấp cao, cửa sổ ngữ cảnh 1M và đa mô hình bản địa.

Cơ sở của chúng là một kiến trúc chú ý mới gọi là MiniMax Sparse Attention (MSA).

Khi cơ chế chú ý truyền thống xử lý ngữ cảnh ở mức triệu, lượng tính toán tăng theo cấp số nhân, khiến bộ nhớ và sức mạnh tính toán của GPU bị khai thác hết.

MSA đã loại bỏ điểm nghẽn này bằng cách sử dụng phương pháp thưa theo cấp độ khối.

Ở cấp độ operator, nó cho phép mỗi khối dữ liệu KV được đọc chỉ một lần trong bộ nhớ, truy cập bộ nhớ hoàn toàn liên tục và không thực hiện bất kỳ thao tác sao chép nào lặp lại.

Hiệu quả, chỉ có thể dùng từ bạo lực để mô tả.

Dưới quy mô ngữ cảnh 1 triệu, lượng tính toán cho mỗi token của M3 đã bị giảm xuống còn 1/20 so với thế hệ trước. Tốc độ tiền xử lý tăng hơn 9 lần, tốc độ giải mã tăng hơn 15 lần.

Bên đa mô态 cũng vô cùng mạnh mẽ. M3 hoàn toàn không phải là sản phẩm ghép nối, huấn luyện văn bản trước rồi gắn thêm mô-đun thị giác.

Từ bước đầu tiên của quá trình huấn luyện, văn bản, hình ảnh và video đã được đưa vào một cách hỗn hợp. Để làm điều này, nhóm nghiên cứu đã tái cấu trúc toàn bộ đường ống dữ liệu và nâng quy mô tiền huấn luyện trực tiếp lên mức 100T.

Kết quả là, M3 đã giành vị trí cao nhất trong số các mô hình mã nguồn mở trên bảng xếp hạng Trí tuệ tổng hợp Artificial Analysis, đứng thứ bảy toàn cầu.

Trên bảng xếp hạng GPQA Diamond về lý luận khoa học, M3 đạt 93,2%, lọt vào top 4 toàn cầu, cao hơn cả Claude Opus 4.8 và Opus 4.7.

Trong bảng xếp hạng suy luận ngữ cảnh dài, M3 đạt 74,0% và lọt vào top sáu, ngang ngửa với loạt GPT-5.

Trên bảng xếp hạng Agent của GDPval-AA, M3 với 1670 điểm đứng thứ năm toàn cầu, chỉ kém Sonnet 4.6 đúng 6 điểm.

Mỗi bảng xếp hạng có các tiêu chí đánh giá khác nhau, nhưng vị trí của M3 luôn nằm ở ngưỡng của nhóm đầu tiên các mô hình đóng nguồn, ngay trước các mô hình mã nguồn mở.

Trượt sang trái hoặc phải để xem

Trên bảng xếp hạng đa mô hình bên thứ ba nổi tiếng Vals Index, M3 cũng đạt vị trí thứ sáu toàn cầu.

Đây là thành tích tốt nhất hiện tại của các mô hình mã nguồn mở trong nước và cũng là vị trí cao nhất toàn cầu trong các mô hình mã nguồn mở.

Từ góc độ tổng thể, M3 đã chắc chắn vượt qua ngưỡng Claude Sonnet 4.6.

Mặc dù vẫn còn một khoảng cách với Opus 4.7 và GPT-5.5 mạnh nhất, nhưng không thể phủ nhận rằng nó đã lọt vào bảng tử thần.

Một agent không đủ, vậy thì hãy dùng một đội nhóm

Vậy câu hỏi tiếp theo rất tự nhiên: vậy thì chạy mô hình này bằng gì?

Trong thử nghiệm trước đó, M3 sử dụng ffmpeg để cắt video và hoàn thành trong 40 phút, và nó được chạy trên MiniMax Code.

Nhưng đó mới chỉ là một Agent đơn lẻ đang làm việc. Điều đáng bàn nhất trong bản nâng cấp lần này là Agent Team.

Người từng sử dụng các công cụ lập trình AI đều đã từng có trải nghiệm như vậy.

Bạn đã giao cho Agent 7 nhiệm vụ, nhưng nó làm xong 3 việc thì dừng lại báo cáo: “Tôi đã hoàn thành 1, 2, 3, có cần tiếp tục không?”. Hoặc đang làm tốt thì đột ngột thay đổi phong cách, lúc đầu giống một kỹ sư đáng tin cậy, nhưng sau đó lại bắt đầu nói những lời vô nghĩa.

Đối với điều này, nhóm Agent đã tách trọng tài và vận động viên ra.

Leader chịu trách nhiệm hiểu mục tiêu, phân chia nhiệm vụ và điều phối. Worker chịu trách nhiệm thực hiện cụ thể, các Worker khác nhau có các công cụ và ngữ cảnh khác nhau. Verifier chịu trách nhiệm nghiệm thu, chuyên môn phản biện lại Worker.

Worker đã hoàn thành, Verifier bắt đầu tìm lỗi. Nếu phát hiện vấn đề, Verifier sẽ trả lại để làm lại. Sau khi Verifier kiểm tra xong, Worker sẽ dựa vào ý kiến sửa đổi để thực hiện lại. Vòng lặp đối kháng này không dựa vào việc mô hình tự quyết định khi nào dừng, mà được điều khiển bởi một cơ chế trạng thái ở cấp底层.

Điểm thú vị nhất khi trải nghiệm thực tế là bạn gửi một tin nhắn, M3 phản hồi xác nhận ngay lập tức, đồng thời nhiều Worker phía sau đã chạy song song.

Giữa chừng, bạn thêm một yêu cầu mới: “Nhân tiện giúp tôi kiểm tra cái này”, Leader lập tức phản hồi, nhiệm vụ nền vẫn tiếp tục chạy.

Giống hệt một đồng nghiệp luôn phản hồi ngay lập tức tin nhắn của bạn và còn giúp bạn làm việc.

Sức mạnh mô hình của M3 cộng với đội ngũ Agent của MiniMax Code—một đội phụ trách suy nghĩ, một đội phụ trách thực hiện, sự kết hợp này mở ra vô vàn trí tưởng tượng.

Sau cơn bão, sự chú ý của mọi người cuối cùng cũng quay trở lại với M3.

Và bước quan trọng tiếp theo sẽ đến: trọng số và báo cáo kỹ thuật đầy đủ sẽ được mở nguồn trong vòng mười ngày.

At that time, developers worldwide will rate it using real projects.

Theo dõi ASI theo giây

⭐ Thích, chia sẻ, xem một lần ba thao tác ⭐

Bật biểu tượng sao để nhận thông báo nhanh từ New Intelligence!

Bài viết trước

Các chuyên gia dự đoán sẽ đến cuối năm, nhưng Claude Mythos đã chạy xong trong 3 giờ 6 phút hôm nay!

Trang tiếp theo Bài viết

Anthropic giao 95% phân tích nội bộ cho Claude, bí mật không nằm ở mô hình mạnh hơn

MiniMax M3 xếp đầu trong các mô hình mã nguồn mở, gây ra tranh luận trong cộng đồng Trung Quốc

Báo cáo của Xinzhiyuan

【Dẫn chuyện của Tân Trí Nguyên】Các大佬 từ Thung lũng Silicon ủng hộ, nhưng cộng đồng lại tranh cãi náo loạn. Liệu MiniMax M3 có chịu được thử thách thực tế? Các nhà phát triển toàn cầu đã bắt tay vào sử dụng.