MiniMax випустила модель M3, що викликало глобальний інтерес; генеральний директор Vercel відкрито підтримав її, але в українській спільноті є суперечки щодо коригування цін. Розробники перевірили потужність M3 за допомогою сліпих та реальних тестів, і результати показали, що її здатність генерувати код порівнянна з Claude Opus 4.8, а в багатьох тестових наборах вона потрапила до десятки найкращих у світі, ставши найпотужнішою відкритою моделлю. Модель використовує нову архітектуру MiniMax Sparse Attention, що зменшує обчислювальну складність у 20 разів при контексті до 1 мільйона. MiniMax одночасно запустила функцію Agent Team, де Leader, Worker та Verifier працюють разом. Ваги моделі та повний технічний звіт будуть відкриті протягом десяти днів, і глобальні розробники проведуть тестування на реальних проектах.

Автор статті, джерело: NewZeal

Newzhongyuan повідомляє

[Новітній інтелект: аналіз] Великі імена з Кремнієвої долини підтримують, але спільнота розбіглася в думках. Чи витримає MiniMax M3 справжній тест? Глобальні розробники вже почали працювати з ним.

Недавно та сама модель заполонила соціальні мережі як у країні, так і за кордоном.

Гільєрмо Раух, генеральний директор Vercel, який має 5,4 мільйона підписників, винятково рідко відкрито підтримав.

Він рекомендує модель повністю китайського походження — MiniMax M3.

Проте саме цей M3 викликає багато критики, і в коментарях на багатьох китайських спільнотах це перетворилося на справжній хаос.

Багато коментарів були спрямовані на корекцію ціни Token Plan. Багато старих користувачів вважають, що їхні права зменшилися, і це викликало величезний незадоволення.

А стиль зарубіжних спільнот повністю відрізняється від внутрішніх.

Деякі зарубіжні розробники гадають про архітектурні параметри M3, розріджений механізм уваги та обсяг навчальних даних.

Наприклад, користувач Rohan з X сказав, що дивитися лише на ціну безглуздо; хоча вартість також важлива, він хоче знати, як саме модель помиляється та як вона веде себе в системі Agent.

Інший користувач висловився ще пряміше: «M3, як відкритий моделі, вже дуже вражає, що встигає за Opus і GPT-5, але перед тим як вірити цим рекламним заявам, я хочу сам побачити, як він зламається на живому прикладі».

На ці зовнішні оцінки MiniMax швидко відреагувала: того ж дня було оголошено компенсаційну схему — для старих користувачів зберігаються всі попередні переваги, а новим користувачам надається додатково 50% до тижневого ліміту.

Проблему з ціною вирішено, тепер найважливішим питанням є: чи є M3 справді сильним, чи це лише ілюзія «підняття в рейтингу»?

72 години

«Жорстка перевірка», що охопила розробників по всьому світу

Щоб перевірити реальну продуктивність M3, розробник Вікторія Ву подала однаковий запит (згенерувати анімацію пелікана, який їде на велосипеді) у M3, Sonnet 4.6 та Opus 4.8.

Потім позначте три результати як A, B, C, і дайте користувачам вгадати навсліп, який з них є M3.

Коментарі майже однозначні: «A надто гладке, це обов’язково Opus», «M3, мабуть, B або C».

Результати оголошено. A — це M3.

Не лише це, розробник JAZII також провів серію сліпих тестів.

Він використав повністю той самий запит, вимагаючи від моделі створити з нуля клон Minecraft на HTML за допомогою Three.js; учасниками були M3 та Opus 4.8.

Хоча M3 витратила трохи більше часу, у фінальному результаті виконання коду JAZII вивела два слова: «Super close».

Зліва M3, справа Opus 4.8, чи ви вгадали?

Китайський розробник на X «Shijian Ge minli» використав мультимодальні та агентні можливості кодування M3 до межі, створивши гру «Піднесення до божественності серед смертних» з використанням M3.

У цьому процесі M3 має розуміти складні візуальні жести та написати довгий логічний код. Під час повного проходження від початку до кінця споживання токенів становить лише 20% від Claude Sonnet.

Автор строгих оцінок штучного інтелекту Томас Вайгольд випустив практичний звіт обсягом 3000 слів відразу ж.

Він прокоментував M3: «Це один із найцікавіших моделей, які я тестував цього року.»

Останній китайський моделі, яка викликала потрясіння в Сіліконовій долині, був DeepSeek V4, що був випущений півроку тому.

А цього разу враження від MiniMax M3 здається ще більш об’ємним.

Вкиньте 50-сторінкову роботу — M3 розбере її сама

Просто дивитися, як інші тестують — нецікаво. Ми самі взялися за це і спеціально вибрали дві найскладніші задачі, щоб перевірити модель.

Перша — це 50-сторінковий технічний звіт DeepSeek-V3. Щільно заповнений діаграмами, формулами та псевдокодом, максимальна щільність інформації.

Спочатку нехай M3 створить ланцюжок причинно-наслідкових технічних зв’язків щодо «перекриття нижчого рівня зв’язку та обчислень», щоб зрозуміти найскладнішу інженерну логіку цієї статті.

M3 продумав 15 разів, виконав 19 команд та викликав 1 інструмент.

В кінцевому підсумку він детально розбив повний шлях реалізації стратегії планування DualPipe, не залишивши жодних розривів у логічній ланцюжці.

Прокрутіть вгору та вниз, щоб переглянути

Наступним буде тестування мультимодальних здібностей M3.

Завантажте схему структури MLA, а потім попросіть модель знайти, які математичні формули в тексті відповідають динамічному плануванню та процесу проекції на схемі.

M3 швидко надала відповідний аналіз, точно визначивши.

Складність продовжує зростати. Якщо деяка лінія на діаграмі в текстовому описі в основному тексті приховує глибші приховані обмеження, попросіть M3 вказати її візуальне розташування на діаграмі та пояснити причини.

M3 додав позначення безпосередньо на схему архітектури MLA та надав детальний розбір трьох обмежень.

Двогодиння промова GTC, M3 випускає текст безпосередньо

Друге питання складніше — потрібно не тільки зрозуміти, а й написати.

Цей матеріал — повна тематична промова з конференції GTC від NVIDIA тривалістю 1 година 57 хвилин, разом із вимогами до написання, було цілком передано M3.

Одна вказівка: перегляньте відео та створіть глибокий матеріал обсягом 3000–40000 слів у відповідності з вимогами.

Зі звичайними інструментами ШІ для початкового відео розміром 1,15 ГБ більшість з них просто видасть помилку і вийде.

Але завдяки системі інструментів MiniMax Code M3 негайно знайшов рішення—

Використання ffmpeg для стиснення та розбиття на частини відкрило мені шлях, який можна пройти.

Після того як було з’їдено всі 12 сегментів, M3 представила захоплюючий список матеріалів.

Часова мітка з точністю до хвилин, деталі зображення надзвичайно чіткі.

Усі це: чорна шкіряна куртка зі структурою луски, яку носить Старий Хуан, плановий кадр, де він витягує чіп N1X з кишені та тримає його над головою цілих 15 секунд, та жарт про «за ним, мабуть, 2000 людей тягнуть», коли він вивозить справжній пристрій Vera Rubin на сцену.

Навіть той раптовий китайський вираз «забагато речей», який випав з уст старого Хуанга, він не пропустив.

Ще жорсткіше: M3 висунув три найбільш вражаючі точки, на які вважає, що варто звернути увагу, — кожну з них він обґрунтував.

Після підтвердження списку матеріалів, M3 почав писати.

Початок з образу старого Хуанга, що витягує з кишені штанів, завершується піднесенням до ідеї: «власником цього ланцюжка постійно стає не людина, а агент».

Чернетка 3500 слів, здавати через 40 хвилин.

Хоча це ще не досягає нашого рівня публікацій, воно надає достатньо якісну основу.

Багатомодальний: переглянув відео тривалістю 2 години, довгий контекст завантажив усі матеріали, вимоги до написання та зразки в одному вікні, здатність агента вирішує будь-що, що виникає.

Три ключові здібності M3 були повністю вичерпані в цьому завданні; без будь-якої з них це було б неможливо.

12 оцінок моделей, M3 сама створила панорамний знімок

Третє питання змініть напрямок: не перевіряйте розуміння довгих текстів, а перевіряйте вміння читати діаграми, підключатися до інтернету та вирішувати інженерні завдання.

Під час випуску кожної моделі публікують графік порівняння benchmark, але формати різняться: таблиці, стовпчикові діаграми, радарні діаграми, а також дані збираються за різними критеріями.

Щоб порівняти бок о бік, потрібно самому листувати сторінки та зіставляти кожну клітинку — це надзвичайно неприємно.

Цього разу відразу надайте M3 десять скріншотів з офіційних блогів різних моделей та сторонніх платформ оцінки, щоб вона сама зрозуміла всі діаграми, підключилася до інтернету, доповнила відсутні дані, уніфікувала методологію та створила інтерактивну порівняльну панель.

Спочатку M3 ідентифікує назви моделей та бали на знімках екрана. Для графіків із іншим форматом виконайте нормалізацію самостійно. Дані, яких не вистачає на знімках, безпосередньо знайдіть у офіційних джерелах в інтернеті та доповніть.

Було створено темний інтерактивний великий екран у стилі Bloomberg Terminal.

12 моделей, 14 тестів benchmark, комплексний рейтинг, порівняння за допомогою радарної діаграми, стовпчасті діаграми за окремими показниками, діаграми розсіювання ціна/продуктивність — усі чотири модулі в одному.

Три здібності, одночасно на максимум

Після виконання трьох завдань межі можливостей M3 стали зрозумілими. Наступне питання: на чому це ґрунтується.

Відповідь — це одночасне наявність трьох ключових здібностей: передове програмування, контекстне вікно 1M та нативна мультимодальність.

Їхня основа — це нова архітектура уваги під назвою MiniMax Sparse Attention (MSA).

При обробці контексту в мільйони токенів традиційний механізм уваги призводить до експоненційного зростання обчислювальних витрат, вичерпуючи пам’ять та потужність GPU.

MSA видала цей обмеження за допомогою блокової розрідженої структури.

На рівні оператора він дозволяє читати кожен блок даних KV у пам’яті лише один раз, забезпечуючи повну послідовність звернень до пам’яті без будь-яких повторних переміщень.

Ефект можна описати лише як насильство.

При масштабі контексту в 1 мільйон, обчислювальна вимога на кожен токен M3 була зменшена до 1/20 від попереднього покоління. Прискорення передзаповнення — більше ніж у 9 разів, прискорення декодування — більше ніж у 15 разів.

Так само жорстко підходять і до мультимодальності. M3 — це не просто з’єднання вже навченого текстового модуля з доданим візуальним модулем.

З першого кроку навчання текст, зображення та відео подавалися разом. Для цього дослідницька команда перебудувала всю ланцюжок даних і безпосередньо збільшила масштаб попереднього навчання до рівня 100 ТБ.

Як результат, M3 зайняв найвищу позицію серед відкритих моделей у загальному інтелектуальному індексі Artificial Analysis, посівши сьоме місце у світі.

У науковому рейтингу GPQA Diamond M3 показав 93,2%, потрапивши у топ-4 світу, що вище, ніж у Claude Opus 4.8 та Opus 4.7.

У рейтингу довгих контекстних міркувань M3 з результатом 74,0% потрапив у топ-6, порівняно з серією GPT-5.

У рейтингу агентів з реальними завданнями GDPval-AA, M3 з 1670 балами посідає п’яте місце у світі, відстаючи від Sonnet 4.6 лише на 6 балів.

Кожен рейтинг має різні критерії оцінки, але позиція M3 завжди залишається на тому самому рівні — на межі першого ешелону закритих моделей та на передньому краї відкритих моделей.

Проведіть пальцем вліво або вправо, щоб переглянути

На відомому сторонньому багатомодальному рейтингу Vals Index, M3 також зайняв шосте місце у світі.

Це найкращий результат серед відкритих моделей в Китаї та найвищий світовий рейтинг серед відкритих моделей.

З точки зору загальної продуктивності, M3 стабільно подолав рівень Claude Sonnet 4.6.

Хоча й не дотягує до найсильніших Opus 4.7 та GPT-5.5, воно без сумніву потрапило до «групи смерті».

Одного агента недостатньо — використовуйте команду.

Тоді природнім є наступне питання: чим запускати таку модель?

У попередніх тестах M3 використовував ffmpeg для розрізання відео та отримав результат за 40 хвилин саме на MiniMax Code.

Але це ще тільки один агент працює. Найцікавішим у цьому оновленні є Agent Team.

Ті, хто вже використовував інструменти AI для програмування, мали, мабуть, такий досвід.

Ви дали агенту 7 завдань, він виконав 3 і зупинився, щоб звітувати: «Я вже виконав 1, 2, 3, чи потрібно продовжувати?». Або, раптово, під час роботи він змінює стиль: спочатку веде себе як надійний інженер, а потім раптово починає брехати.

Для цього команда Agent розділила суддю та учасників.

Leader відповідає за розуміння цілей, розбиття завдань і розподіл. Worker виконує конкретну роботу, різні Worker мають різні інструменти та контекст. Verifier відповідає за прийняття, спеціалізується на запереченні Worker.

Робітник завершив роботу, перевіряючий почав шукати помилки. Виявивши проблеми, він повертає роботу на доопрацювання. Після завершення перевірки перевіряючим, робітник знову виконує завдання з урахуванням зауважень. Цей цикл конфлікту не залежить від того, чи зможе модель самостійно визначити, коли зупинитися — на нижньому рівні керує цим стан-машинний двигун.

Найприємнішим аспектом у реальному використанні є те, що після відправлення повідомлення M3 миттєво підтверджує, а одночасно на тиловій стороні вже запущено кілька Workerів у паралельному режимі.

Під час цього ви додаєте нову вимогу: «Також перевірте, будь ласка, це», лідер миттєво реагує, а фонові завдання продовжуються.

Як колега, який миттєво відповідає вам у WeChat і одночасно допомагає вам працювати.

Модель M3 у поєднанні з командою Agent MiniMax Code — одна відповідає за думки, інша — за дії, їхнє поєднання відкриває безмежну уяву.

Після бурхливих подій увага всіх знову звернулася до M3.

А далі настає справжній ключовий крок: його вага та повний технічний звіт будуть відкриті протягом десяти днів.

Тоді глобальні розробники оцінять його на основі реальних проектів.

Слідкуйте за ASI в реальному часі

⭐ Поставте лайк, поділіться та натисніть «Подобається» одним кліком ⭐

Увімкніть зірочку, щоб отримувати швидкі оновлення від New智Yuan!

Попередня стаття

Експерти передбачали, що це станеться лише наприкінці року, а Claude Mythos вже показав результат за 3 години 6 хвилин!

Наступна сторінка стаття

У Anthropic 95% аналізу бізнесу передано Claude, і секрет полягає не в більш потужній моделі

MiniMax M3 посідає перше місце серед моделей з відкритим кодом, викликає дискусії в китайській спільноті

Newzhongyuan повідомляє