DeepSeek V4 продемонстрував стабільну продуктивність на вітчизняних чіпах для ШІ

Автор: Фабрика світових моделей

DeepSeek V4 знову вразив увесь Китай.

Розмір параметрів, довжина контексту, бенчмаркові оцінки… ці технічні показники вже неодноразово порівнювалися в різних матеріалах.

Але якщо обмежитися лише поверхневими даними, то пропустите найбільш стратегічно важливу суть цього випуску.

Протягом останніх трьох років китайські великі моделі завжди залишалися в незручній ситуації: навчання залежить від NVIDIA, висновки також залежать від NVIDIA, а вітчизняні чіпи є лише резервним варіантом.

Як тільки NVIDIA припинить поставки, весь китайський моделний світ відчує тривогу.

Але сьогодні DeepSeek V4 довів свої можливості:

Передовий великий моделі з трильйонами параметрів також може стабільно та ефективно працювати на вітчизняних обчислювальних потужностях.

Значення цієї події перевищує самі технічні показники моделі.

Прорив локалізації

Щоб справді зрозуміти складність цієї адаптації до локального виробництва, спочатку потрібно зрозуміти імперію чіпів NVIDIA.

NVIDIA має не лише чіпи, а повний замкнений екосистемний комплекс:

На апаратному рівні є сімейство GPU-чіпів, а також високoshвидкісна мережа для з’єднання чіпів за допомогою NVLink і NVSwitch;

У програмному забезпеченні CUDA — це штучний інтелект-операційна система, яку NVIDIA розробляла протягом декількох десятиліть.

Він подібний до високооптимізованого заводу, де від найнижчих операторів (базових одиниць обчислення моделі) до паралельних обчислень, управління пам’яттю та розподіленої комунікації — увесь ланцюжок створений спеціально для GPU від NVIDIA.

Іншими словами, NVIDIA не лише продає двигуни — вона також відремонтувала дороги, заправки, майстерні та навігаційні системи.

Майже всі найкращі у світі великі моделі розвиваються в цій екосистемі.

Переключення на вітчизняні обчислювальні потужності стикається з完全 іншою ситуацією.

Різниця в архітектурі апаратного забезпечення, способах взаємодії, ступені зрілості програмного стеку та те, що екосистема інструментів все ще швидко наздоганяє.

DeepSeek хоче адаптувати власні чіпи, але це не просто заміна двигуна — це заміна двигуна у гоночному автомобілі, який щойно рухається з високою швидкістю по автостраді, на дорогу, яка ще перебуває в процесі будівництва.

Навіть невелика помилка може призвести до поштовхів, втрати швидкості або навіть до повної зупинки транспортного засобу.

На цей раз DeepSeek V4 не обрав лише продовження оптимізації вздовж шляху CUDA, а почав одночасно адаптуватися до програмного стеку вітчизняних обчислювальних ресурсів.

Згідно з відкритою інформацією, V4 досяг прориву на базі вітчизняних чіпів для висновків, глибоко оптимізований для чіпа Huawei Ascend 950, а також стабільно працює на чіпах Cambricon в день публікації моделі, що дійсно забезпечує Day 0-сумісність.

Це означає, що передові моделі починають мати можливість бути реалізованими в місцевій чиповій системі.

Як DeepSeek V4 цього досягає?

Перший крок відбувається на рівні архітектури моделі.

V4 не вибрав варіант, коли китайські чіпи мають витримувати контекст у 1M, а замість цього спочатку зробив модель більш ефективною.

Найважливішими дизайнами у офіційному технічному звіті є гібридний механізм уваги CSA + HCA та оптимізації довгого контексту, такі як стиснення KV Cache.

Просто кажучи, традиційне довге виведення контексту полягає в тому, що модель при кожній відповіді на питання відкриває цілу бібліотеку, що швидко вичерпує пам’ять, пропускну здатність та обчислювальні ресурси.

Підхід V4 полягає у тому, щоб спочатку повторно індексувати, стиснути та фільтрувати матеріали з бібліотеки, надсилаючи лише найважливішу інформацію до обчислювального ланцюжка.

Таким чином, контекст 1M більше не залежить виключно від апаратної потужності, а спочатку зменшує обчислювальну та відеопам’ятну завантаженість за допомогою алгоритмів.

Це дуже важливо для вітчизняних чіпів.

Якщо модель все ще сильно залежить від пропускної здатності відеопам’яті та зрілих бібліотек CUDA, навіть якщо вітчизняні чіпи можуть її запускати, їм важко буде робити це дешево та стабільно.

V4 спочатку зменшує навантаження на виведення, сутнісно зменшуючи навантаження на китайські обчислювальні потужності.

Другий крок відбувається на рівні архітектури MoE та параметрів активації.

Хоча V4-Pro має загальну кількість параметрів 1,6 трильйона, під час кожного висновку активується лише близько 49 мільярдів параметрів; V4-Flash має загальну кількість параметрів 284 мільярди, активуючи близько 13 мільярдів параметрів під час кожного висновку.

Це означає, що замість того, щоб витягувати всі параметри для кожного виклику, він працює як велика команда експертів, де до роботи залучаються лише відповідні експерти.

Це також важливо для вітчизняних чіпів.

Це зменшує обчислювальну навантаженість, яку треба нести під час кожного висновку, і робить довгі контексти та сценарії агента легшими для обробки на картах висновків.

Третій крок — адаптація операторів та рівня Kernel.

Найсильнішою стороною екосистеми CUDA є те, що велика кількість нижчих рівнів обчислень вже була досконало розроблена NVIDIA, і багато високопродуктивних обчислень можна використовувати безпосередньо.

Значення V4 полягає в тому, що частина ключових обчислень вилучена з чорного ящика NVIDIA і перетворена на більш переносні та адаптивні власні обчислювальні шляхи.

Простіше кажучи, V4 — це як розібрати найважливіші деталі двигуна, щоб такі компанії, як Huawei Ascend та Cambricon, могли налаштувати їх під свою архітектуру чіпів.

Крок 4 — це інференс-фреймворк та сервісний шар.

Якщо адаптація китайських чіпів обмежується лише «запуском демо», то промислова значущість цього невелика. Насправді варто звертати увагу на те, чи зможе він потрапити до системи послуг, які можна викликати та оплачувати.

За результатами внутрішніх тестів на Ascend 950PR швидкість висновку V4 значно зросла порівняно з попередніми версіями, а споживання енергії також значно зменшилося. Продуктивність однієї карти в певних сценаріях низької точності перевищує 2 рази продуктивність NVIDIA H20.

Офіційно DeepSeek зазначає, що зараз V4-Pro обмежений високопродуктивними обчислювальними ресурсами, і пропускна здатність служби обмежена; очікується, що після масового виходу на ринок супервузлів Ascend 950 у другій половині року ціна значно знизиться.

Це свідчить про те, що зі збільшенням масового виробництва вітчизняного обладнання, такого як Ascend, пропускна здатність та співвідношення ціни та якості V4 в майбутньому ще більше покращаться.

Варто зазначити, що V4 повністю не замінив GPU та CUDA від NVIDIA. Навчання моделей може все ще залежати від NVIDIA, але висновки вже можуть поступово локалізуватися.

Це дійсно дуже реалістичний бізнес-шлях.

Навчання — це поетапні витрати: один раз навчаєте, один раз налаштовуєте, один раз ітеруєте. Висновок — це постійні витрати: щодня мільйони або мільярди запитів від користувачів, кожен з яких вимагає обчислювальних ресурсів.

Основні витрати компаній, що розробляють моделі, з часом все більше будуть зосереджуватися на висновках. Хто зможе ефективніше та стабільніше задовольняти потреби у висновках, той отримає реальна перевага у промислових застосуваннях.

DeepSeek V4 вперше надав китайській передовій моделі шлях для розгортання висновків, який не ґрунтується на CUDA від NVIDIA як на стандартній передумові.

Цей крок уже достатньо значущий.

Вплив V4 на промислове застосування

Якщо питання сумісності вітчизняних чіпів відповідає на те, чи можна їх запустити, то питання ціни ставить інший, більш реальний питання:

Чи можуть собі дозволити це бізнеси?

Раніше найсильнішою стороною DeepSeek було те, що він зміг знизити ціну до мінімуму, зберігаючи здатність, близьку до передових моделей.

Так було в епоху V3 і R1, так залишається і в V4.

Різниця полягає в тому, що на цей раз він не веде цінову війну в межах звичайного контекстного вікна, а продовжує знижувати ціни за умови 1M контексту + можливостей агента.

За офіційною ціною DeepSeek:

Вхід з попаданням у кеш V4-Flash — 0,2 юаня за мільйон токенів, вхід без попадання у кеш — 1 юань за мільйон токенів, вихід — 2 юані за мільйон токенів;

Вхід з попаданням у кеш: 1 юань за мільйон токенів, вхід без попадання у кеш: 12 юанів за мільйон токенів, вихід: 24 юані за мільйон токенів.

Порівняйте його з іншими вітчизняними моделями:

Порівняно з阿里Qwen3.6-Plus у діапазоні 256K–1M, ціна виводу V4-Pro приблизно вдвічі нижча, а V4-Flash ще нижча.

Порівняно з серією Xiaomi MiMo Pro у діапазоні 256K–1M, V4-Flash і V4-Pro значно дешевші.

Контекст Kimi K2.6 становить 256K, тоді як контекст V4-Pro довший і дешевший; V4-Flash зменшує витрати на часті виклики до іншого рівня.

Це має велике значення для корпоративного застосування.

Оскільки 1M контексту означає, що модель може одночасно прочитати весь кодовий репозиторій, товстий пакет договорів, кілька сотень сторінок проспекту, довготривалі протоколи засідань або історичний стан, накопичений під час послідовного виконання завдань агентом.

Раніше багато корпоративних застосунків застрягали саме тут: можливості моделі достатні, але контексту не вистачає; контексту достатньо, але ціна занадто висока; ціна прийнятна, але стабільність моделі недостатня.

Наприклад, підприємство створює агента для інвестиційних досліджень, який має одночасно аналізувати річні звіти компаній, телеконференції з фінансових результатів, галузеві звіти, новини про конкурентів та внутрішні меморандуми.

Коли контекст має лише 128K або 256K, система часто повинна постійно розрізняти, шукати та резюмувати, і інформація втрачається під час багаторазового стиснення.

Контекст 1M дозволяє моделі зберігати більше оригінального матеріалу, зменшуючи ймовірність пропусків і розривів.

Наприклад, агент коду.

Це не просто написання кількох рядків коду одразу, а зчитування репозиторію, розуміння залежностей, зміна файлів, запуск тестів та виправлення помилок на основі повідомлень про помилки. Цей процес повторно витрачає токени.

Якщо кожен крок дуже дорогий, агент зможе лише проводити демонстрації, але якщо токени достатньо дешеві, він зможе вступити у справжній процес розробки.

Це також промислова вартість V4.

Він може й не бути найпотужнішою моделлю, але стати найчастіше використовуваною моделлю для бізнесу.

DeepSeek знову перетворив ІІ з виключного інструменту великих компаній на продуктивний інструмент, який можна масштабно впроваджувати у різних галузях.

Справжня цінність V4

Коли 1M контексту досягає промислової лінії за дуже низькою ціною, справжня вага DeepSeek V4 проявляється.

Все це побудовано на основі ще недостатньо досконалої вітчизняної обчислювальної потужності.

Зіткнувшись із системними розривами в екосистемі китайських чіпів, команда DeepSeek не вирішила чекати дозрівання екосистеми перед запуском.

Вони неодноразово відкладали термін випуску, витрачаючи місяці на глибоку спільну налагодження з партнерами, такими як Huawei, — така інженерна складність набагато перевищує зовнішні уявлення.

Тому досягнення V4 наблизитися до найкращих пропрієтарних моделей щодо висновків та здатності агента на китайських обчислювальних потужностях є особливо важливим.

V4 довів, що навіть у разі поступового відставання від апаратної екосистеми, китайська команда все ще може досягти конкурентоспроможної продуктивності завдяки максимальним інвестиціям у інженерію та інноваціям у сфері спільної роботи програмного та апаратного забезпечення.

Звичайно, до повної зрілості ще є відстань.

Повнота інструментарію платформи Ascend, стабільність кластерів надзвичайно великого масштабу та глибока оптимізація для більшості вертикальних сценаріїв вимагають подальших спільних зусиль усіх учасників галузі.

Але успіх V4 проклав шлях, який можна використати як приклад для наступних моделей.

Це надало сильний поштовх для автономії та контролю всього AI-ланцюжка поставок.

У сучасних умовах великої невизначеності зовнішнього середовища ця стійкість, яка дозволяє переборювати обмеження, заслуговує на більше поваги, ніж прості параметричні показники.

Не піддавайся славі, не бійся зловживань, дотримуйся шляху і будь чесним із себе.

Цей текст від офіційного DeepSeek є найкращим коментарем до нього.