DeepSeek выпускает V4 open-source preview, технический рейтинг 3206 превзошёл GPT-5.4

DeepSeek V4開源預覽版

DeepSeek 24 апреля официально выпустила серию V4 preview, открытую по лицензии MIT; веса моделей также уже загружены на Hugging Face и ModelScope. Согласно техническому отчету DeepSeek V4, V4-Pro-Max (режим максимальной мощности вывода) набирает 3206 баллов на бенчмарке Codeforces, опережая GPT-5.4.

Характеристики двух архитектур MoE-моделей

Согласно техническому отчету DeepSeek V4, серия V4 включает две модели с архитектурой смеси экспертов (MoE):

V4-Pro: общее число параметров 1.6T, активируется 49B на каждый токен, поддержка контекста 1M токенов

V4-Flash: общее число параметров 284B, активируется 13B на каждый токен, также поддержка контекста 1M токенов

Согласно техническому отчету, в контексте 1M одноканальный вывод FLOPs для V4-Pro составляет лишь 27% от V3.2; KV-кэш снижен до 10% от V3.2. Это в основном связано с обновлением архитектуры смешанного внимания (компрессированное разреженное внимание CSA + сильно компрессированное внимание HCA). Объем данных предобучения превышает 32T токенов; оптимизатор обновлен до Muon.

Методология постобучения: онлайн-стратегическое дистиллирование вместо смешанного усиленного обучения

Согласно техническому отчету DeepSeek V4, ключевое обновление постобучения V4 заключается в том, что онлайн-стратегическое дистиллирование (On-Policy Distillation, OPD) полностью заменяет этап смешанного усиленного обучения (mixed RL) V3.2. Новая схема состоит из двух шагов: сначала для областей, включая математику, программирование, Agent и следование инструкциям, отдельно обучают предметных экспертов (SFT + усиленное обучение GRPO); затем с помощью многопрофильного учителя OPD дистиллируют способности более чем десяти экспертов в единую модель, выравнивая через logit, чтобы избежать типичных конфликтов способностей в традиционных методах.

Отчет также вводит генеративную модель наград (Generative Reward Model, GRM): для задач, которые трудно проверять правилами, обучают модель на небольшом количестве разнообразных ручных разметочных данных, чтобы модель одновременно выполняла функции генерации и оценки.

Результаты бенчмарков: кодирование впереди, в задачах рассуждения по знаниям сохраняется отставание

Согласно техническому отчету DeepSeek V4, результаты сравнения V4-Pro-Max с Opus 4.6 Max, GPT-5.4 xHigh и Gemini 3.1 Pro High (без учета недавно опубликованных GPT-5.5 и Opus 4.7):

Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ наивысший результат на всем поле

LiveCodeBench:93.5 → наивысший результат на всем поле

SWE Verified:80.6, отставание от Opus 4.6 на 0.2 п.п. (80.8)

GPQA Diamond:90.1, отставание от Gemini 3.1 Pro (94.3)

SimpleQA-Verified:57.9, отставание от Gemini 3.1 Pro (75.6)

HLE:37.7, отставание от Gemini 3.1 Pro (44.4)

Технический отчет также отмечает, что приведенные выше сравнения не включают недавно опубликованные GPT-5.5 и Opus 4.7; разрыв между V4 и моделями последнего закрытого поколения требует подтверждения сторонними оценками.

Часто задаваемые вопросы

Какие условия открытой лицензии у DeepSeek V4 preview и где их можно получить?

Согласно официальному объявлению DeepSeek от 24 апреля, серия V4 открыта по лицензии MIT; веса моделей опубликованы на Hugging Face и ModelScope; лицензия применима как для коммерческого, так и для академического использования.

В чем различие по масштабу параметров между DeepSeek V4-Pro и V4-Flash?

Согласно техническому отчету DeepSeek V4, общее число параметров V4-Pro составляет 1.6T, активируется 49B на каждый токен; общее число параметров V4-Flash составляет 284B, активируется 13B на каждый токен. Обе модели поддерживают контекст 1M токенов.

Каковы результаты бенчмарка для DeepSeek V4-Pro-Max по сравнению с GPT-5.4 и Gemini 3.1 Pro?

Согласно техническому отчету DeepSeek V4, V4-Pro-Max превосходит GPT-5.4 и Gemini 3.1 Pro в двух бенчмарках: Codeforces (3206 баллов) и LiveCodeBench (93.5), но все еще отстает от Gemini 3.1 Pro в знания-ориентированных бенчмарках (GPQA Diamond, SimpleQA-Verified, HLE). В сравнительной группе не учтены GPT-5.5 и Opus 4.7.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев