Сообщение Gate News, 24 апреля — DeepSeek выпустила серию моделей V4 с открытым исходным кодом под лицензией MIT; веса теперь доступны на Hugging Face и ModelScope. В серии есть две модели (MoE) с экспертами-смесителями: V4-Pro с 1,6 трлн общих параметров и 49 млрд активируемых на токен, и V4-Flash с 284 млрд общих параметров и 13 млрд активируемых на токен. Обе поддерживают контекстное окно в 1 млн токенов.
Архитектура включает три ключевых улучшения: гибридный механизм внимания, сочетающий сжатое разреженное внимание (CSA) и сильно сжатое внимание (HCA), что существенно снижает издержки для длинного контекста — FLOPs инференса V4-Pro для контекста 1M составляют всего 27% от V3.2, а KV-кэш (VRAM для хранения исторической информации во время инференса) равен лишь 10% от V3.2; manifold-constrained гиперсвязи (mHC) вместо традиционных residual-связей для повышения устойчивости распространения сигнала между слоями; и оптимизатор Muon для более быстрой сходимости обучения. Предобучение использовало более 32 трлн токенов данных.
Постобучение применяет двухэтапный подход: сначала обучение предметно-ориентированных экспертов с помощью supervised fine-tuning (SFT) и reinforcement learning через GRPO, затем объединение их в единую модель посредством онлайн-дистилляции. V4-Pro-Max (highest inference mode) заявляет, что это самая сильная открытая модель с топовыми бенчмарками по кодированию и существенно сократившимися разрывами с закрытыми моделями фронтира по задачам рассуждения и агентным задачам. V4-Flash-Max достигает уровня рассуждений Pro при достаточном вычислительном бюджете, но ограничена масштабом параметров в чисто знаниях и сложных агентных задачах. Веса хранятся в смешанном формате точности FP4+FP8.
Related News
OpenAI 推出 GPT-5.5:12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов
Google Юльс публикует список кандидатов на открытую версию и повторно позиционируется как платформа для разработки продуктов end-to-end
DeepSeek обсуждает первый раунд внешнего финансирования, оценка 20 млрд долларов: новая максимальная оценка для китайской индустрии ИИ