Сообщение Gate News, 24 апреля — DeepSeek V4-Pro и DeepSeek V4-Flash были официально выпущены и с открытым исходным кодом 24 апреля; при этом длина контекстной обработки была существенно расширена с 128K до 1M, что соответствует почти 10-кратному увеличению пропускной способности. Huawei Computing объявила, что ее продукты Ascend supernode полностью поддерживают модели серии DeepSeek V4 благодаря тесному сотрудничеству между технологиями чипа и модели.
Ascend 950 обеспечивает развертывание инференса моделей DeepSeek V4 с высокой пропускной способностью и низкой задержкой за счет методов склеивания ядер и параллелизма в несколько потоков, чтобы снизить накладные расходы на вычисления Attention и обращения к памяти. Для DeepSeek V4-Pro с входом 8K Ascend 950 достигает примерно 20ms TPOT при 4,700 TPS на одно устройство в режиме Decode; для DeepSeek V4-Flash при входе до 8K он достигает примерно 10ms TPOT при пропускной способности 1,600 TPS. Серия Ascend A3 supernode также обеспечивает полную совместимость: предоставлены эталонные реализации для быстрого дообучения. На основе supernode Ascend A3 из 64 карт с большим режимом EP DeepSeek V4-Flash достигает более 2,000 TPS на одну карту в режиме Decode в сценариях вход-выход 8K/1K, используя движок инференса vLLM. Полные линейки продуктов Huawei Ascend A2, A3 и 950 поддерживают как DeepSeek V4-Flash, так и V4-Pro.
Huawei Cloud объявила о совместимости с DeepSeek V4 для самых первых, предоставив разработчикам сервисы API token в один клик через свою платформу MaaS. Huawei Cloud оптимизировала возможности системного уровня, уровня операторов и уровня кластера, чтобы обеспечить быструю адаптацию моделей и высокопроизводительное развертывание. Компании, включая Kingsoft WPS и 360, уже интегрировали новую модель DeepSeek через Huawei Cloud.
Cambricon также объявила о совместимости Day 0 с DeepSeek V4-Flash и V4-Pro на основе фреймворка инференса vLLM, а код адаптации был с открытым исходным кодом опубликован для сообщества GitHub. Ранее Cambricon уже достигла совместимости для самых первых при выпуске DeepSeek V3.2 в прошлом году: она провела глубокую оптимизацию совместной производительности ПО и оборудования на моделях серии DeepSeek.
Связанные статьи
Google планирует инвестировать до $40 Billion в Anthropic, обещает 5+ гигаватт вычислительных мощностей
Швейцарский регулятор FINMA предупреждает, что инструмент ИИ Anthropic Mythos несет финансовые риски
Fere AI завершает раунд финансирования на $1,3 млн под руководством Ethereal Ventures
Anthropic откатывает изменения Claude Code после снижения качества; все исправления завершены
Сооснователь NeoSoul Каэлан: Индустрия ИИ должна позволять существовать игрушкам; инновации часто начинаются с экспериментальных продуктов
Meta развернет десятки миллионов чипов AWS Graviton5 в рамках многолетней сделки на миллиарды долларов