DeepSeek V4-Flash появился в Ollama Cloud, американский сервер: Claude Code, OpenClaw — в один клик подключить

ChainNewsAbmedia

Новости индустрии ИИ Инструменты и приложения ИИ

2026-04-24 10:45:01

Локальный инструмент для запуска моделей AI Ollama 24/4 публично объявил на платформе X, что включит модель V4-Flash, выпущенную за день до этого китайским AI-стартапом DeepSeek, в сервис Ollama Cloud. Инференс-хост размещён в США, и предоставлены три набора команд в один клик, чтобы разработчики могли напрямую подключить V4-Flash к популярным рабочим потокам разработки AI, таким как Claude Code, OpenClaw и Hermes.

deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…

— ollama (@ollama) April 24, 2026

DeepSeek V4 Preview：две версии по размеру, 1M контекст

Согласно объявлению от 4/24, опубликованному DeepSeek в официальной документации API, DeepSeek-V4 Preview одновременно открывает исходный код в двух версиях по размеру:

Модель Общее количество параметров Активные параметры Назначение DeepSeek-V4-Pro 1,6 трлн 49 млрд Цель — флагман в закрытом контуре DeepSeek-V4-Flash 2,840 млрд 130 млрд Быстрое, эффективное, недорогое

Обе версии построены на архитектуре Mixture-of-Experts（MoE）и изначально поддерживают контекст длиной 1 млн tokens. В объявлении DeepSeek заявляет: «1M контекст теперь является значением по умолчанию для всех официальных сервисов DeepSeek».

Инновация в архитектуре: DSA разрежённое внимание＋сжатие по токенам

Ключевые улучшения архитектуры в серии V4 включают:

Сжатие по токенам в сочетании с DSA（DeepSeek Sparse Attention）— для существенного сокращения затрат на вычисления инференса и памяти для KV-кэша в сценариях сверхдлинного контекста

По сравнению с V3.2: в сценарии контекста 1 млн tokens для V4-Pro инференс на один токен требует лишь 27% FLOPs, а KV cache — лишь 10%

Поддержка переключения между двумя режимами: Thinking и Non-Thinking, для потребностей глубинного рассуждения под разные задачи

На уровне API одновременно совместимы спецификации OpenAI ChatCompletions и Anthropic APIs, снижая стоимость миграции для существующих клиентов Claude／GPT.

Три команды запуска в один клик от Ollama Cloud

На официальной странице моделей Ollama, в модели, идентификатор которой — deepseek-v4-flash:cloud, предоставляется облачный сервис инференса. Разработчики могут напрямую подключить V4-Flash к существующим рабочим потокам разработки AI с помощью следующих трёх команд:

Рабочий поток Команда Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes

Стоит обратить внимание на сигнал «американского хоста». Для корпоративных пользователей и разработчиков из Европы и США главная проблема при использовании китайских open-source моделей — это возврат данных в Китай; выбор Ollama разместить слой инференса V4-Flash в США означает, что prompt и содержимое кода не покидают юрисдикцию США, снижая трение на уровне комплаенса и суверенитета данных.

Почему это важно для индустрии AI

Соединив DeepSeek V4-Flash, Ollama Cloud и Claude Code, которые ранее существовали как независимые экосистемы, возникает три смысла:

Маршрут по затратам: активных 130 млрд параметров в V4-Flash намного меньше, чем у GPT-5.5（ввод 5 долларов, вывод 30 долларов／миллион tokens）и таких флагманов, как Claude Opus 4.7; для задач небольших и средних агентов, пакетных суммаризаций, автоматизации тестов и т.п. ожидается заметное снижение себестоимости на единицу

Промежуточный слой георисков: поскольку Ollama выступает как зарегистрированный в США посреднический слой инференса, это позволяет корпоративным пользователям китайской исходной модели обходить опасения «данные напрямую отправляются на серверы DeepSeek в Пекине» — это практическое решение для международного распространения open-source моделей

Мгновенное переключение для разработчиков: пользователи Claude Code и OpenClaw могут переключать модель в одну строку в командной строке, не нужно менять структуру prompt или настройки IDE; для сценариев вроде «мульти-модельного регрессионного тестирования» и «пакетных задач с чувствительностью к стоимости» это действительно высвобождает производительность

Связь с предыдущими новостями о DeepSeek

На этот раз выпуск V4 и быстрая интеграция с Ollama Cloud происходят на фоне того, что DeepSeek ведёт переговоры о первом раунде внешнего финансирования и оценивается в 200 млрд долларов. V4 — ключевое продуктовое подтверждение в процессе капитализации компании DeepSeek; а открытая стратегия плюс быстрое распространение с международным партнёром-хостом — это «гонка на скорость» перед установлением монополии на экосистему разработчиков. Для OpenAI и Anthropic новая переменная заключается в том, что модель-заменитель с открытым исходным кодом, которая может переключаться в одну строку прямо внутри Claude Code, усиливает борьбу за лидерство в agent-рабочих потоках.

Эта статья DeepSeek V4-Flash вышел на Ollama Cloud, американский хост: Claude Code, OpenClaw — подключение в один клик впервые появилась на 鏈新聞 ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.