Локальный инструмент для запуска моделей AI Ollama 24/4 публично объявил на платформе X, что включит модель V4-Flash, выпущенную за день до этого китайским AI-стартапом DeepSeek, в сервис Ollama Cloud. Инференс-хост размещён в США, и предоставлены три набора команд в один клик, чтобы разработчики могли напрямую подключить V4-Flash к популярным рабочим потокам разработки AI, таким как Claude Code, OpenClaw и Hermes.
deepseek-v4-flash is now available on Ollama’s cloud! Hosted in the US. Try it with Claude Code: ollama launch claude –model deepseek-v4-flash:cloud Try it with OpenClaw: ollama launch openclaw –model deepseek-v4-flash:cloud Try it with Hermes: ollama launch hermes…
— ollama (@ollama) April 24, 2026
DeepSeek V4 Preview:две версии по размеру, 1M контекст
Согласно объявлению от 4/24, опубликованному DeepSeek в официальной документации API, DeepSeek-V4 Preview одновременно открывает исходный код в двух версиях по размеру:
Модель Общее количество параметров Активные параметры Назначение DeepSeek-V4-Pro 1,6 трлн 49 млрд Цель — флагман в закрытом контуре DeepSeek-V4-Flash 2,840 млрд 130 млрд Быстрое, эффективное, недорогое
Обе версии построены на архитектуре Mixture-of-Experts(MoE)и изначально поддерживают контекст длиной 1 млн tokens. В объявлении DeepSeek заявляет: «1M контекст теперь является значением по умолчанию для всех официальных сервисов DeepSeek».
Инновация в архитектуре: DSA разрежённое внимание+сжатие по токенам
Ключевые улучшения архитектуры в серии V4 включают:
Сжатие по токенам в сочетании с DSA(DeepSeek Sparse Attention)— для существенного сокращения затрат на вычисления инференса и памяти для KV-кэша в сценариях сверхдлинного контекста
По сравнению с V3.2: в сценарии контекста 1 млн tokens для V4-Pro инференс на один токен требует лишь 27% FLOPs, а KV cache — лишь 10%
Поддержка переключения между двумя режимами: Thinking и Non-Thinking, для потребностей глубинного рассуждения под разные задачи
На уровне API одновременно совместимы спецификации OpenAI ChatCompletions и Anthropic APIs, снижая стоимость миграции для существующих клиентов Claude/GPT.
Три команды запуска в один клик от Ollama Cloud
На официальной странице моделей Ollama, в модели, идентификатор которой — deepseek-v4-flash:cloud, предоставляется облачный сервис инференса. Разработчики могут напрямую подключить V4-Flash к существующим рабочим потокам разработки AI с помощью следующих трёх команд:
Рабочий поток Команда Claude Code ollama launch claude --model deepseek-v4-flash:cloud OpenClaw ollama launch openclaw --model deepseek-v4-flash:cloud Hermes ollama launch hermes
Стоит обратить внимание на сигнал «американского хоста». Для корпоративных пользователей и разработчиков из Европы и США главная проблема при использовании китайских open-source моделей — это возврат данных в Китай; выбор Ollama разместить слой инференса V4-Flash в США означает, что prompt и содержимое кода не покидают юрисдикцию США, снижая трение на уровне комплаенса и суверенитета данных.
Почему это важно для индустрии AI
Соединив DeepSeek V4-Flash, Ollama Cloud и Claude Code, которые ранее существовали как независимые экосистемы, возникает три смысла:
Маршрут по затратам: активных 130 млрд параметров в V4-Flash намного меньше, чем у GPT-5.5(ввод 5 долларов, вывод 30 долларов/миллион tokens)и таких флагманов, как Claude Opus 4.7; для задач небольших и средних агентов, пакетных суммаризаций, автоматизации тестов и т.п. ожидается заметное снижение себестоимости на единицу
Промежуточный слой георисков: поскольку Ollama выступает как зарегистрированный в США посреднический слой инференса, это позволяет корпоративным пользователям китайской исходной модели обходить опасения «данные напрямую отправляются на серверы DeepSeek в Пекине» — это практическое решение для международного распространения open-source моделей
Мгновенное переключение для разработчиков: пользователи Claude Code и OpenClaw могут переключать модель в одну строку в командной строке, не нужно менять структуру prompt или настройки IDE; для сценариев вроде «мульти-модельного регрессионного тестирования» и «пакетных задач с чувствительностью к стоимости» это действительно высвобождает производительность
Связь с предыдущими новостями о DeepSeek
На этот раз выпуск V4 и быстрая интеграция с Ollama Cloud происходят на фоне того, что DeepSeek ведёт переговоры о первом раунде внешнего финансирования и оценивается в 200 млрд долларов. V4 — ключевое продуктовое подтверждение в процессе капитализации компании DeepSeek; а открытая стратегия плюс быстрое распространение с международным партнёром-хостом — это «гонка на скорость» перед установлением монополии на экосистему разработчиков. Для OpenAI и Anthropic новая переменная заключается в том, что модель-заменитель с открытым исходным кодом, которая может переключаться в одну строку прямо внутри Claude Code, усиливает борьбу за лидерство в agent-рабочих потоках.
Эта статья DeepSeek V4-Flash вышел на Ollama Cloud, американский хост: Claude Code, OpenClaw — подключение в один клик впервые появилась на 鏈新聞 ABMedia.
Related News
DeepSeek выпускает V4 open-source preview, технический рейтинг 3206 превзошёл GPT-5.4
Tencent выпустила в открытый доступ Hy3 в предварительной версии; базовые тесты кода улучшены на 40% по сравнению с предыдущим поколением
OpenAI 推出 GPT-5.5:12M контекст, AA-индекс на первом месте, Terminal-Bench 82,7% переписывает эталон для агентов
Google Юльс публикует список кандидатов на открытую версию и повторно позиционируется как платформа для разработки продуктов end-to-end
Открывайте ChatGPT Workspace Agents от OpenAI: с драйвером Codex, общими ресурсами для команды и интеграцией с Slack