Selon le tweet officiel d’Ollama du 27 avril, le modèle phare DeepSeek V4 Pro, publié le 24 avril par la société chinoise d’IA DeepSeek, fait désormais son entrée officielle dans le répertoire d’Ollama en mode cloud ; les utilisateurs peuvent appeler ce modèle avec une seule ligne de commande, via des outils d’agents courants tels que Claude Code, Hermes Agent, OpenClaw, Codex, OpenCode, etc. C’est une synchronisation parmi les plus rapides d’Ollama pour intégrer des modèles de pointe — entre la publication des poids par DeepSeek et le lancement d’Ollama Cloud, il ne s’est écoulé que trois jours.
DeepSeek V4 Pro : 1,6 T de paramètres, 1 M de contexte
Le V4 Pro adopte une architecture Mixture-of-Experts, avec une taille totale de paramètres de 1,6 trillion (49 milliards de paramètres actifs), et une fenêtre de contexte de 1M token. Des benchmarks tiers, Artificial Analysis, indiquent que le V4 Pro, sur des références de programmation comme SWE-bench (80,6 %), LiveCodeBench (93,5 %) et Terminal-Bench (67,9 %), se classe en tête du peloton des modèles open source au même niveau que le modèle open source de Kimi K2.6, avec un Intelligence Index global inférieur d’un “cran” à celui de Kimi K2.6.
En parallèle, DeepSeek a également publié un modèle plus léger, V4 Flash ; les deux adoptent une licence MIT, avec un code open source, et les poids peuvent être téléchargés depuis Hugging Face.
Inférence dans le cloud Ollama : les poids ne sont pas téléchargés en local
deepseek-v4-pro:cloud est un modèle Ollama Cloud — l’inférence s’effectue sur le cloud d’Ollama, et les poids ne sont pas téléchargés sur la machine de l’utilisateur. C’est la méthode standard d’Ollama pour gérer les modèles ultra-larges : auparavant, Kimi K2.6 a aussi été intégré de la même manière. Pour les utilisateurs, l’avantage majeur est de ne pas avoir besoin de plusieurs dizaines de GPU pour appeler un modèle de niveau phare ; en contrepartie, il faut toujours une connexion réseau et l’allocation des ressources de calcul dépend de la charge du cloud d’Ollama.
Pour exécuter entièrement en local, il faut obtenir les poids deepseek-ai/DeepSeek-V4-Pro depuis Hugging Face, et utiliser une version quantifiée INT4 (comme les GGUF publiés par Unsloth) ainsi qu’une configuration multi-cartes GPU, pour que cela soit viable. En général, le matériel grand public ne suffit pas à faire tourner le modèle complet.
Une ligne de commande pour enchaîner Claude Code, Hermes Agent, OpenClaw
Ollama publie en même temps des instructions de lancement (launcher) pour l’intégration avec les outils d’agents grand public :
L’objectif est le suivant : auparavant, pour remplacer un modèle par DeepSeek dans Claude Code, les développeurs devaient passer par une API compatible OpenAI afin d’effectuer eux-mêmes l’enchaînement, de gérer les endpoints et l’authentification ; maintenant, il suffit d’une ligne de commande via Ollama pour le faire. Pour les utilisateurs qui exploitent intensivement Claude Code, cela fournit un chemin rapide pour remplacer un modèle Anthropic par DeepSeek (ou, de façon analogue, Kimi) afin de réduire les coûts.
Retours des testeurs précoces : de 30 tok/s jusqu’à un pic à 1,1 tok/s
Les discussions de la communauté sous le tweet indiquent que la vitesse de l’inférence cloud varie selon la charge du cloud d’Ollama. Plusieurs testeurs précoces rapportent que pendant les heures de pointe la vitesse est plus lente : elle passerait de la cadence habituelle de 30 tokens/s à un niveau d’environ 1,1 tokens/s. L’utilisateur @benvargas a directement publié une capture d’écran en se plaignant de « Need More Compute ». Dans une autre réponse, Ollama reconnaît que l’équipe officielle « joue aussi avec ce modèle », ce qui suggère que le trafic est encore en phase d’exploration et qu’une planification complète des capacités n’a pas encore été réalisée.
Pour les développeurs qui recherchent une vitesse stable en production, la recommandation actuelle est la suivante : utiliser le mode cloud comme phase de test de prototype et d’évaluation des coûts, tandis que pour un produit officiel il faudra soit construire une infrastructure d’inférence avec GPU en interne, soit choisir une API commerciale. Le tutoriel complet d’Ollama a été mis à jour pour inclure la section V4 Pro et des explications sur les compromis entre cloud et local.
Cet article DeepSeek V4 Pro sur Ollama Cloud : Claude Code enchaîné en un clic est apparu le plus tôt sur Chaîne d’actualité ABMedia.
Related News
Guo Mingyi : OpenAI veut fabriquer un téléphone avec des agents IA, MediaTek, Qualcomm et Luxshare Precision constituent la chaîne d’approvisionnement clé
Cloud Tencent QClaw connecte le framework Hermes, prend en charge le basculement entre plusieurs modèles, comme DeepSeek-V4 Pro
La voix de xAI Grok prend en charge la ligne d’assistance client de Starlink, 70% des appels sont clôturés automatiquement
DeepRoute.ai système d’aide à la conduite avancée dépasse 300 000 véhicules déployés : objectif 2026 1 000 000 de flotte de véhicules urbains NOA
DeepSeek V4-Flash arrive sur Ollama Cloud, hôtes américains : Claude Code, OpenClaw connexion en un clic